분산 처리

💡대규모 분산 처리의 프레임워크💡 ✔️구조화 데이터와 비구조화 데이터 SQL로 데이터를 집계하는 경우, 먼저 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 스키마로 정함 => 스키마가 명확하게 정의된 데이터를 구조화된 데이터라고 한다! (기존의 데이터 웨어하우스에서는 항상 구조화된 데이터로 축적하는 것이 일반적이었음)  스키마가 없는 데이터를 비구조화 데이터라고 함! (자연 언어로 작성된 텍스트 데이터와 이미지, 동영상 등의 미디어 데이터가 포함됨) => 이 상태로는 SQL로 제대로 집계 X 비구조화 데이터를 분산 스토리지 등에 저장하고 그것을 분산 시스템에서 처리하는 것이 데이터 레이크의 개념임=> 데이터를 가공하는 과정에서 스키마를 정의하고, 구조화된 데이터로 변환함으로써 다른 데이터와 마..
JJunGyo
'분산 처리' 태그의 글 목록