Data Engineering/Big Data

💡대규모 분산 처리의 프레임워크💡 ✔️구조화 데이터와 비구조화 데이터 SQL로 데이터를 집계하는 경우, 먼저 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 스키마로 정함 => 스키마가 명확하게 정의된 데이터를 구조화된 데이터라고 한다! (기존의 데이터 웨어하우스에서는 항상 구조화된 데이터로 축적하는 것이 일반적이었음)  스키마가 없는 데이터를 비구조화 데이터라고 함! (자연 언어로 작성된 텍스트 데이터와 이미지, 동영상 등의 미디어 데이터가 포함됨) => 이 상태로는 SQL로 제대로 집계 X 비구조화 데이터를 분산 스토리지 등에 저장하고 그것을 분산 시스템에서 처리하는 것이 데이터 레이크의 개념임=> 데이터를 가공하는 과정에서 스키마를 정의하고, 구조화된 데이터로 변환함으로써 다른 데이터와 마..
💡크로스 집계의 기본💡 ✔️ 트랜잭션 테이블, 크로스 테이블, 피벗 테이블  행과 열이 교차하는 부분에 숫자 데이터가 들어가기 때문에 이를 크로스 테이블이라고 부름 => 사람이 보기에는 편한 보고서이지만, 데이터베이스에서는 다루기 어려운 데이터 형식임(DB에서 행을 추가하는 것은 간단하지만, 열을 늘리는 것은 간단하지 X)   따라서, 보고서의 바탕이 되는 데이터는 행 방향으로만 증가하게 하는게 좋은데 이것을 트랜잭션 테이블이라고 함 트랜잭션 테이블에서 크로스 테이블로 변환하는 과정을 크로스 집계라고 함소량의 데이터를 크로스 집계하는데 편리한 것이 스프레드시트의 피벗 테이블 기능임  피벗 테이블에서는 행과 열이 교차하는 부분의 값은 자동으로 집계됨 결과를 크로스 테이블에 정리할 뿐만 아니라 그래프로 ..
💡빅데이터의 정착💡 ✔️분산 시스템에 의한 데이터 처리의 고속화  클라우드 서비스의 보급으로 기술적인 제약이 적어져 누구라도 마음만 먹으면 데이터를 분석할 수 있는 시대가 되었다 => 이제 대량의 데이터를 활용하여 새로운 가치를 창출하거나 의사 결정을 위해 이용하는 일이 보편화됨 "빅데이터"라는 단어를 자주 접하게 된 것은 2011~2012 기업들이 데이터 처리에 분산 시스템을 도입했을 무렵=> 빅데이터라는 단어가 여기저기서 사용되어 데이터를 비즈니스에 활용하자는 움직임이 활발해짐  빅데이터의 취급이 어려운 이유는 크게 2가지이다! 1. 데이터의 분석 방법을 모른다는 점=> 데이터가 있어도 그 가치를 창조하지 못한다면 의미 X 2. 데이터 처리에 수고와 시간이 걸린다는 점 => 지식이 있어도 시간을 ..
JJunGyo
'Data Engineering/Big Data' 카테고리의 글 목록