Data Engineering/Kafka

"아파치 카프카 애플리케이션 프로그래밍 with 자바"교재의 학습 내용을 정리하였습니다    우선 토픽이란?  토픽은 카프카에서 데이터를 구분하기 위해 사용하는 단위임! => 토픽은 1개 이상의 파티션을 소유하고 있음 (파티션에는 프로듀서가 보낸 데이터들이 들어가 저장되는데 이 데이터를 '레코드' 라고 부름) 레코드에 대해 자세히 알아보고 가자 레코드는 타임스탬프, 메시지 키,  메시지 값, 오프셋, 헤더로 구성되어 있음 프로듀서가 생성한 레코드가 브로커로 전송되면 오프셋과 타임스탬프가 지정되어 저장됨 => 브로커에 한번 적재된 레코드는 수정할 수 없고 로그 리텐션 기간 또는 용량에 따라서만 삭제됨 로그 리텐션이란 카프카 브로커에 저장된 메시지(레코드)를 얼마나 오래 보관할지를 결정하는 정책임=> 카프카..
"아파치 카프카 애플리케이션 프로그래밍 with 자바" 교재의 학습 내용을 정리하였습니다  우선 시작하기에 앞서 카프카란? 카프카는 파이프라인, 스트리밍 분석, 데이터 통합 및 미션 크리티컬 애플리케이션을 위해 설계된 고성능 분산 이벤트 스트리밍 플랫폼임 => Pub-Sub 모델의 메시지 큐 형태로 동작하며 분산환경에 특화되어 있음 카프카 브로커 · 클러스터 · 주키퍼 카프카 브로커는 카프카 클라이언트와 데이터를 주고받기 위해 사용하는 주체이자, 데이터를 분산 저장하여 장애가 발생하더라도 안전하게 사용할 수 있도록 도와주는 애플리케이션이다! => 하나의 서버에는 한 개의 카프카 브로커 프로세스가 실행됨 (카프카 브로커 서버 1대로도 기본 기능이 실행되지만 데이터를 안전하게 보관하고 처리하기 위해 3대 이..
JJunGyo
'Data Engineering/Kafka' 카테고리의 글 목록