데이터 수집

Amazon Redshift 웨어하우스를 대상으로 구성 저번 포스팅들을 통해 원하는 소스 시스템에서 데이터를 추출했는데 이제 Redshift 데이터 웨어하우스에 데이터를 로드하여 데이터 수집을 완료할 차례이다! => 로드 방법은 데이터 추출 산출물이 어떤 모습인지에 따라 다름 데이터 웨어하우스로 Amazon Redshift를 사용하는 경우 데이터를 추출한 후 로드하기 위해 S3와 통합하는 것은 매우 간단한다 우선 S3에서 읽기와 관련된 권한을 Redshift 클러스터에 직접 할당할 IAM 역할을 생성해야 하는데 IAM의 탐색 메뉴에서 역할을 선택하고 [역할 만들기]를 클릭한 후 선택할 AWS 서비스 목록에서 Redshift를 찾아 선택하고 [사용 사례 선택] 에서 'Redshift - Customizab..
MongoDB에서 데이터 추출 이번 예제에서는 집합(collection)에서 MongoDB 문서(document)의 하위 집합을 추출하는 방법을 다루고 있습니다! => 이 예제에서 MongoDB 집합에서 문서는 웹 서버와 같은 일부 시스템에서 기록된 이벤트를 나타냄 (env) pip install pymongo => MongoDB 데이터베이스에 연결하려면 먼저 PyMongo 라이브러리를 설치해야 한다 그 후 MongoDB의 Atlas에서 무료 MongoDB 클러스터를 생성하고, 데이터베이스를 생성한다! (env) pip install dnspython => MongoDB Atlas에서 호스팅하는 클러스터에 연결할 때 pymongo를 사용하려면 dnspython이라는 파이썬 라이브러리를 하나 더 설치해야 ..
이번 포스팅과 다음 포스팅을 통해 공통 시스템에서부터 또는 공통 시스템으로데이터를 내보내고 수집하기 위한 코드 예제를 이용해 공부를 해보겠슴다..!파이썬 환경 설정 앞으로 나올 모든 코드 예제는 파이썬과 SQL로 작성되며 오늘날 데이터 엔지니어링 분야에서 흔히 사용되는 오픈 소스 프레임워크를 사용한다 이번 실습에 사용된 라이브러리를 설치하기 전에 설치할 가상 환경을 만드는 것이 좋다 => 다양한 프로젝트 및 애플리케이션의 파이썬 라이브러리를 관리하는데 유용한 virtualenv 도구를 사용 (이를 통해 파이썬 라이브러리를 전역이 아닌 프로젝트에 맞는 범위 내에서 설치할 수 있음) $ python -m venv env 를 통해 env라는 가상 환경을 생성하고 window의 경우(제가 window 환경에서 ..
JJunGyo
'데이터 수집' 태그의 글 목록