data engineering 2

데이터 레이크 + 데이터 웨어하우스 = 데이터 플랫폼

근래의 데이터 플랫폼은 다양한 계층(Ingestion, Lake, Data Warehouse, Procssing)을 조합 해 놓은 서비스를 의미한다. 이전에는 단주로 Datawarehouse위주로만 이루어져 있었다면 이제 조금 더 계층이 나뉘어졌다. 단일 데이터 웨어하우스 시스템 Data lake와 Processing Layer를 추가한 데이터 플랫폼 단일 데이터 웨어하우스 시스템만 구축하는 경우와 중간에 data lake를 추가해서 데이터 플랫폼을 구축하는 경우의 차이 - 스키마의 변경을 처리하는 방법. lake에서는 데이터를 파일로 가지고 있기 때문에 서로 다른 schema 데이터를 가지고 있을 수 있다. 즉, Process Layer에서 해당 변경을 처리하는 로직을 가지고 있다면 스키마의 변경에 유..

Airflow k8s 로컬 개발환경 셋팅

Introduction 이 글의 목표는 local에서 kubernates를 docker container에서 실행시키기 위해서 kinder를 설치하고, helm를 이용해서 airflow를 설치하고 배포하는 방법을 정리하는 것입니다. Airflow는 Production에서 kubernates(이하 k8s)에 배포하는 것을 권장하기 때문에 local 환경에서도 가능한한 k8s에서 실행시키는 것이 좋다라고 생각합니다. 그래서 kind와 helm을 이용해서 airflow를 local에서 kubernates위에서 실행시키기 위한 셋업 절차를 정리한 것을 공유하려고 합니다. 대부분의 내용은 공식문서 를 참고하여 작성하였습니다. 또, 이 글은 Mac 사용자를 기준으로 한 글입니다. Requirements kind 로..

반응형