data engineering 2

데이터 웨어하우스와 데이터 플랫폼의 차이

기존의 데이터 분석환경은 데이터웨어하우스 중심으로 구성되어있었다면 근래의 데이터 플랫폼은 다양한 대규모의 데이터를 수집, 저장, 관리, 분석하고 거버넌스 할 수 있는 종합적인 시스템을 의미합니다. 그렇기 때문에 다양한 계층과 소프트웨어로 구성되어 있습니다. 기존의 전통적인 단일 웨어하우스와 다른 점은 각각의 레이어를 분리하고 보다 다양한 데이터를 다루고 컴퓨팅이 확장가능하도록 구성했다는 점입니다. 단일 데이터 웨어하우스 시스템 위에 그림은 데이터웨어하우스 중심으로 구성된 시스템입니다. 이렇게 시스템을 구성했을 때 단점은 데이터웨어하우스에서 다룰 수 없는 데이터 포맷들은 다룰 수 없고, 컴퓨팅 리소스 또한 데이터웨어하우스에 종속적입니다. 데이터 플랫폼에서는 컴퓨팅과 분리된 오브젝트 기반의 스토리지인 데이터..

Airflow k8s 로컬 개발환경 셋팅

Introduction 이 글의 목표는 local에서 kubernates를 docker container에서 실행시키기 위해서 kinder를 설치하고, helm를 이용해서 airflow를 설치하고 배포하는 방법을 정리하는 것입니다. Airflow는 Production에서 kubernates(이하 k8s)에 배포하는 것을 권장하기 때문에 local 환경에서도 가능한한 k8s에서 실행시키는 것이 좋다라고 생각합니다. 그래서 kind와 helm을 이용해서 airflow를 local에서 kubernates위에서 실행시키기 위한 셋업 절차를 정리한 것을 공유하려고 합니다. 대부분의 내용은 공식문서 를 참고하여 작성하였습니다. 또, 이 글은 Mac 사용자를 기준으로 한 글입니다. Requirements kind 로..

반응형