Computer Engineering/DataPlatform 5

ETL과 ELT의 차이, ELT가 더 가치있는 이유 그리고 EtLT

ETL과 ELT의 차이 ETL과 ELT의 차이는 데이터를 소스에서 타켓으로Ingestion하는 과정에서 Transafrom을 언제 하는지에 대한 차이입니다. ETL은 Extract-Transfrom-Load 순으로 진행됩니다. 반면에 ELT는 Extract-Load-Transform순으로 진행됩니다. 많은 글에서 ELT가 데이터를 Transform하지 않은 상태로 DataLake 또는 Data Warehouse에 데이터를 적재하지 않기 때문에 원시 데이터로 부터 다양한 가공이 가능해서 더 데이터를 잘 활용할 수 있다고 설명하는 부분에 집중합니다. 하지만, ELT의 패러다임은 단순히 Transformation 순서만 바뀐 것이 아니라 Ingestion layer와 Transformation layer를 나..

Data Platform이란? / 데이터플랫폼이란

데이터 엔지니어의 가장 중요한 역할 중 하나는 데이터플랫폼을 구축하는 일이라고 생각합니다. 데이터 플랫폼은 기존의 데이터웨어하우스 중심의 시스템에서 벗어나 다양한 데이터를 다루고, 확장 가능하고 더 데이터를 잘 활용할 수 있는 종합적인 플랫폼을 의미합니다. 참고: 데이터 웨어하우스와 데이터플랫폼의 차이 이 글은 데이터 플랫폼의 구성에 대해서 계속 공부하면서 업데이트해나갈 예정입니다. 그리고 각각의 구성요소들을 다른 글에서 계속해서 업데이트를 해나가려고 합니다. 데이터 플랫폼은 다양한 구성요소가 있고, 각각의 구성요소 또한 다양한 서비스와 기술스택으로 구성할 수 있어서 경험을 하고 공부를 하면서 계속 글을 업데이트할 예정입니다. 데이터플랫폼이란? Data Platform은 다양한 대규모의 데이터를 수집, ..

데이터 웨어하우스와 데이터 플랫폼의 차이

기존의 데이터 분석환경은 데이터웨어하우스 중심으로 구성되어있었다면 근래의 데이터 플랫폼은 다양한 대규모의 데이터를 수집, 저장, 관리, 분석하고 거버넌스 할 수 있는 종합적인 시스템을 의미합니다. 그렇기 때문에 다양한 계층과 소프트웨어로 구성되어 있습니다. 기존의 전통적인 단일 웨어하우스와 다른 점은 각각의 레이어를 분리하고 보다 다양한 데이터를 다루고 컴퓨팅이 확장가능하도록 구성했다는 점입니다. 단일 데이터 웨어하우스 시스템 위에 그림은 데이터웨어하우스 중심으로 구성된 시스템입니다. 이렇게 시스템을 구성했을 때 단점은 데이터웨어하우스에서 다룰 수 없는 데이터 포맷들은 다룰 수 없고, 컴퓨팅 리소스 또한 데이터웨어하우스에 종속적입니다. 데이터 플랫폼에서는 컴퓨팅과 분리된 오브젝트 기반의 스토리지인 데이터..

Snowflake 소개 및 사용법

Introduction Snowflake는 Datawarehouse solution의 이름이자 회사의 이름입니다. 아직은 한국에서는 사용하는 회사를 본 적이 없지만, 미국에서는 굉장히 많은 회사에서 이용 중인 솔루션입니다. 최근에 IPO 신청하면서 미국 주식에 투자하는 국내 투자자들과 엔지니어들도 관심을 가지고 있지 않을까 하는 생각이 듭니다. 그래서 이번에 회사에서 Datawarehouse solution을 선정하기 위해서 Snowflake를 Research 및 Test한 내용과 개인적으로 Udemy에서 강의를 들으면서 공부한 내용을 이 글에서 소개하려고 합니다. 먼저 간단하게 Snowflake의 핵심 내용 및 Key Summary를 요약해보면, Snowflake의 가장 큰 특징은 위에서 보는 것과 같..

SaaS의 홍수 시대에서 Data Warehouse/Lake 구축은 어떻게 해야 할까?

지금은 바야흐로 SaaS의 시대이다. 출처: https://www.blendr.io/add-native-integrations/ 각 분야 별 대표 서비스 (사실 내가 들어본 각 분야별 서비스) Cloud Infra: AWS, Azure, GCP, Alibaba CRM: Salesforce, Hubspot CRM, ActiveCampaign 등 Marketing: Marketo, Hubspot, Mailchimp 등 CS: Zendesk, Sendbird Desk, Freshdesk HR: BambooHR, Workday Hiring: Lever, Greenhouse Payment: Stripe, PayPal 이런 수많은 SaaS들이 나오면서 여러 SaaS의 구독을 관리하는 서비스가 나오기도 하고, 여러 ..

반응형