데이터 5

ETL과 ELT의 차이, ELT가 더 가치있는 이유 그리고 EtLT

ETL과 ELT의 차이 ETL과 ELT의 차이는 데이터를 소스에서 타켓으로Ingestion하는 과정에서 Transafrom을 언제 하는지에 대한 차이입니다. ETL은 Extract-Transfrom-Load 순으로 진행됩니다. 반면에 ELT는 Extract-Load-Transform순으로 진행됩니다. 많은 글에서 ELT가 데이터를 Transform하지 않은 상태로 DataLake 또는 Data Warehouse에 데이터를 적재하지 않기 때문에 원시 데이터로 부터 다양한 가공이 가능해서 더 데이터를 잘 활용할 수 있다고 설명하는 부분에 집중합니다. 하지만, ELT의 패러다임은 단순히 Transformation 순서만 바뀐 것이 아니라 Ingestion layer와 Transformation layer를 나..

데이터 관련 직무 정리 (데이터 엔지니어, 분석가, 데이터 사이언티스트, 머신러닝 엔지니어등)

이번 글에서는 데이터와 관련된 직무들을 정리해보려고 합니다. 최근에 AI가 많은 사용되면서 데이터의 중요성이 높아지게 됐고, 그 결과로 데이터와 관련된 많은 직무들이 나타났습니다. 그 전에도 사실 비슷한 업무들을 하는 사람들이 존재 했지만 지금 처럼 데이터 엔지니어, 머신러닝 엔지니어등이 직군이 제대로 분리되어 있지는 않았습니다. 그렇기 때문에 아직은 서버 엔지니어나 프론트 엔지니어에 비해서 인원도 적고, 회사 별로 하는 일도 조금씩 다르기 때문에 항상 취업을 준비하시는 분들에게 혼란이 있는 것 같습니다. 각각의 직무가 하는 일은 다르지만 하나의 공통점은 데이터플랫폼을 만들거나 데이터플랫폼을 기반으로 일을 한다는 사실입니다. 그래서 각각의 직무에 대해서 살펴보기 전에 데이터 플랫폼에 대한 간단한 설명과 ..

일상/정보 2023.02.28

데이터 웨어하우스와 데이터 플랫폼의 차이

기존의 데이터 분석환경은 데이터웨어하우스 중심으로 구성되어있었다면 근래의 데이터 플랫폼은 다양한 대규모의 데이터를 수집, 저장, 관리, 분석하고 거버넌스 할 수 있는 종합적인 시스템을 의미합니다. 그렇기 때문에 다양한 계층과 소프트웨어로 구성되어 있습니다. 기존의 전통적인 단일 웨어하우스와 다른 점은 각각의 레이어를 분리하고 보다 다양한 데이터를 다루고 컴퓨팅이 확장가능하도록 구성했다는 점입니다. 단일 데이터 웨어하우스 시스템 위에 그림은 데이터웨어하우스 중심으로 구성된 시스템입니다. 이렇게 시스템을 구성했을 때 단점은 데이터웨어하우스에서 다룰 수 없는 데이터 포맷들은 다룰 수 없고, 컴퓨팅 리소스 또한 데이터웨어하우스에 종속적입니다. 데이터 플랫폼에서는 컴퓨팅과 분리된 오브젝트 기반의 스토리지인 데이터..

Analytics Engineer 란? (Feat. Modern Data Stack)

Analytics Engineer in Korea 최근에 Analytics Engineering에 대한 중요성이 늘어나면서 Analytics Engineer에 대한 수요가 최근에 많이 늘고 있습니다. 하지만, 우리나라에서는 Analytics Engineer란 직군에 대해서 아직 모르시는 분도 있고, 누군가는 그냥 Data engineer가 조금씩 해당 역할을 하고 있을 수도 있습니다. 오늘(2022년 9월 25일 기준) 원티드에서 해당 직군을 검색했을 때 Line Plus 단 하나의 회사만 검색됩니다. 하지만, 글로벌 Job Search 서비스인 glassdoor에서 검색하면 US에서만 10,000+ 이상의 채용공고를 확인할 수 있었습니다. 무슨 직군인지는 모르겠지만 한국에서는 아직 익숙지 않은 것은 확..

Pandas Dataframe Type Casting 하기. (Feat. BigQuery)

Introduction 다른 데이터 Source에서 Pandas의 Dataframe으로 데이터를 Extract(추출)한 후에 Destination으로 데이터를 Load(적재)하는 경우에 데이터의 type을 casting해줘야 하는 경우가 많이 발생합니다. 타입에 관한 문제들을 겪다보면 단일 데이터베이스에서 ORM으로 DB에 CRUD를 하는 것이 얼마나 생산성이 높은지 느낄 수 있습니다. 특히, typing이 되어있는 데이터 소스가 아닌 경우(Web Page Crawling)하는 경우에 특히 이런 Needs들이 있습니다. 이런 경우에 Type casting이 필요한데 기본적인 Type casting과 나름의 시행착오를 겪은 부분들을 정리하려고 합니다. 특히, BigQuery에 Data를 load하는 경우에..

반응형