Computer Engineering/컨퍼런스

Coalesce 2022 New Orleans 후기 - Analytics Engineering 그리고 Modern DataStack

jordan.bae 2022. 11. 14. 18:04

영문 글 링크(Link of English version post)

Introduction

안녕하세요. 10월 14일부터 10월 21일까지 뉴올리언스에서 열린 Coalesce 2022 - The Analytics Engineering Conference 행사를 다녀왔습니다.

Coalesce

Coalesce 2022는 dbt Labs에 주최한 Analytics Engineering Conference입니다. Analytics Engineering에 대해서 아직 알고 계시지 못하신다면 제가 작성한 글인 Analytics Engineer 란? (Feat. Modern Data Stack) 을 한 번 먼저 읽어보셔도 좋을 것 같습니다.

행사는 크게 3가지 방식으로 운영됐습니다.

  1. Coalesce New Orleans
  2. Coalesce Online + London, Sydney
  3. Coalesce Online

Coalesce New Orleans는 오프라인 메인 행사로 5일 동안 모든 오프라인 세션과 네트워킹 행사에 참여가 가능합니다. London과 Sydney 행사는 2일 동안 오프라인으로 모여서 온라인 세션을 함께 시청하는 형태로 진행되는 행사였습니다. 마지막으로 온라인으로만 참여할 수 있는 티켓도 존재했습니다. 저는 조금 더 현장의 느낌을 생생하게 느끼면서 세션에 집중하고, 다양한 Data Engineer와 Analytics Engineer 들과 네트워킹을 하고 싶어서 Coalesce New Orleans에 참여하게 됐습니다. 행사가 5일 동안 열린 만큼 온라인을 포함하면 만 명 이상이 참여한 행사로 세션과 워크샵의 숫자만 100개가 넘어갈 정도 큰 행사였습니다.

이번 글에서는 아래와 같은 주제들을 다루려고 합니다.

  1. Keynote Recap
  2. Why DBT is special 에 대한 저의 생각
  3. Modern Data Stack의 새로운 키워드
  4. 컨퍼런스 vibe 그리고 뉴올리언스 여행

 

Recap of Coalesce 2022 New Orleans

Keynote: The End of the Road for The Modern Data Stack You Know

행사 두 번째 날인 2022.10.18에 dbt의 Founder & CEO인 Tristan HandyKeynote가 있었습니다. Keynote의 첫 시작은 DBT Community가 어떻게 탄생했고, 성장해왔는지를 소개해 주었습니다. 처음에 New York에서 시작한 작은 Meetup이 현재 4만 명의 Slack 유저를 가지고, Coalesce 2022에는 96개국의 사람들이 참여한 커뮤니티를 가지게 됐는지! Tristan Handy의 다른 비슷한 서비스들도 많았는데 왜 DBT가 특별했는지에 대한 설명에 답을 바로 아래의 장표로 대답하였습니다.

 

세션의 현장감을 조금 곁들여 요약하면 “Data Knowledge에 대한 Governance 문제를 Incredible Easy 하게 해결했다” 였습니다. 제가 DBT를 사용하면서 느꼈던 부분이었습니다. 단순한 Transformation 툴이 아니라 관리되지 않는 각 지표의 SQL에 대한 Knowledge와 Transformation Layer에 필요한 것들(테스트, 개발 환경, 버전 관리 등)을 아주 쉽게 해결할 수 있는 서비스라고 느꼈기 때문입니다. 쉬운 예를 들면 각 조직에서 같은 지표인데도 각 애널리스트와 데이터 엔지니어가 사용하는 SQL이 조금씩 다른 경우는 흔히 찾아볼 수 있고, 그들도 무엇이 맞는지를 확신하지 못하는 경우가 많습니다. 이런 문제를 DBT에서는 쉽고 간편하게 해결합니다. 그다음 주제로 DBT에서 제품 초기부터 Ecosystem에 집중했다는 부분에 대하면서 이야기 하면서 자연스럽게 Modern Data Stack에 대한 이야기로 들어갑니다.

 

위에 Modern Data Stack의 Ecosystem을 정리한 장표를 보여주면서 Keynote의 주제인 The End of the Road for The Modern Data Stack You Know에 대한 설명을 합니다.

이 전의 업무 방식은 Velocity와 Governance와 서로 반대의 성향을 가지고 있었습니다. 세션에서는 Slow and Govern or Fast and un-Govern이라고 표현하였습니다. 아래 그림처럼 파란색 공처럼 되어 있던 업무방식을 Fast and Govern의 보라색 공의 영역을 넘어서 초록색 공의 영역으로 바꾸는 것이 Modern Data Stack의 역할이고 나아가야 할 길이라고 말합니다. 저는 해당 이야기를 듣고 큰 공감을 하였습니다. 모든 개발자가 느끼는 고민이기 때문입니다. 빠르게 개발하다 보면 Governance를 놓치게 되는 경우가 많고, Governance를 한 번 놓치면 해당 조직은 관성이 생겨서 이를 보완하는데 소홀해집니다. 정말 빠르게 개발할 수 있는 tool도 좋고, 정말 Governance에 도움이 되는 tool도 좋지만 이 두 개를 모두 잡는다면 dbt처럼 Rocket Growth가 가능한 것 같습니다.

 

Why dbt is special? Community!

 

왜 dbt가 특별하냐고 묻는다면 저는 Community라고 말하고 싶습니다. 솔직하게 Fast와 Governance를 동시에 해결한 Data Service들은 더 존재합니다. 하지만, dbt처럼 강력하고 큰 커뮤니티를 가진 서비스는 많지 않습니다. dbt Community의 규모는 엄청납니다. 일례로 Slack Community의 인원이 Airflow(10.29 기준 약 27,00명) 보다도 훨씬 많은 숫자인 4만 명의 넘는 인원을 보고 정말 놀랐습니다. 그리고, 행사에 직접 가서는 dbt를 좋아하는 엔지니어들이 이렇게 많다는 것에 다시 한번 정말 놀랐습니다. 어떻게 이런 Community를 만들 수 있었는지를 dbt Labs의 CEO의 Keynote 발표에서 얻은 인사이트 + 저의 생각을 정리해 보겠습니다. 크게 4가지 정도로 정리해 볼 수 있을 것 같습니다.

  1. Keynote에서 CEO인 Tristan handy가 이야기한 것처럼 그동안 데이터 직군에서 속도를 추구하면서 많이 놓치고 있던 Governance (문서화, 테스팅)이 부분을 해결하면서 사용성과 생산성까지 훌륭합니다. 개인적으로 유지 보수가 가능하면서 확장 가능한 시스템을 제공했다고 볼 수 있을 것 같습니다. → 제품이 훌륭합니다.
  2. Spark와 같이 엔지니어링적인 백그라운드가 필요한 기술 스택에서 MPP Data warehouse들을 활용해서 SQL만 활용할 수 있더라도 Transformation을 쉽게 할 수 있도록 애널리스트들에게 강력한 무기를 가져다주고 그들을 highlight를 해줬습니다.→ Data Analyst들의 커리어를 확장시켜줬습니다.
  3. 많은 Modern Data Stack의 서비스들과 협업하면서 서로 Integration을 함으로써 활용성을 높였습니다. 그 덕분에 DBT에서 모델을 만들면 여러 서비스에서 이를 활용할 수 있게 됐습니다.→ Ecosystem의 혜택을 누릴 수 있습니다.
  4. 마지막으로 서비스를 오픈소스화해서 개발자들이 참여할 수 있는 공간을 제공하여 개발자들의 호응을 얻고, Core(CLI)는 무료로 사용할 수 있게 배포해서 접근성을 높였습니다.→ 개발자들이 좋아하는 오픈소스! 그리고 합리적인 가격!

 

위와 같은 이유로 dbt는 Analytics enginer란 직군을 새로 등장시킬 정도의 영향력과 커뮤니티를 가지게 된 것으로 생각됩니다. 커뮤니티는 아주 특별하다고 생각합니다. dbt의 사용자들은 서로 스스로 정보를 공유하고, 컨텐츠를 발행하고, 컨퍼런스에 참여하면서 단순히 dbt라는 기술을 넘어서 강력하게 결합되게 됩니다.

저는 이번 컨퍼런스를 통해서 좋은 친구들을 만났고, 지금도 Slack 채널에서 여러 가지 기술적 질문이나 토론을 이어가고 있습니다.

 

Modern Data Stack 에서 새로운 Keyword

위에 살펴본 것 처럼 각 Modern Data Stack은 이제 하나 두개의 서비스가 아닌 각 기능별로 많은 서비스 들을 볼 수 있습니다.

위에 공유했던 사진 처럼 아주 다양한 서비스들이 존재합니다.

  • Data Ingestion
  • Data Quality
  • Data Catalog
  • Data Visualization

데이터 인력들을 어느 정도 조직의 규모가 발전한 이후에 채용됩니다. 또, 인원수 또한 많지 않습니다. 그렇기 때문에 자체적으로 모두 기술을 내재화 한다는 것은 어떤 부분을 챙기지 못하고 있다고 말할 수 있습니다.

그 중에서도 제가 흥미롭게 봤던 몇 가지 주제들을 다뤄보려고합니다.

Reverse ETL

Reverse ETL 이란 Datawarehouse로 ingestion한 여러 소스의 데이터들을 반대로 여러 소스에 다시 전달하는 것을 의미합니다. 흔히, B2B 회사라면 Salesforce나 Marketing tool로 API Integration 해달라는 요청을 많이 받았을 것입니다. 이런 경우 나중에 관리가 안 되는 경우가 많고 어디가 원천 소스인지 복잡해지는 경우가 많은데 이를 해결한 서비스들이 나타났습니다. 위에 사진은 Hightouch란 회사 홈페이지에 게시되어 있는 이미지로 Reverse ETL 서비스의 전과 후를 보여주고 있습니다. 저 또한 이런 요청을 많이 받아봤고, 많지 않은 데이터의 sync를 위해서 service별로 API 스펙을 확인하여 작업하는 게 번거로웠는데 보자마자 굉장히 좋은 서비스라는 생각이 들었습니다. Reverse ETL을 주력 서비스로 하고 있는 회사는 아래와 같습니다.

 

Data Catalog를 넘어 Data Quality

Data Catalog와 관련된 서비스나 오픈소스는 이제 흔히 여러 팀에서 구축하고 활용하고 있는 것을 볼 수 있습니다. 하지만, Data Quality에 대해서는 대부분 내부 간단한 내부 툴을 만드는 경우가 많습니다. 해당 툴은 먼가 정밀한 데이터의 Quality를 검증한다기보다는 최소한의 검증에 가까운 경우가 많았습니다. Data Quality와 Reliability와 관련된 서비스들의 등장이 저에게는 꽤 반가웠습니다.

 

Something I wanted to see more: improved time to insight and analytics systems

위에서 본 것과 같이 수 많은 영역에 데이터 서비스들이 존재하고 각 서비스들은 다양한 문제들 해결 해줍니다. 하지만, 이 부분은 Governance 측면에서 굉장히 고통스러운 부분일 수 있습니다. Transformation 영역에서 Governance와 Fast를 동시에 달성한게 dbt라면 Analytics에서 이 부분을 잘 해결하고 있는 회사가 있습니다. 바로 Kaldea입니다. Analytics 또한 ad-hoc analytics부터 시작해서 모델링, 거버넌스, 리뷰 프로세스등이 필요합니다. 특히, 회사 차원에서 볼 때 여전히 각 임시 요청에 대한 빠른 데이터를 처리 및 분석 하는 데 많은 어려움을 겪습니다. 이러한 현상이 발생하는 이유는 무수히 많지만, 기업 내부의 데이터 문화를 조성하는 데 있어 플라이휠의 핵심 요소인 분석 및 분석 내용을 공유하고 피드백을 받는 Loop가 잘 만들어지지 않기 때문이라고 생각합니다. Kaldea는 모델링, 발견, 거버넌스, 분석 및 시각화의 모든 것이 연결되는 통합 분석 플랫폼을 제공하기 위해 필요한 다양한 부분을 잘 해결하고 있는 것 같습니다.

 

 

Coalesce 그리고 뉴올리언스 Vibe!

행사 후에 저녁에는 항상 네트워킹 행사가 열려서 컨퍼런스에서 만난 친구들과 좋은 시간을 보냈습니다! 뉴올리언스 하면 재즈바!

미국 하면 American Football! 뉴올리언스 하면 Saints!

주말에는 가까운 곳에 늪지 투어를 다녀왔습니다! 작은 악어인 alligator를 볼 수 있었습니다. 날씨도 정말 좋고 자연 환경이 아름다워서 행복한 시간이었습니다.

 

마무리

여기까지 긴 글을 읽어주셔서 감사합니다. 구체적인 정보보다는 Coalesce 2022 New Orleans 현장의 분위기와 제가 느낀 인사이트들을 전달해보려고 많이 노력했습니다. 또, 제 개인적인 경험에 빗대어 몇몇 컨텐츠를 다뤘기 때문에 이 글을 읽고 관심이 생기신 분들은 공개된 유튜브 세션을 살펴보시길 추천해 드립니다.

다시 한번 긴 글 읽어주셔서 감사합니다!

반응형