Computer Engineering/Data Analysis 4

차원 모델링이란 / Dimensional modeling

차원 모델링(Dimensional Modeling)은 매우 일반적인 데이터 모델링 기법으로, 데이터 웨어하우스에서 특히 널리 사용됩니다. 차원 모델링은 사업에 대한 이해를 도모하고, 데이터를 조직하고, 빠르게 정보를 검색하는 데 중점을 두고 설계됩니다. Dimension, Facts 테이블로 나눠서 모델링해서 조금 더 효율적이고 편하게 데이터를 분석이 가능해집니다. 1.차원(Dimensions) : 데이터의 특정 관점을 나타내며, 데이터를 분류하고 표시하는 데 사용됩니다. 예를 들어, 시간(날짜, 분기, 연도 등), 위치(도시, 국가 등), 제품(제품 ID, 제품 이름, 카테고리 등)과 같은 정보가 차원에 포함될 수 있습니다. 2.측정값(Facts): 관측된 사업적 성과를 나타내며, 일반적으로 수치적인 ..

Analytics Engineer 란? (Feat. Modern Data Stack)

Analytics Engineer in Korea 최근에 Analytics Engineering에 대한 중요성이 늘어나면서 Analytics Engineer에 대한 수요가 최근에 많이 늘고 있습니다. 하지만, 우리나라에서는 Analytics Engineer란 직군에 대해서 아직 모르시는 분도 있고, 누군가는 그냥 Data engineer가 조금씩 해당 역할을 하고 있을 수도 있습니다. 오늘(2022년 9월 25일 기준) 원티드에서 해당 직군을 검색했을 때 Line Plus 단 하나의 회사만 검색됩니다. 하지만, 글로벌 Job Search 서비스인 glassdoor에서 검색하면 US에서만 10,000+ 이상의 채용공고를 확인할 수 있었습니다. 무슨 직군인지는 모르겠지만 한국에서는 아직 익숙지 않은 것은 확..

Pandas에서 시간, 날짜 데이터 변환하기 (총 정리)

pandas에서 데이터를 다루다보면 시간 데이터를 자주 변환하고 다루게 됩니다. 데이터를 여러 resolution으로 분석해야 하기 때문입니다. 즉, 연도/월/일/시간/요일등 별로 데이터를 분석합니다. 항상 필요할 때 마다 구글에서 변환하는 방법을 찾는게 귀찮아서 한 번에 정리하고, cheetsheet로 활용해보려고 합니다. 이번 Posting에서 변환해보려고 하는 경우는 아래와 같습니다. 1) unix time -> datetime 으로 변환 2) datetime -> 년/월/일 만 추출하고 3) datetime -> 요일로 변환 4) datetime -> unix time - Pandas 에서 Series의 날짜 데이터를 다루는 방법 정리 Unix time - > date time pandas.to_..

캐글 타이타닉 예제를 통해 알아보는 데이터 분석 및 활용 flow

캐글을 통해 입문하는 사람들은 보통 타이타닉의 예제를 통해 입문하는 경우가 많습니다. 최근에 몇 가지 강의에서도 타이타닉 예제를 사용하고 있는 것으로 알고 있습니다. 타이타닉 예제를 통해서 데이터 사이언티스트(Data scientist) 들이 어떤 일을 하는지 데이터 분석에서 어떤 일을 하는지 조금 이해할 수 있게 됐습니다. 간단하게 flow를 정리해봤습니다. 1. 정확하게 문제를 정의해야 합니다. 어떤 데이터로 어떤 문제를 해결하고 싶은지 정의 해야 합니다. 타이타닉 문제를 예로 들자면, 타이타닉에 탑승했던 승객들의 정보를 통해 미래에 어떤 배를 타는 승객들이 배가 침몰했을 때 죽을지 죽지 않을지 예측합니다. 2. 데이터를 processing하여 정리해서 모으는 과정이 필요합니다. 데이터를 분석 할 수..

반응형