데이터분석 3

Pandas pivot_table 예제 및 설명

Pandas pivot_table 예제 및 설명 Pandas의 pivot_table은 데이터를 요약하고 분석하기에 유용한 도구입니다. 피벗테이블을 사용하면 특정 칼럼의 Data들을 column으로 해서 특정 값을 aggregate하는 새로운 분석 테이블을 만들어서 데이터를 분석할 수 있습니다. (예를 들어, g특히, 여러 개의 column으로 group by 되어 있는 테이블에서 한 번 더 group by를 해서 aggregate할 때 유용합니다. 피벗테이블이란? Pivot table은 스프레드시트 프로그램(예: Excel, Google Sheets)에서 자주 사용되는 데이터 요약 기능 중 하나입니다. Pivot table은 원시 데이터를 기반으로 요약된 정보를 생성하는 것으로, 데이터를 쉽게 분석하고 ..

Pandas Dataframe Type Casting 하기. (Feat. BigQuery)

Introduction 다른 데이터 Source에서 Pandas의 Dataframe으로 데이터를 Extract(추출)한 후에 Destination으로 데이터를 Load(적재)하는 경우에 데이터의 type을 casting해줘야 하는 경우가 많이 발생합니다. 타입에 관한 문제들을 겪다보면 단일 데이터베이스에서 ORM으로 DB에 CRUD를 하는 것이 얼마나 생산성이 높은지 느낄 수 있습니다. 특히, typing이 되어있는 데이터 소스가 아닌 경우(Web Page Crawling)하는 경우에 특히 이런 Needs들이 있습니다. 이런 경우에 Type casting이 필요한데 기본적인 Type casting과 나름의 시행착오를 겪은 부분들을 정리하려고 합니다. 특히, BigQuery에 Data를 load하는 경우에..

캐글 타이타닉 예제를 통해 알아보는 데이터 분석 및 활용 flow

캐글을 통해 입문하는 사람들은 보통 타이타닉의 예제를 통해 입문하는 경우가 많습니다. 최근에 몇 가지 강의에서도 타이타닉 예제를 사용하고 있는 것으로 알고 있습니다. 타이타닉 예제를 통해서 데이터 사이언티스트(Data scientist) 들이 어떤 일을 하는지 데이터 분석에서 어떤 일을 하는지 조금 이해할 수 있게 됐습니다. 간단하게 flow를 정리해봤습니다. 1. 정확하게 문제를 정의해야 합니다. 어떤 데이터로 어떤 문제를 해결하고 싶은지 정의 해야 합니다. 타이타닉 문제를 예로 들자면, 타이타닉에 탑승했던 승객들의 정보를 통해 미래에 어떤 배를 타는 승객들이 배가 침몰했을 때 죽을지 죽지 않을지 예측합니다. 2. 데이터를 processing하여 정리해서 모으는 과정이 필요합니다. 데이터를 분석 할 수..

반응형