2022/12 2

데이터 레이크 + 데이터 웨어하우스 = 데이터 플랫폼

근래의 데이터 플랫폼은 다양한 계층(Ingestion, Lake, Data Warehouse, Procssing)을 조합 해 놓은 서비스를 의미한다. 이전에는 단주로 Datawarehouse위주로만 이루어져 있었다면 이제 조금 더 계층이 나뉘어졌다. 단일 데이터 웨어하우스 시스템 Data lake와 Processing Layer를 추가한 데이터 플랫폼 단일 데이터 웨어하우스 시스템만 구축하는 경우와 중간에 data lake를 추가해서 데이터 플랫폼을 구축하는 경우의 차이 - 스키마의 변경을 처리하는 방법. lake에서는 데이터를 파일로 가지고 있기 때문에 서로 다른 schema 데이터를 가지고 있을 수 있다. 즉, Process Layer에서 해당 변경을 처리하는 로직을 가지고 있다면 스키마의 변경에 유..

Pandas dataframe 메모리 사용량 확인하기

Pandas의 dataframe 및 각 column의 메모리를 체크하는 방법은 매우 간단합니다. dataframe 전체 메모리 dataframe.info() 메서드를 이용하면 맨 아래 memory usage가 출력됩니다. >>> df.info() RangeIndex: 173511 entries, 0 to 173510 Data columns (total 47 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 id 173511 non-null int64 1 created_at 173511 non-null datetime64[ns] 2 updated_at 173511 non-null datetime64[ns] 3 deleted_..

반응형