2022/12 2

데이터 웨어하우스와 데이터 플랫폼의 차이

기존의 데이터 분석환경은 데이터웨어하우스 중심으로 구성되어있었다면 근래의 데이터 플랫폼은 다양한 대규모의 데이터를 수집, 저장, 관리, 분석하고 거버넌스 할 수 있는 종합적인 시스템을 의미합니다. 그렇기 때문에 다양한 계층과 소프트웨어로 구성되어 있습니다. 기존의 전통적인 단일 웨어하우스와 다른 점은 각각의 레이어를 분리하고 보다 다양한 데이터를 다루고 컴퓨팅이 확장가능하도록 구성했다는 점입니다. 단일 데이터 웨어하우스 시스템 위에 그림은 데이터웨어하우스 중심으로 구성된 시스템입니다. 이렇게 시스템을 구성했을 때 단점은 데이터웨어하우스에서 다룰 수 없는 데이터 포맷들은 다룰 수 없고, 컴퓨팅 리소스 또한 데이터웨어하우스에 종속적입니다. 데이터 플랫폼에서는 컴퓨팅과 분리된 오브젝트 기반의 스토리지인 데이터..

Pandas dataframe 메모리 사용량 확인하기

Pandas의 dataframe 및 각 column의 메모리를 체크하는 방법은 매우 간단합니다. dataframe 전체 메모리 dataframe.info() 메서드를 이용하면 맨 아래 memory usage가 출력됩니다. >>> df.info() RangeIndex: 173511 entries, 0 to 173510 Data columns (total 47 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 id 173511 non-null int64 1 created_at 173511 non-null datetime64[ns] 2 updated_at 173511 non-null datetime64[ns] 3 deleted_..

반응형