Pandas의 dataframe 및 각 column의 메모리를 체크하는 방법은 매우 간단합니다.
dataframe 전체 메모리
dataframe.info() 메서드를 이용하면 맨 아래 memory usage가 출력됩니다.
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 173511 entries, 0 to 173510
Data columns (total 47 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id 173511 non-null int64
1 created_at 173511 non-null datetime64[ns]
2 updated_at 173511 non-null datetime64[ns]
3 deleted_at 0 non-null datetime64[ns]
....
dtypes: datetime64[ns](4), float64(6), int64(4), object(33)
memory usage: 62.2+ MB
dataframe column 별 메모리
dataframe.memory_usage()함수를 통해 byte단위로 확인이 가능합니다.
위에 created_at row수가 173,511이고 1388088 byte이니깐 하나의 row에 8byte인 것을 볼 수 있습니다.
>>> df.memory_usage()
Index 128
id 1388088
created_at 1388088
updated_at 1388088
....
반응형
'Computer Engineering > Data Engineering' 카테고리의 다른 글
Airflow Scheduler 역할 및 성능 개선 정리 (0) | 2023.04.14 |
---|---|
Airflow Task 우선순위 설정하기(Priority weights) (0) | 2023.04.06 |
Airflow Taskflow로 DAG refactoring하기 (0) | 2022.11.14 |
Pandas NaN이란 그리고 None 차이 (0) | 2022.11.13 |
Airflow Sensor 정리 (feat. S3 Sensor) (0) | 2022.07.12 |