Jordan Tech Lab

  • 홈
  • 방명록
  • 매니지

2023/07/08 1

Pandas DataFrame apply 성능 이슈 개선하기

Apply는 dataframe의 각 행이나 열에 User-defined function을 실행할 때 사용하는 흔한 옵션입니다. axis=1로 실행하게 되면 각 row에 대해서 연산을 수행하게 됩니다. 하지만, 데이터 사이즈가 큰 경우 메모리 접근 방식과 및 벡터화 되지 않은 연산으로 성능 문제가 발생하기 쉽습니다. 이 글에서는 성능 이슈가 발생하는 원인과 해결책을 간단하게 정리해봤습니다. apply 함수의 성능 이슈 원인 1. 메모리 접근 패턴 pandas DataFrame은 열(column)-기반의 데이터 저장 구조를 사용합니다. 따라서 열 단위로 데이터에 접근하는 것이 메모리에서 연속적이므로 빠릅니다. 그러나 apply를 사용하여 행(row) 단위로 함수를 적용할 때, 각 행의 데이터는 여러 열에서 ..

Computer Engineering/Data Engineering 2023.07.08
이전
1
다음
더보기
프로필사진

Jordan Tech Lab

Jordan's Tech Lab. (https://github.com/baidoosik)

  • 분류 전체보기 (137)
    • About (1)
      • Me (1)
    • Computer Engineering (92)
      • Design (3)
      • OS & Hardware (2)
      • System Programming (0)
      • ASP.NET CORE (2)
      • Network (2)
      • Algorithm (4)
      • Data Structure (1)
      • Python (5)
      • Fluent Python 정리 (22)
      • DB(DataBase) (4)
      • Data Analysis (4)
      • Data Engineering (18)
      • DataPlatform (5)
      • Django (10)
      • AWS (3)
      • GCP (0)
      • Crawling (1)
      • Tool (2)
      • My Stack Overflow (3)
      • 컨퍼런스 (1)
    • Project (0)
    • Traveling (12)
      • 한국 (3)
      • 베트남 (0)
      • 태국 (1)
      • 인도네시아 (1)
      • 말레이시아 (1)
      • 미국 (5)
      • 프랑스 (1)
    • 일상 (29)
      • 2022 남해워케이션 (7)
      • 책 (2)
      • 영화 (2)
      • 정보 (7)
      • 생각 (4)
      • 스타트업 (1)
    • 투자 (3)

Tag

서버, 파이썬, 남해 워케이션, 기본문법, 알고리즘, 장고, django, 프로그래밍, 데이터엔지니어링, C#, 데이터, 남해, 개발자, 코딩, #코딩, mysql, airflow, 워케이션, 개발, Python,

최근글과 인기글

  • 최근글
  • 인기글

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2023/07   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
Linkedin Github

Copyright © Kakao Corp. All rights reserved.

티스토리툴바