Computer Engineering 92

Pandas dataframe 메모리 사용량 확인하기

Pandas의 dataframe 및 각 column의 메모리를 체크하는 방법은 매우 간단합니다. dataframe 전체 메모리 dataframe.info() 메서드를 이용하면 맨 아래 memory usage가 출력됩니다. >>> df.info() RangeIndex: 173511 entries, 0 to 173510 Data columns (total 47 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 id 173511 non-null int64 1 created_at 173511 non-null datetime64[ns] 2 updated_at 173511 non-null datetime64[ns] 3 deleted_..

MySQL kill 명령어 (프로세스 kill하기)

MySQL kill 명령어 KILL [CONNECTION | QUERY] processlist_id MySQL kill command는 실행 중인 쿼리 or 커넥션을 종료시기키 위해 사용되는 명령어입니다. 주로 문제를 발생시킬 수 있는 long query를 show full processlist 명령어로 찾은 후 종료시킬 때 사용됩니다. 주로 모니터링 및 장애시 사용되는 커맨드입니다. MySQL kill 명령어 옵션 및 권한 KILL명령어의 옵션에는 CONNECTION 또는 QUERY가 있다. KILL CONNECTION은 수식어가 없는 KILL과 같다. 이것은 connection에서 실행중인 statement를 종료시킨 후에 proocess_id에 해당하는 connection를 종료시킨다. KILL Q..

Airflow(에어플로우) could not queue task issue

Could not queue task issue GKE위에서 Airflow2.3.4 버젼에 kubernates executor의 scheduler에서 task를 queue에 넣지 못하는 이슈가 발생. 실질적으로 문제는 되지 않는데 그 이유는 이미 task가 queue로 들어갔기 때문이다. 코드를 디테일하게 살펴보지는 않았지만 대략적으로 에러 발생전 실해된 쿼리를 보면 lock을 획득과정에서 이슈가 있는 것 같다. SELECT pg_try_advisory_xact_lock(%(id)s) 해당 에러가 발생하는 코드는 아래 코드같은데 이 self.queued_tasks 컨테이너 안에 해당 key가 있다는건 lock 로직이 제대로 동작하지 않은 것으로 보인다. def queue_command( self, tas..

Airflow Taskflow로 DAG refactoring하기

Introduction 안녕하세요. 이번 글에서는 Taskflow를 사용해서 다른 외부 Operator가 아닌 파이썬 Operator로만 이뤄진 DAG을 리팩토링 한 경험을 공유하려고 합니다 Taskflow란 Taskflow란 Airflow2.0에서 출시된 concept으로 Operator가 아닌 파이썬 로직들로만 이뤄진 DAG의 경우 @task decorator를 활용해서 깔끔하게 로직을 관리할 수 있습니다. 실제로 DB의 incremental data나 API나 크롤링을 통해 진행되는 작은 배치들(수십 MB 이하)은 Pandas의 Dataframe을 통해서도 쉽고 빠르게 조작이 가능합니다. Taskflow의 장점은 Xcoms을 사용하여 return 값을 전달해서 작업 간에 결과를 전달하기 편리합니다...

Coalesce 2022 New Orleans 후기 - Analytics Engineering 그리고 Modern DataStack

영문 글 링크(Link of English version post) Introduction 안녕하세요. 10월 14일부터 10월 21일까지 뉴올리언스에서 열린 Coalesce 2022 - The Analytics Engineering Conference 행사를 다녀왔습니다. Coalesce 2022는 dbt Labs에 주최한 Analytics Engineering Conference입니다. Analytics Engineering에 대해서 아직 알고 계시지 못하신다면 제가 작성한 글인 Analytics Engineer 란? (Feat. Modern Data Stack) 을 한 번 먼저 읽어보셔도 좋을 것 같습니다. 행사는 크게 3가지 방식으로 운영됐습니다. Coalesce New Orleans Coales..

Pandas NaN이란 그리고 None 차이

NaN이란 not a number로 비어있는 결측치 데이터를 의미합니다. numpy와 pandas에서는 None이 아닌 NaN을 사용하는데 그 이유는 vectorized 연산이 가능하기 때문입니다. None을 넣으면 pandas를 사용해도 병렬 연산이 불가능해지기 때문에 결측치에 대해서는 np.nan을 사용해야합니다. import numpy as np s = pd.Series(['선화', '강호', np.nan, '소정', '우영']) # 병렬 연산이 가능 s += '테스트' s 0 선화테스트 1 강호테스트 2 NaN 3 소정테스트 4 우영테스트 dtype: object 타입 캐스팅 시 주의할 점. 그리고 np.nan은 다른 데이터들이 숫자인 경우는 float 타입 입니다. 그렇기 때문에 int로 typ..

Analytics Engineer 란? (Feat. Modern Data Stack)

Analytics Engineer in Korea 최근에 Analytics Engineering에 대한 중요성이 늘어나면서 Analytics Engineer에 대한 수요가 최근에 많이 늘고 있습니다. 하지만, 우리나라에서는 Analytics Engineer란 직군에 대해서 아직 모르시는 분도 있고, 누군가는 그냥 Data engineer가 조금씩 해당 역할을 하고 있을 수도 있습니다. 오늘(2022년 9월 25일 기준) 원티드에서 해당 직군을 검색했을 때 Line Plus 단 하나의 회사만 검색됩니다. 하지만, 글로벌 Job Search 서비스인 glassdoor에서 검색하면 US에서만 10,000+ 이상의 채용공고를 확인할 수 있었습니다. 무슨 직군인지는 모르겠지만 한국에서는 아직 익숙지 않은 것은 확..

Airflow Sensor 정리 (feat. S3 Sensor)

Concept Operator의 한 가지 type으로 wait for something to occur 이라는 한 가지 목적으로 만들어졌다. time-based로 어떤 이벤트 또는 조건이 성사되는 것을 기다린다. 여기서 something은 아래와 같은 것들이 있다. file의 생성여부 external event 그 밖의 다양한 기다릴 수 있는 조건 or event. 기본적으로 해당 event가 일어날 때 까지 기다리다가 발생하면 다음 downstream의 task가 동작할 수 있도록 하는 역할을한다. 즉, 어떤 파일이나 이벤트 기반으로 다음 task를 수행해야 할 때 사용할 수 있다. ex) loader라는 서비스에서 file을 지정된 위치에 저장한 후에 compactor라는 서비스에서 데이터를 comp..

Airflow k8s 로컬 개발환경 셋팅

Introduction 이 글의 목표는 local에서 kubernates를 docker container에서 실행시키기 위해서 kinder를 설치하고, helm를 이용해서 airflow를 설치하고 배포하는 방법을 정리하는 것입니다. Airflow는 Production에서 kubernates(이하 k8s)에 배포하는 것을 권장하기 때문에 local 환경에서도 가능한한 k8s에서 실행시키는 것이 좋다라고 생각합니다. 그래서 kind와 helm을 이용해서 airflow를 local에서 kubernates위에서 실행시키기 위한 셋업 절차를 정리한 것을 공유하려고 합니다. 대부분의 내용은 공식문서 를 참고하여 작성하였습니다. 또, 이 글은 Mac 사용자를 기준으로 한 글입니다. Requirements kind 로..

IntelliJ로 Spark 개발 환경 구축하기

Introduction 여러 클라우드 환경이나 컨테이너 환경에서 간단하게 Spark를 사용할 수 있지만 local 환경에서도 Spark를 실행시킬수 있는 환경을 만들어두면 가볍게 테스트 할 수 있는 것들이 많아서 Local 환경에서도 Spark application을 build하고 실행시킬수 있는 환경을 구축하는 과정을 기록해 두려고 합니다. Spark의 개발 환경을 셋팅하기 위해서 Scala 및 JDK를 설치해야합니다. Spark는 scala로 작성되었고, scala는 JVM위에서 동작하기 때문입니다. 그렇기 때문에 JDK, Scala를 먼저 설치해야 합니다. 1. JDK 설치하기 JDK는 Java를 사용하기 위해 필요한 모든 기능을 갖춘 Java용 SDK로 javac(컴파일러), jdb, javado..

반응형