'분류 전체보기' 카테고리의 글 목록 (5 Page)

Data Platform이란? / 데이터플랫폼이란

데이터 엔지니어의 가장 중요한 역할 중 하나는 데이터플랫폼을 구축하는 일이라고 생각합니다. 데이터 플랫폼은 기존의 데이터웨어하우스 중심의 시스템에서 벗어나 다양한 데이터를 다루고, 확장 가능하고 더 데이터를 잘 활용할 수 있는 종합적인 플랫폼을 의미합니다. 참고: 데이터 웨어하우스와 데이터플랫폼의 차이 이 글은 데이터 플랫폼의 구성에 대해서 계속 공부하면서 업데이트해나갈 예정입니다. 그리고 각각의 구성요소들을 다른 글에서 계속해서 업데이트를 해나가려고 합니다. 데이터 플랫폼은 다양한 구성요소가 있고, 각각의 구성요소 또한 다양한 서비스와 기술스택으로 구성할 수 있어서 경험을 하고 공부를 하면서 계속 글을 업데이트할 예정입니다. 데이터플랫폼이란? Data Platform은 다양한 대규모의 데이터를 수집, ..

Computer Engineering/DataPlatform 2023.06.21

신대방역 노트북 하기 좋은 카페

신대방역 근처 주민으로 노트북하기 좋은 카페를 정리할 목적으로 글을 작성 중입니다. 장소는 발견할 때 마다 추가할 예정입니다. 좋은 장소가 있으면 댓글로 추천해주세요! 시티 스트릿츠 - 방문일자: 2023.05.14 - 전반적인 평: 맛이 괜찮은 편(깔끔한 스타일). 원두가 매주 변경. 가격대는 5~6천원. 강변을 바라보고 있고, 녹색 뷰여서 봄에 창가 자리에 않으면 노트북하다가 밖을 보면 힐링이 되는 카페입니다. 사장님께서는 굉장히 친절하시고 사람이 많은 편은 아니어서 노트북하기 좋은 편이라 주말에 날씨 좋으면 종종 방문하는 카페입니다. 노트북 하기 좋은 카페가 많지 않은 신대방역에서 제가 좋아하는 장소 중 하나입니다. - 자세한 후기: https://blog.naver.com/dmswlqns/2231..

일상/정보 2023.06.18

Airflow CeleryKubernetesExecutor 사용하기

CeleryKubernetesExecutor 는 CeleryExecutor와 KubernetesExecutor 를 동시에 사용합니다. 즉, CeleryExecutor에 필요한 broker인 Redis와 항상 실행중인 celery worker를 사용하는 동시에 필요에 따라서 KubernetesExecutor를 활용할 수 있는 구성입니다. 언제 사용하는 것이 좋은가? Airflow 공식문서에서는 아래와 같은 상황에서의 사용을 권장합니다. 다음의 경우에 CeleryKubernetesExecutor를 고려하는 것을 권장합니다: 최대 수준에서 스케줄링해야 하는 작업의 수가 Kubernetes 클러스터가 편안하게 처리할 수 있는 규모를 초과하는 경우 작업 중 비교적 작은 부분이 런타임 격리를 필요로 하는 경우 Ce..

Computer Engineering/Data Engineering 2023.06.16

Github Workflow에서 Python 패키지 설치 시간 단축하기

GitHub에 설정된 다양한 Workflow들의 파이썬 패키지 설치 과정은 파이썬 개발자들에게는 지루한 기다림의 시간입니다. 특히, 배포를 위해 Test Job이 통과하기를 기다리는 것은 Python을 사용하는 개발자들에게 익숙한 상황 중 하나입니다. 이 과정에서 CI(Test, Linter)가 언제 끝나는지 기다리는 시간은 개발 작업의 흐름을 방해하고, 프로젝트의 배포 및 유지 관리를 느리게 만들 수 있습니다. 이 포스팅에서는 GitHub Actions의 Workflow 내에서 Python 패키지 설치 시간을 단축하는 방법을 소개하려고 합니다. 이 방법들은 GitHub에 종속되는 방법뿐만 아니라 독립적으로 사용할 수 있는 방법들도 포함되어 있습니다. 이 글에서는 총 3가지 방법을 소개하며, 이러한 방법..

Computer Engineering/Python 2023.05.14

Aurora MySQL replica lag 이슈 (복제 지연 이슈)

Aurora replica lag이란? writer 인스턴스의 페이지 캐시와 비교한 Aurora replica의 페이지 캐시에 대한 지연 시간. 같은 스토리지를 활용하지만 각 reader computing instance간의 페이지 캐시에 업데이트 하기까지에는 짧지만 lag이 존재한다. 지연이 길어지는 경우 replica에 연결된 connection에서의 data가 sync되지 않아서 이슈가 발생할 수 있기 때문에 lag이 길어지는지 모니터링 할 필요가 있다. replica lag 발생하는 경우 인스턴스가 동일한 사양인지 체크 reader node의 인스턴스 클래스 구성이 Writer보다 너무 작은 경우 변경 데이터의 볼륨이 너무 커서 리더가 캣이의 데이터를 무효화하고 따라잡 수 없게 됩니다. 여러 세션..

Computer Engineering/DB(DataBase) 2023.05.07

MySQL Isolation Level 정리

MySQL Isolation level은 동시성 제어를 위한 설정 값으로, 동시에 실행되는 여러 트랜잭션 간에 데이터 일관성을 유지하기 위해 사용된다. 값에 따라서 다른 트랜잭션에서 commit을 했더라도 볼 수 있을수도 있고, 없을 수도 있다. Isolation Level을 설정할 때 고려해야 할 점은 데이터 일관성과 성능 사이의 트레이드오프다. Isolation Level이 높을수록 데이터 일관성은 유지되지만 성능이 저하된다. 반면에 Isolation Level이 낮을수록 성능은 좋아지지만 데이터 일관성이 보장되지 않는다. 따라서, 요구사항에 따라서 적절한 Isolation Level을 선택하는 것이 중요하다. 값의 종류는 아래와 같이 4가지로 나누어져 있다. Read Uncommitted Read ..

Computer Engineering/DB(DataBase) 2023.05.04

발리 물리아 빌라스 후기 / 발리 신혼여행 / 물리아 풀빌라 리조트

벌써 신혼여행으로 발리를 다녀온 지 4개월이 지났다. 4개월 밖에 지나지 않았지만 오랜 된 일처럼 느껴져서 더는 미루지 말고 즐거웠던 기억들을 기록해야겠다는 생각이 들어서 이 글을 쓰고 있다. 발리 여행 중 물리아 리조트에서 2박 3일이 가장 기억에 남아서 발리 첫 번째 포스팅으로 선택했다. 발리 물리아 물리아는 발리 누사두아에 있는 럭셔리 리조트 중 하나다. 2012년에 건축된 총 500여개의 객실을 보유하고 있는 발리 물리아 풀빌라 리조트는 아름다운 누사두아 해변을 따라 자연과 조화를 이루고 있는 대형 리조트이다. 프라이빗 해변과 6개의 수영장 그리고 여러 종류의 고급 식당이 있고, 자연 친화적인 경관가 내부시설 또한 훌륭했다. 또, 요가 같은 프로그램도 운영하고 있다. 물리아는 다양한 형태의 숙소(..

Traveling/인도네시아 2023.05.02

Pandas pivot_table 예제 및 설명

Pandas pivot_table 예제 및 설명 Pandas의 pivot_table은 데이터를 요약하고 분석하기에 유용한 도구입니다. 피벗테이블을 사용하면 특정 칼럼의 Data들을 column으로 해서 특정 값을 aggregate하는 새로운 분석 테이블을 만들어서 데이터를 분석할 수 있습니다. (예를 들어, g특히, 여러 개의 column으로 group by 되어 있는 테이블에서 한 번 더 group by를 해서 aggregate할 때 유용합니다. 피벗테이블이란? Pivot table은 스프레드시트 프로그램(예: Excel, Google Sheets)에서 자주 사용되는 데이터 요약 기능 중 하나입니다. Pivot table은 원시 데이터를 기반으로 요약된 정보를 생성하는 것으로, 데이터를 쉽게 분석하고 ..

Computer Engineering/Data Engineering 2023.05.01

Github action 개요 및 주요 개념

개요 Github Action은 Github 저장소를 기반으로 소프트웨어 개발 Workflow를 자동화 할 수 있는 도구이다. 간단하게 말하자면 Github에서 직접 제공하는 CI/CD 도구. Workflow는 Github 저장소에서 발생하는 build, test, package, release, deploy 등 다양한 이벤트를 기반으로 직접 원하는 Workflow를 만들 수 있다. Workflow는 Runners라고 불리는 Github에서 호스팅 하는 Linux, macOS, Windows 환경에서 실행된다. 그리고 이 Runners를 사용자가 직접 호스팅하는 환경에서 직접 구동시킬 수도 있다.(self-hosted runner) Github 마켓 플레이스에는 여러 사람이 공유한 Workflow는 찾을..

Computer Engineering/Tool 2023.04.16

Airflow Scheduler 역할 및 성능 개선 정리

Scheduler 개요 Scheduler는 Airflow의 주요 컴포넌트 중 하나입니다. Airflow의 스케줄러는 모든 작업과 DAG를 모니터링하고, 해당 작업들의 의존성이 완료된 후에 작업 인스턴스를 트리거합니다. 내부적으로 스케줄러는 서브프로세스를 생성하여 지정된 DAG 디렉토리의 모든 DAG를 모니터링하고 동기화합니다. 기본적으로 1분마다 스케줄러는 DAG 파싱 결과를 수집하고, 활성화된 작업들이 트리거될 수 있는지 확인합니다. 즉, Scheduler가 실행되지 않으면 DAG을 실행시킬 수 없습니다. Scheduler의 역할은 크게 아래와 같습니다. DAG(Directed Acyclic Graph)의 실행 스케줄링: Airflow에서 DAG는 작업들의 연결을 정의한 것이며, scheduler는 D..

Computer Engineering/Data Engineering 2023.04.14

Jordan Tech Lab

분류 전체보기 137

티스토리툴바

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30