이 문서는 도서 ‘Apache Airflow 기반의 데이터 파이프라인’의 chapter8 커스텀 컴포넌트 빌드를 공부하고 작성한 글입니다. 1. Custom Hook 필요한 경우 API 연동 등의 복잡한 작업의 처리가 필요할 때 효과 코드를 캡슐화하고 재활용 가능 데이터베이스와 UI를 통해 자격 증명과 연결된 관리를 사...
Airflow Custom Component
Airflow Operator
NOTE: 이 포스트는 airflow의 operator에 대한 내용을 담고 있습니다. 0. Operator란? 사전 정의된 Task에 대한 템플릿으로 DAG에 정의할 수 있음 다양한 operator들이 있으며, 일부는 코어에 내장되어있고 이외의 operator들은 Provider 패키지를 통해 별도로 설치하여 사용할 수 있음 1...
DataHub - Dataset
datahub의 공식 문서를 번역하고 정리한 글입니다. 1. Data Platform 데이터 세트, 대시보드, 차트 및 모든 메타데이터 그래프의 데이터 자산들에 대한 시스템이나 도구를 뜻함 예시로는 redshift, hive, bigquery, looker, tableau 등이 있으며 지원되는 전체 목록은 다음과 같음 ...
Superset 3.0.0 설치 시 troubleshooting
superset 3.0.0에 대한 트러블슈팅 기록을 남긴 글입니다. 1. superset 3.0.0 최초 구동시 Refusing to start due to insecure SECRET_KEY 상태 docker container log ------------------------------------------------------...
spark + yarn 옵션
스파크와 하이브를 함께 사용할 경우 고려해야하는 옵션들에 대해 정리합니다. 1. spark.sql.hive.convertMetastoreOrc 설명 hive ORC 형식의 데이터를 내부 최적화를 위해 spark의 고유 형식으로 변환할지 여부를 지정 기본값은 true 영향 true인 경우 복수의 spark 어플리케이션이 같은...
DataHub - domain 기능을 통한 data mesh 강화
Supercharge Data Mesh with Domains in DataHub / DataHub 201: Business Glossary를 보고 정리한 글입니다. Domain Data Asset의 논리적인 컬렉션 외부 플랫폼으로 부터 오는 것이 아닌 데이터허브 자체에서 Asset의 큐레이팅된 폴더 중앙 집중 식으로 관리될 수도...
spark + hive 옵션
스파크와 하이브를 함께 사용할 경우 고려해야하는 옵션들에 대해 정리합니다. 1. spark.sql.hive.convertMetastoreOrc 설명 hive ORC 형식의 데이터를 내부 최적화를 위해 spark의 고유 형식으로 변환할지 여부를 지정 기본값은 true 영향 true인 경우 복수의 spark 어플리케이션이 같은...
시간 복잡도와 공간 복잡도
NOTE: 이 포스트는 알고리즘의 성능을 평가할 수 있는 척도인 시간 복잡도와 공간 복잡도에 대한 내용을 정리합니다. 1. 시간 복잡도 알고리즘의 수행 시간 분석 최악의 경우를 계산하는 방식을 빅-오(Big-O) 표기법이라고 함 종류 (1) O(1) (Constant) 입력 데이터의 크기에 상관없이 언제나 일정한 시간이 ...
spark 버전 별 차이
NOTE: 이 포스트는 spark의 버전 별 차이가 궁금해서 기록해 두는 포스트 입니다. 1. SPARK ver. 1.x (1) RDD를 이용한 인메모리 처리로 기존 방식 대비 빠른 속도로 처리 가능 (2) v1.3: 데이터 프레임 추가 (3) v1.6: 데이터셋 추가(데이터 타입체크, 인코더, 카탈리스트 옵티마이저 지원) 2. ...
Airflow Executor
NOTE: 이 포스트는 airflow의 executor에 대한 내용을 담고 있습니다. 1. Airflow Executor Executor는 작업 인스턴스가 실행되는 메커니즘 한 번에 하나의 executor만 설정 가능 configuration file에 core 부분에 설정 설정예시 ...