DataEnginner/Airflow (2) 썸네일형 리스트형 Apache Airflow 가이드 데이터 오케스트레이션 프레임 워크 Apache Airflow는 여러가지 태스크들(데이터셋 생성, 모델 학습 등)을 일련의 그래프로 연결하고 스케줄링, 모니터링 등 파이프라인 관리를 위한 다양한 기능을 제공하고 있는 Workflow Management Platform입니다. 다음은 Airflow에서 자주 사용되는 기본 개념과 용어입니다. DAG :Airflow에서 DAG (Directed Acyclic Graph)는 서로에 대한 종속성이 있고 일정에 따라 실행되는 작업 그룹입니다. 각 DAG는 논리적 워크 플로와 동일합니다. DAG 실행 : DAG에의 실행 특정입니다. 연산자 :연산자는 특정 유형의 작업에 대한 템플릿 역할을하는 Python 클래스입니다. 예를 들면 다음과 같습니다. BashOperator.. Docker-Compose로 구현 (Airflow + postgresql) + (pyspark+jupyter) + (mysql) AIRFLOW + PYSPARK 이 글은 우분투 기준으로 작성되었습니다. 0. 환경셋팅 docker 환경 다운 $ docker pull jo1013/pyspark:0.05 $ docker pull jo1013/airflow:0.07 $ docker pull mysql:8.0.17 git clone (글쓴이는 /home/workspace 에서 실행) $ git clone https://github.com/jo1013/pyspark.git $ cd pyspark 1. 실행 명령어 $ docker-compose up ## mysql pyspark airflow(postgresql) 컨테이너실행 (docker-compose.yml에서 3개의 container는 본인의 volumes에 맞게 수정한다.) 2. 다른.. 이전 1 다음