본문 바로가기

DataEnginner

(9)
Superset Export CSV Superset에서 대쉬보드에서 Export CSV 할 때 encoding 오류 발생 ubuntu에서는 문제없으나 windows PC에서 저장시 문제 발생 일반 사용자들이 windows인것을 감안하여 수정이 필요 해결 방법 : superset/views/core.py response = CsvResponse( csv, headers=generate_download_headers("csv", quoted_csv_name) ) => 위부분에서 중요부분은 csv 부분이다. superset / config.py CSV_EXPORT = { 'encoding': 'utf_8_sig', "sep": "," } 여기서 sig는 signature를 뜻하며 BOM을 파일 정보로 취급 Byte order mark 참고 : ..
superset athena 연결시 주의사항 superset 재시작시 0. docker-compose down -> docker-compose up 1. superset_app bash 접속(docker) 2. pip / Athena 필요 라이브러리 install 3. bigdata DB 터널링(바스티온) 기본적으로 슈퍼셋은 볼륨에 연결되어 저장되기 때문에 오류발생시 docker-compose down 후에 다시 up해도 데이터는 유지한다.(필요 라이브러리는 재설치 필요) # Athena 연결시 ## 중요 무조건 설치해야함 또한 반드시 재시작해야 가능하다. 둘 중 아무거나 사용해도 되지만 나는 아래것을 사용했다. $ pip install "PyAthenaJDBC>1.0.9 $ pip install "PyAthena>1.2.0" 연결 코드 awsat..
docker 에서 jupyter notebook 한글 깨짐 저 같은 사람이 많을것 같으므로 해결방법만 빠르게 보고 넘어가실것을 생각해 짧게 씁니다. 필자는 matplot 에서의 문제가 아니고 주피터목록부터 한글이 깨짐 아래와 같은 방법으로 바로 해결 run에 -e LANG=ko_KR.UTF-8 추가 환경 설정한다. ex) $ docker run -it -p 8001:8001 --name decrypt -e LANG=ko_KR.UTF-8 -v ~/workspace:/home jo1013/decrypt:0.02 $ apt-get update $ apt-get install locales $ locale-gen ko_KR.UTF-8 $ locale -a
Docker container / DB연결 Docker container에서 쥬피터노트북 작업을 할 때 클라우드 서버(ex> rds) DB 연결시 바스티온 host 연결시에 로컬에서 연결이 되어있어도 컨테이너에서 작업시에는 db에 붙지 않기 때문에 컨테이너 내부에서 바스티온 host를 띄우고 localhost(docker 내부)으로 연결하면 된다. 또한 컨테이너에서 로컬로 DB가 붙을때에도 로컬호스트의 내부 IP를 적어주어야한다. 당연한거지만 삽질하다가 해결해서 다른 분들도 필요시에 보셨음 하셔서 적는다.
Apache Airflow 가이드 데이터 오케스트레이션 프레임 워크 Apache Airflow는 여러가지 태스크들(데이터셋 생성, 모델 학습 등)을 일련의 그래프로 연결하고 스케줄링, 모니터링 등 파이프라인 관리를 위한 다양한 기능을 제공하고 있는 Workflow Management Platform입니다. 다음은 Airflow에서 자주 사용되는 기본 개념과 용어입니다. DAG :Airflow에서 DAG (Directed Acyclic Graph)는 서로에 대한 종속성이 있고 일정에 따라 실행되는 작업 그룹입니다. 각 DAG는 논리적 워크 플로와 동일합니다. DAG 실행 : DAG에의 실행 특정입니다. 연산자 :연산자는 특정 유형의 작업에 대한 템플릿 역할을하는 Python 클래스입니다. 예를 들면 다음과 같습니다. BashOperator..
Docker-compose 이 글은 우분투 환경에서 작성되었습니다. 현재 내가 구동 중인 docker-compose.yml 파일 어렵게 생각했었는데 docker run 할때 요소들이 녹아 든것 뿐 어렵지않다. 정정 어려운듯 싶다. 다른 docker-compose 파일에 이전 docker images를 적용할때 줄이 맞지 않아 문제가 발생하기도 했다. 안되면 꼭 줄확인 (특히, 복붙시에) 그리고 $ docker-compose down 후 docker-compose 파일을 고쳐봐야 아래입력한 설정값들은 적용안되므로 $ docker ps 로 확인 cp $ docker rm -f [NAMES or CONTAINER ID]를 입력한다. version: "3.7" # 파일 규격 버전 # docker-compose 버전으로 버전3부터는 lin..
pyspark AIRFLOW + PYSPARK 이 글은 우분투 기준으로 작성되었습니다. 0. 환경셋팅 docker 환경 다운 $ docker pull jo1013/pyspark:0.05 $ docker pull jo1013/airflowex:0.06 $ docker pull mysql:8.0.17git clone $ git clone https://github.com/jo1013/pyspark.git $ cd pyspark1. 실행 명령어 $ docker-compose up ## mysql pyspark airflow(postgresql) 컨테이너실행airflow만 실행 명령어 $ cd Airflow $ docker run -it -d -p 8090:8080 -v ~/workspace:/home -e LC_ALL=C...
Docker-Compose로 구현 (Airflow + postgresql) + (pyspark+jupyter) + (mysql) AIRFLOW + PYSPARK 이 글은 우분투 기준으로 작성되었습니다. 0. 환경셋팅 docker 환경 다운 $ docker pull jo1013/pyspark:0.05 $ docker pull jo1013/airflow:0.07 $ docker pull mysql:8.0.17 git clone (글쓴이는 /home/workspace 에서 실행) $ git clone https://github.com/jo1013/pyspark.git $ cd pyspark 1. 실행 명령어 $ docker-compose up ## mysql pyspark airflow(postgresql) 컨테이너실행 (docker-compose.yml에서 3개의 container는 본인의 volumes에 맞게 수정한다.) 2. 다른..