분류 전체보기 (68) 썸네일형 리스트형 PYSPARK Documentation PySpark는 Python의 Apache Spark용 인터페이스입니다. 파이썬 API를 사용하여 스파크 애플리케이션을 작성할 수 있을 뿐만 아니라 분산 환경에서 데이터를 대화식으로 분석할 수 있는 PySpark 셸도 제공합니다. PySpark는 Spark SQL, DataFrame, 스트리밍, MLlib(기계 학습) 및 Spark Core와 같은 스파크의 기능 대부분을 지원합니다. 스파크 SQL 및 데이터프레임 Spark SQL은 구조화된 데이터 처리를 위한 Spark 모듈입니다. DataFrame이라는 프로그래밍 추상화를 제공하며 분산 SQL 쿼리 엔진 역할을 할 수도 있습니다. 스트리밍 Spark 위에서 실행되는 Apache Spark의 스트리밍 기능은 Spark의 사용 편의성과 내결함성 특성을 계.. Glue Schedules 형식 1. 가장 앞에 오는 단위는 초(Seconds)이다. 2. 두번째는 분(Minutes)을 나타낸다. 3. 세번째는 시(Hours)를 나타낸다. 4. 네번째는 일(Day-of-Month, DOM)을 나타낸다. 5. 다섯번째로 월(Month)에 대한 정보를 기술한다. 6. 여섯번째는 요일(Day of Week)을 나타낸다. 요일은 0~6의 숫자로 쓸 수도 있지만 "MON", "SUN"과 같이 요일의 약자로 사용할 수도 있다. 7. 마지막으로 일곱번째에는 연도(Year)가 온다. 연도는 optional이다. - 와일드카드(*) 문자는 '매 번'을 의미한다. - 물음표(?) 는 '설정값 없음'을 나타낸다. 이는 일(DOM)과 요일(DOW)에만 사용할 수 있다. 5 18 7 * ? * 크롤링 Docker root 계정일 때 (sudo 명령 제외) $ google-chrome --version 구글 크롬 버전확인 $ wget -q -O - https://dl-ssl.google.com/linux/linux\_signing\_key.pub | sudo apt-key add - $ apt-get update $ ls /etc/apt/sources.list.d/google* $ rm -rf /etc/apt/sources.list.d/google.list '403 Forbidden\nYour request is blocked as it may cause potential threats to server's security.' 오류발생시 크롬에서 F12 를 누른후 console에 navigator.us.. Postgresql 전체스키마에서 테이블 정보와 comment 가져오기 Postgresql 전체스키마에서 테이블 정보와 comment 가져오기 (메타성 데이터) ''' SELECT table_name as 테이블이름, ( select PD.DESCRIPTION AS TABLE_COMMENT FROM PG_STAT_USER_TABLES PS ,PG_DESCRIPTION PD WHERE PS.RELNAME = table_name AND PS.RELID = PD.OBJOID AND PD.OBJSUBID = 0) as COMMENT FROM information_schema.tables WHERE table_schema = '스키마명'; ''' ubuntu 업데이트 오류시 검정화면 ...시 대처 부팅이 안될시에 f12 or shift키 연타로 터미널화면에 들어간다. -- 글자가 다이아로 나오는 깨짐 현상일때 $ export LANG=C이것 저것 구글링했을때 해결안되고 apt에 디펜전시로 여러개 걸려서 이도저도 안될때. $ dpkg --force-all --configure -a $ dpkg --purge --force-depends libnettle6 (cf. this post) $ apt --fix-broken install $ apt-get -f install $ apt-get update $ apt-get upgrade출처 : https://superuser.com/questions/1386209/how-to-solve-this-dependencies-apt-fix-broken-instal.. docker ssh통신 key gen 후 복사 docker container끼리 SSH 통신 : 필자의 경우는 (airflow에서 dag를 작성하고 commands로 데이터 파이프라인 .py 실행) docker container는 그 하나의 container가 각각의 다른 컴퓨터로 생각하는게 편하다. 컨테이너 끼리의 ssh통신은 ex ) pyspark 컨테이너에서 실행할 때 ssh key-gen을 통해 키를 발급하고 airflow container에 넣어야하고 서버에서 가져올때 서버의 바스티온을 pyspark에서 열어놔야한다 . (docker exec -it -d [container name] ssh~~~) 필수! $ service ssh start 접속할 컨테이너에서 키를 발급 $ ssh-keygen -t rsa 엔터 연타!!(출처에 들어가면 옵션.. Docker container / DB연결 Docker container에서 쥬피터노트북 작업을 할 때 클라우드 서버(ex> rds) DB 연결시 바스티온 host 연결시에 로컬에서 연결이 되어있어도 컨테이너에서 작업시에는 db에 붙지 않기 때문에 컨테이너 내부에서 바스티온 host를 띄우고 localhost(docker 내부)으로 연결하면 된다. 또한 컨테이너에서 로컬로 DB가 붙을때에도 로컬호스트의 내부 IP를 적어주어야한다. 당연한거지만 삽질하다가 해결해서 다른 분들도 필요시에 보셨음 하셔서 적는다. SSH KEY 생성하기 이 글은 ubuntu 기준입니다. -- # ssh-keygen -t rsa -f ~/.ssh/[KEY_FILENAME] -C [USERNAME] $ ssh-keygen -t rsa -f ~/.ssh/gcp_ssh_test -C sawyer 이전 1 2 3 4 5 6 ··· 9 다음