Python (17) 썸네일형 리스트형 PYSPARK Documentation PySpark는 Python의 Apache Spark용 인터페이스입니다. 파이썬 API를 사용하여 스파크 애플리케이션을 작성할 수 있을 뿐만 아니라 분산 환경에서 데이터를 대화식으로 분석할 수 있는 PySpark 셸도 제공합니다. PySpark는 Spark SQL, DataFrame, 스트리밍, MLlib(기계 학습) 및 Spark Core와 같은 스파크의 기능 대부분을 지원합니다. 스파크 SQL 및 데이터프레임 Spark SQL은 구조화된 데이터 처리를 위한 Spark 모듈입니다. DataFrame이라는 프로그래밍 추상화를 제공하며 분산 SQL 쿼리 엔진 역할을 할 수도 있습니다. 스트리밍 Spark 위에서 실행되는 Apache Spark의 스트리밍 기능은 Spark의 사용 편의성과 내결함성 특성을 계.. 크롤링 Docker root 계정일 때 (sudo 명령 제외) $ google-chrome --version 구글 크롬 버전확인 $ wget -q -O - https://dl-ssl.google.com/linux/linux\_signing\_key.pub | sudo apt-key add - $ apt-get update $ ls /etc/apt/sources.list.d/google* $ rm -rf /etc/apt/sources.list.d/google.list '403 Forbidden\nYour request is blocked as it may cause potential threats to server's security.' 오류발생시 크롬에서 F12 를 누른후 console에 navigator.us.. async def / asyncio asyncio(Asynchronous I/O)는 비동기 프로그래밍을 위한 모듈이며 CPU 작업과 I/O를 병렬로 처리하게 해줍니다. 동기(synchronous) 처리는 특정 작업이 끝나면 다음 작업을 처리하는 순차처리 방식이고, 비동기(asynchronous) 처리는 여러 작업을 처리하도록 예약한 뒤 작업이 끝나면 결과를 받는 방식입니다. 먼저asyncio를 사용하려면 다음과 같이async def로 네이티브 코루틴을 만듭니다(파이썬에서는 제너레이터 기반의 코루틴과 구분하기 위해async def로 만든 코루틴은 네이티브 코루틴이라고 합니다). import asyncio loop = asyncio.get\_event\_loop() #이벤트 루프를 얻고 loop.run\_until\_complete(print.. [Python] 정규 표현식 기본 규칙 \d -> 숫자 character와 일치 [0-9] . -> 점은 어떠한 문자와 일치한다. [abcd] : a or b or c or d [a-d] : -와 함께 사용되면 해당 문자 사이의 범위에 속하는 문자 중 하나 [0-9] : 모든 숫자 [a-z] : 모든 소문자 [A-Z] : 모든 대문자 [a-zA-Z0-9] : 모든 알파벳 문자 및 숫자 [^0-9] : ^가 맨 앞에 사용되는 경우 해당 문자 패턴이 아닌 것과 매칭 m = re.search(r'\d\d\d\w', '112abcef119') 일때 m 은 112a m = re.search(r '[cbm]at', 'mat') : mat출력 re. search(r'[0-9]haha', '7hahah') : 7haha출력 re.search(r'.. 리스트 빼기 리스트 import collections answer = collections.Counter(big) - collections.Counter(small) 이런 방식으로 리스트 빼기를 할수 있다. 1가지종류가있다면 한가지가 적어지는거라서 중복이 허용된다. 이말이 뭐냐면 big = [a,a,b,c] small = [a,b,c] 라면 저위 식대로 하면 answer.keys())[0] 가 'a' 가 된다. 만약 중복이고 뭐고 small의 요소를 다삭제하려면 answer = list(set(big)-set(small)) 이렇게 간단히 표현할 수 있다. 쟝고의 폴더별 용도 templates 폴더 html 파일들을 모아두는 곳 views.py 특정 페이지 접속시 보여줄 html을 설정하거나 행동을 규정하는 파이썬 파일 urls.py url 규칙을 작성하는 파이썬 파일 models.py 데이터베이스 관련 모델설계서를 작성하는 파이썬 파일 admins.py 관리자를 설정하는 파이썬 파일 migrations 폴더 데이터베이스 관련 작업이 있을때 자동으로 생기는 폴더 settings.py 각종 환경설정(e.g 한국어/영어 설정) db.sqlite3 데이터베이스 정보가 담겨있는 파일 *다른 파일들 장고를 유지하는데 필수적이지만 실제로 사용할 일은 거의 없음 크롤링 예제 css CSS 크롤링하기¶ In [59]: from bs4 import BeautifulSoup import requests In [88]: url = 'https://news.joins.com/article/23818994' In [89]: resp = requests.get(url) In [90]: soup = BeautifulSoup(resp.text) In [91]: resp.text Out[91]: '\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n\r\n \r\n \r\n \r\n \r\n\r\n \r\n \r\n \r\n 검색 바로가기\r\n 주메뉴 바로가기\r\n 주요 기사 바로가기\r\n 다른 기사, 광고영역 바로가기\r\n 중앙일보 사.. 크롤링 예제 학습 (신문기사) 파이썬 크롤링 예제¶ In [202]: from bs4 import BeautifulSoup soup = BeautifulSoup(url) # 임의의 html 코드 url = ''' {% load static %} \n\n\n\n\n\t\n\t\t\n\t\t\t\n\t\t\t\n\t\t\t\t×\n\t\t\t\n\t\t\t\n\n\t\t\t\n\n\n\t\n\t\n\t\t전체기사\n\t\t\t\n\t\t경제\n\t\t\n\t\t\t전체\n\t\t\t\n\t\t\t\t경제\t\t\t\t\n\t\t\t\n\t\t\t\t글로벌 IT\t\t\t\t\n\t\t\t\n\t\t\t\t경제 핫 이슈\t\t\t\t\n\t\t\t\n\t\t\t\t국내 경제 · 산업 이슈\t\t\t\t\n\t\t\t\.. 이전 1 2 3 다음