본문 바로가기
728x90
반응형
SMALL

web crawler26

[Web Crawler] AutoCrawler AutoCrawler 구글과 네이버 이미지를 멀티 프로세스로 빠르게 크롤링할 수 있는 라이브러리이다. 현재 구글 사이트에서는 로직 문제로 위 라이브러리로는 수집 불가하다. 설치 방법 사이트에서 git clone을 하거나 zip 파일로 다운로드한다. 사용 방법 python main.py [--skip true] [--threads 4] [--google true] [--naver true] [--full false] [--face false] [--no_gui auto] [--limit 0] 네이버에서 크롤링하고자 한다면 --naver true 그리고 구글에서는 --google true로 터미널을 통해 실행한다. https://github.com/YoongiKim/AutoCrawler/tree/master.. 2023. 6. 5.
[Web Crawler] Requests 모듈 Requests requests는 Python으로 HTTP 통신이 필요한 프로그램을 작성할 때 가장 많이 사용되는 라이브러리이다. 특히, 원격에 있는 API를 호출할 때 유용하게 사용된다. # HTTP 요청을 보내는 모듈 (웹사이트 접속) import requests URL='http://httpbin.org/get' response=requests.get(URL) print(response.status_code) print(response.text) 200 { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-requests/2.23... 2022. 12. 26.
[Web Crawler] 네이버 영화 댓글 감정 분석과 예측 필수 라이브러리 설치 !apt-get update !apt-get install g++ openjdk-8-jdk python-dev python3-dev -y !pip3 install JPype1-py3 !pip3 install konlpy !JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64" 네이버 영화 사이트에서 리뷰 수집 import requests from bs4 import BeautifulSoup import pandas as pd import time review_page = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=184516&type=after&isActualPointWriteEx.. 2022. 11. 24.
[Web Crawler] 네이버 블로그 / 뉴스 크롤링 네이버 블로그 크롤링 # 블로그 본문 크롤링 import time from selenium import webdriver from bs4 import BeautifulSoup from selenium.common.exceptions import NoSuchElementException,StaleElementReferenceException driverPath = 'chromedriver.exe' driver = webdriver.Chrome(os.path.abspath(driverPath)) driver.implicitly_wait(3) # 크롤링 결과를 data frame으로 저장 import pandas as pd titles.pop(4) df = pd.DataFrame({'제목':titles,'링크.. 2022. 9. 29.
[Web Crawler] 네이버 이미지 수집용 웹 크롤러 만들기 네이버 이미지 수집용 웹 크롤러 만들기 import urllib.request import urllib import time import sys import re import math import os import random from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from urllib.parse import quote_plus # 필요한 정보를 입력 받기 print("=" *80) print("네이버에서 이미지를 검색하여 수집") print("=" *80) query_tx.. 2022. 8. 28.
[Web Crawler] 크롬 드라이버 (Chrome Driver) 크롬 드라이버 (Chrome Driver) 크롬 드라이버는 크롬브라우저를 컨트롤 할 수 있게 해주는 파일이다. 설치 방법 우선, 크롬 우측 상단의 설정으로 들어간다. 그 다음, Chrome 정보로 들어가 버전 확인한다. https://chromedriver.chromium.org/downloads로 접속하여 버전에 맞는 드라이버를 아래 경로에 저장한다. # window C:\\Temp\\chromedriver_240 2022. 8. 28.
[Web Crawler] 아마존 닷컴 베스트셀러 상품 정보 수집용 웹 크롤러 만들기 아마존 닷컴 베스트셀러 상품 정보 수집용 웹 크롤러 만들기 from bs4 import BeautifulSoup from selenium import webdriver import time import sys import re import math import numpy import pandas as pd import xlwt import random import os import urllib.request import urllib # 사용자에게 카테고리 메뉴를 안내하고 정보를 입력 받기 query_txt = '아마존닷컴' query_url = 'https://www.amazon.com/bestsellers?Id=NSGoolge' sec = input(''' 1.Amazon Devices & Access.. 2022. 3. 3.
[Web Crawler] 구글 이미지 다운로드용 웹 크롤러 만들기 구글 이미지 다운로드용 웹 크롤러 만들기 import time import sys import re import math import os import random import urllib.request import urllib from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By # 필요한 정보를 입력 받기 print("=" *80) print("구글 사이트에서 이미지를 검색하여 수집") print("=" *80) query_txt = input('크롤링할 이미지의 키워드 : ') cnt = int(input('크롤링할 건 수 : ')) # 실제 크롤링할 페이지 수 re.. 2022. 3. 3.
[Web Crawler] YouTube 리뷰 수집용 웹 크롤러 만들기 YouTube 리뷰 수집용 웹 크롤러 만들기 from bs4 import BeautifulSoup from selenium import webdriver import time import sys import math import re import numpy import pandas as pd import xlwt import random import os # 사용자에게 필요한 정보 얻기 query_txt = input("youtube에서 검색할 주제 키워드 입력(예:내셔널지오그래픽): ") cnt = int(input('위 주제로 댓글을 크롤링할 youtube 영상은 몇 건?: ')) reple_cnt = int(input('각 동영상에서 추출할 댓글은 몇 건?: ')) f_dir = input("크롤링.. 2022. 2. 18.
[Web Crawler] 데이터 수집용 웹 크롤러 만들기 (2) 데이터 수집용 웹 크롤러 만들기 # 필요한 모듈과 라이브러리 로딩 from bs4 import BeautifulSoup from selenium import webdriver import time import sys import re import math import numpy import pandas as pd import xlwt import random import os # 크롤링 정보 입력 print("=" *80) print("서울시 응답소 게시판 크롤링") print("=" *80) query_txt = '서울시 응답소' cnt = int(input('1. 크롤링 할 건수 입력 : ')) page_cnt = math.ceil(cnt / 10) f_dir = input("2. 결과 파일을 저장할.. 2022. 2. 16.
728x90
반응형
LIST