본문 바로가기
728x90
반응형
SMALL

크롤링8

[Web Crawler] AutoCrawler AutoCrawler 구글과 네이버 이미지를 멀티 프로세스로 빠르게 크롤링할 수 있는 라이브러리이다. 현재 구글 사이트에서는 로직 문제로 위 라이브러리로는 수집 불가하다. 설치 방법 사이트에서 git clone을 하거나 zip 파일로 다운로드한다. 사용 방법 python main.py [--skip true] [--threads 4] [--google true] [--naver true] [--full false] [--face false] [--no_gui auto] [--limit 0] 네이버에서 크롤링하고자 한다면 --naver true 그리고 구글에서는 --google true로 터미널을 통해 실행한다. https://github.com/YoongiKim/AutoCrawler/tree/master.. 2023. 6. 5.
[Selenium] AttributeError: 'WebDriver' object has no attribute 'find_element_by_' 셀레니움이 업데이트되면서 find_element_by_와 같은 문법을 사용할 수 없다. 따라서, 아래 모듈을 가져와야 한다. from selenium.webdriver.common.by import By 변경된 문법 By.ID 태그의 id값으로 추출 By.NAME 태그의 name값으로 추출 By.XPATH 태그의 경로로 추출 By.LINK_TEXT 링크 텍스트값으로 추출 By.PARTIAL_LINK_TEXT 링크 텍스트의 자식 텍스트 값을 추출 By.TAG_NAME 태그 이름으로 추출 By.CLASS_NAME 태그의 클래스명으로 추출 By.CSS_SELECTOR css 선택자로 추출 2023. 5. 31.
[Web Crawler] YouTube Data API YouTube Data API YouTube Data API는 유튜브의 기본적인 리소스 (채널, 재생목록, 동영상 등)의 기본적인 기능 (등록, 수정, 삭제 등)을 제공한다. 유튜브 API 생성하기 Google API Console에 접속하여 유튜브 API 키를 발급 받는다. import requests import json # 유튜브 데이터 API 키 api_key = "YOUR_API_KEY" # 비디오 ID video_id = "VIDEO_ID" # 요청 URL url = f"https://www.googleapis.com/youtube/v3/commentThreads?key={api_key}&textFormat=plainText&part=snippet&videoId={video_id}&maxRes.. 2023. 3. 21.
[Selenium] 유튜브 댓글 크롤링 라이브러리 import time import pandas as pd from bs4 import BeautifulSoup from openpyxl import Workbook from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import warnings warnings.filterwarnings('ignore') url url = input("링크 입력 (예: https://www.youtube.com/) : ") wb = Workbook(write_only=True) ws = wb.create_sheet() driver = webdri.. 2023. 3. 14.
[Selenium] 'chromedriver'는 Apple에서 악성 소프트웨어가 있는지 확인할 수 없기 때문에 열 수 없습니다. 터미널에서 chromedriver가 설치된 경로로 이동한 후 다음 코드를 입력한다. xattr -d com.apple.quarantine chromedriver 2023. 3. 14.
[Web Crawler] Requests 모듈 Requests requests는 Python으로 HTTP 통신이 필요한 프로그램을 작성할 때 가장 많이 사용되는 라이브러리이다. 특히, 원격에 있는 API를 호출할 때 유용하게 사용된다. # HTTP 요청을 보내는 모듈 (웹사이트 접속) import requests URL='http://httpbin.org/get' response=requests.get(URL) print(response.status_code) print(response.text) 200 { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-requests/2.23... 2022. 12. 26.
[Web Crawler] 네이버 이미지 수집용 웹 크롤러 만들기 네이버 이미지 수집용 웹 크롤러 만들기 import urllib.request import urllib import time import sys import re import math import os import random from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from urllib.parse import quote_plus # 필요한 정보를 입력 받기 print("=" *80) print("네이버에서 이미지를 검색하여 수집") print("=" *80) query_tx.. 2022. 8. 28.
[Web Crawler] 셀레니움 (Selenium) (1) 셀레니움 (Selenium) python으로 크롤링할 때 Beautifulsoup4와 더불어 빼놓을 수 없는 훌륭한 라이브러리이다. pip install selenium # python 환경 conda install selenium # conda 환경 Import import selenium from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC fr.. 2022. 2. 15.
728x90
반응형
LIST