본문 바로가기

728x90

SMALL

웹 크롤러8

[Web Crawler] AutoCrawler AutoCrawler 구글과 네이버 이미지를 멀티 프로세스로 빠르게 크롤링할 수 있는 라이브러리이다. 현재 구글 사이트에서는 로직 문제로 위 라이브러리로는 수집 불가하다. 설치 방법 사이트에서 git clone을 하거나 zip 파일로 다운로드한다. 사용 방법 python main.py [--skip true] [--threads 4] [--google true] [--naver true] [--full false] [--face false] [--no_gui auto] [--limit 0] 네이버에서 크롤링하고자 한다면 --naver true 그리고 구글에서는 --google true로 터미널을 통해 실행한다. https://github.com/YoongiKim/AutoCrawler/tree/master.. 2023. 6. 5.

[Web Crawler] YouTube Data API YouTube Data API YouTube Data API는 유튜브의 기본적인 리소스 (채널, 재생목록, 동영상 등)의 기본적인 기능 (등록, 수정, 삭제 등)을 제공한다. 유튜브 API 생성하기 Google API Console에 접속하여 유튜브 API 키를 발급 받는다. import requests import json # 유튜브 데이터 API 키 api_key = "YOUR_API_KEY" # 비디오 ID video_id = "VIDEO_ID" # 요청 URL url = f"https://www.googleapis.com/youtube/v3/commentThreads?key={api_key}&textFormat=plainText&part=snippet&videoId={video_id}&maxRes.. 2023. 3. 21.

[Selenium] 유튜브 댓글 크롤링 라이브러리 import time import pandas as pd from bs4 import BeautifulSoup from openpyxl import Workbook from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys import warnings warnings.filterwarnings('ignore') url url = input("링크 입력 (예: https://www.youtube.com/) : ") wb = Workbook(write_only=True) ws = wb.create_sheet() driver = webdri.. 2023. 3. 14.

[Web Crawler] Requests 모듈 Requests requests는 Python으로 HTTP 통신이 필요한 프로그램을 작성할 때 가장 많이 사용되는 라이브러리이다. 특히, 원격에 있는 API를 호출할 때 유용하게 사용된다. # HTTP 요청을 보내는 모듈 (웹사이트 접속) import requests URL='http://httpbin.org/get' response=requests.get(URL) print(response.status_code) print(response.text) 200 { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-requests/2.23... 2022. 12. 26.

[Web Crawler] 네이버 영화 댓글 감정 분석과 예측 필수 라이브러리 설치 !apt-get update !apt-get install g++ openjdk-8-jdk python-dev python3-dev -y !pip3 install JPype1-py3 !pip3 install konlpy !JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64" 네이버 영화 사이트에서 리뷰 수집 import requests from bs4 import BeautifulSoup import pandas as pd import time review_page = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=184516&type=after&isActualPointWriteEx.. 2022. 11. 24.

[Web Crawler] 네이버 이미지 수집용 웹 크롤러 만들기 네이버 이미지 수집용 웹 크롤러 만들기 import urllib.request import urllib import time import sys import re import math import os import random from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from urllib.parse import quote_plus # 필요한 정보를 입력 받기 print("=" *80) print("네이버에서 이미지를 검색하여 수집") print("=" *80) query_tx.. 2022. 8. 28.

[Web Crawler] 크롬 드라이버 (Chrome Driver) 크롬 드라이버 (Chrome Driver) 크롬 드라이버는 크롬브라우저를 컨트롤 할 수 있게 해주는 파일이다. 설치 방법 우선, 크롬 우측 상단의 설정으로 들어간다. 그 다음, Chrome 정보로 들어가 버전 확인한다. https://chromedriver.chromium.org/downloads로 접속하여 버전에 맞는 드라이버를 아래 경로에 저장한다. # window C:\\Temp\\chromedriver_240 2022. 8. 28.

웹 크롤러 (Web Crawler) 웹 크롤러 (Web Crawler) 웹 크롤러 (web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇.. 2022. 2. 6.

이전 1 다음

728x90

LIST

티스토리툴바