본문 바로가기
728x90
반응형
SMALL

App Programming/Web Crawler30

[Web Crawler] AutoCrawler AutoCrawler 구글과 네이버 이미지를 멀티 프로세스로 빠르게 크롤링할 수 있는 라이브러리이다. 현재 구글 사이트에서는 로직 문제로 위 라이브러리로는 수집 불가하다. 설치 방법 사이트에서 git clone을 하거나 zip 파일로 다운로드한다. 사용 방법 python main.py [--skip true] [--threads 4] [--google true] [--naver true] [--full false] [--face false] [--no_gui auto] [--limit 0] 네이버에서 크롤링하고자 한다면 --naver true 그리고 구글에서는 --google true로 터미널을 통해 실행한다. https://github.com/YoongiKim/AutoCrawler/tree/master.. 2023. 6. 5.
[Web Crawler] YouTube Data API YouTube Data API YouTube Data API는 유튜브의 기본적인 리소스 (채널, 재생목록, 동영상 등)의 기본적인 기능 (등록, 수정, 삭제 등)을 제공한다. 유튜브 API 생성하기 Google API Console에 접속하여 유튜브 API 키를 발급 받는다. import requests import json # 유튜브 데이터 API 키 api_key = "YOUR_API_KEY" # 비디오 ID video_id = "VIDEO_ID" # 요청 URL url = f"https://www.googleapis.com/youtube/v3/commentThreads?key={api_key}&textFormat=plainText&part=snippet&videoId={video_id}&maxRes.. 2023. 3. 21.
[Web Crawler] 웹과 크롬 개발자 도구 인터넷 (Internet) 인터넷 (Internet)은 인터넷 프로토콜 스위트 (TCP/IP)를 기반으로 하여 전 세계적으로 연결되어있는 컴퓨터 네트워크 통신망을 일컫는 말이다. 1969년 미국 국방부 산하의 고등연구계획국에서 아르파넷 (ARPANET)을 구축했다. 1983년 다양한 목적으로 사용하고자 하는 목적 때문에 군사용 네트워크 기능을 분리했으며, 역할이 다양해지며 프로토콜 (통신규약)의 재정비가 필요해 TCP/IP를 도입했다. World Wide Web (WWW) World Wide Web (WWW)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 전 세계적인 정보 공간을 말한다. 간단히 웹이라 부르는 경우가 많다. 인터넷을 프로그램끼리 통신이나 메일 전송 정도로 제한적으로 사용.. 2023. 1. 2.
[Web Crawler] Requests 모듈 Requests requests는 Python으로 HTTP 통신이 필요한 프로그램을 작성할 때 가장 많이 사용되는 라이브러리이다. 특히, 원격에 있는 API를 호출할 때 유용하게 사용된다. # HTTP 요청을 보내는 모듈 (웹사이트 접속) import requests URL='http://httpbin.org/get' response=requests.get(URL) print(response.status_code) print(response.text) 200 { "args": {}, "headers": { "Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "httpbin.org", "User-Agent": "python-requests/2.23... 2022. 12. 26.
[Web Crawler] 네이버 영화 댓글 감정 분석과 예측 필수 라이브러리 설치 !apt-get update !apt-get install g++ openjdk-8-jdk python-dev python3-dev -y !pip3 install JPype1-py3 !pip3 install konlpy !JAVA_HOME="/usr/lib/jvm/java-8-openjdk-amd64" 네이버 영화 사이트에서 리뷰 수집 import requests from bs4 import BeautifulSoup import pandas as pd import time review_page = 'https://movie.naver.com/movie/bi/mi/pointWriteFormList.naver?code=184516&type=after&isActualPointWriteEx.. 2022. 11. 24.
[Web Crawler] 네이버 블로그 / 뉴스 크롤링 네이버 블로그 크롤링 # 블로그 본문 크롤링 import time from selenium import webdriver from bs4 import BeautifulSoup from selenium.common.exceptions import NoSuchElementException,StaleElementReferenceException driverPath = 'chromedriver.exe' driver = webdriver.Chrome(os.path.abspath(driverPath)) driver.implicitly_wait(3) # 크롤링 결과를 data frame으로 저장 import pandas as pd titles.pop(4) df = pd.DataFrame({'제목':titles,'링크.. 2022. 9. 29.
[Web Crawler] 네이버 클라우드 플랫폼 네이버 클라우드 플랫폼 네이버 오픈API 서비스는 24시간 365일 무중단으로 운영되고 있다. 오픈API 오류에 신속하게 대응하기 위해 매 10분 단위로 자동으로 모니터링하고 있다. (https://developers.naver.com/main/) ▪ Open API : 누구나 사용할 수 있도록 공개된 API ▪ API (Application Programming Interface) : 데이터를 요청하여 주고 받기 위한 방식 또는 규격 Open API Key [Products] → [서비스 API] → [데이터랩] → [Open API 신청] → [Application 등록] → [내 에플리케이션] → Client ID 및 Client secret 확인한다. example code # scrapy 설치 .. 2022. 9. 28.
[Web Crawler] 네이버 이미지 수집용 웹 크롤러 만들기 네이버 이미지 수집용 웹 크롤러 만들기 import urllib.request import urllib import time import sys import re import math import os import random from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from urllib.parse import quote_plus # 필요한 정보를 입력 받기 print("=" *80) print("네이버에서 이미지를 검색하여 수집") print("=" *80) query_tx.. 2022. 8. 28.
[Web Crawler] 크롬 드라이버 (Chrome Driver) 크롬 드라이버 (Chrome Driver) 크롬 드라이버는 크롬브라우저를 컨트롤 할 수 있게 해주는 파일이다. 설치 방법 우선, 크롬 우측 상단의 설정으로 들어간다. 그 다음, Chrome 정보로 들어가 버전 확인한다. https://chromedriver.chromium.org/downloads로 접속하여 버전에 맞는 드라이버를 아래 경로에 저장한다. # window C:\\Temp\\chromedriver_240 2022. 8. 28.
[Web Crawler] 아마존 닷컴 베스트셀러 상품 정보 수집용 웹 크롤러 만들기 아마존 닷컴 베스트셀러 상품 정보 수집용 웹 크롤러 만들기 from bs4 import BeautifulSoup from selenium import webdriver import time import sys import re import math import numpy import pandas as pd import xlwt import random import os import urllib.request import urllib # 사용자에게 카테고리 메뉴를 안내하고 정보를 입력 받기 query_txt = '아마존닷컴' query_url = 'https://www.amazon.com/bestsellers?Id=NSGoolge' sec = input(''' 1.Amazon Devices & Access.. 2022. 3. 3.
728x90
반응형
LIST