본문 바로가기
728x90
반응형
SMALL

App Programming/Web Crawler30

[Web Crawler] 구글 이미지 다운로드용 웹 크롤러 만들기 구글 이미지 다운로드용 웹 크롤러 만들기 import time import sys import re import math import os import random import urllib.request import urllib from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.common.by import By # 필요한 정보를 입력 받기 print("=" *80) print("구글 사이트에서 이미지를 검색하여 수집") print("=" *80) query_txt = input('크롤링할 이미지의 키워드 : ') cnt = int(input('크롤링할 건 수 : ')) # 실제 크롤링할 페이지 수 re.. 2022. 3. 3.
[Web Crawler] YouTube 리뷰 수집용 웹 크롤러 만들기 YouTube 리뷰 수집용 웹 크롤러 만들기 from bs4 import BeautifulSoup from selenium import webdriver import time import sys import math import re import numpy import pandas as pd import xlwt import random import os # 사용자에게 필요한 정보 얻기 query_txt = input("youtube에서 검색할 주제 키워드 입력(예:내셔널지오그래픽): ") cnt = int(input('위 주제로 댓글을 크롤링할 youtube 영상은 몇 건?: ')) reple_cnt = int(input('각 동영상에서 추출할 댓글은 몇 건?: ')) f_dir = input("크롤링.. 2022. 2. 18.
[Web Crawler] 데이터 수집용 웹 크롤러 만들기 (2) 데이터 수집용 웹 크롤러 만들기 # 필요한 모듈과 라이브러리 로딩 from bs4 import BeautifulSoup from selenium import webdriver import time import sys import re import math import numpy import pandas as pd import xlwt import random import os # 크롤링 정보 입력 print("=" *80) print("서울시 응답소 게시판 크롤링") print("=" *80) query_txt = '서울시 응답소' cnt = int(input('1. 크롤링 할 건수 입력 : ')) page_cnt = math.ceil(cnt / 10) f_dir = input("2. 결과 파일을 저장할.. 2022. 2. 16.
[Web Crawler] 데이터 수집용 웹 크롤러 만들기 (1) 데이터 수집용 웹 크롤러 만들기 2022. 2. 16.
[Web Crawler] 특정 게시글의 상세 내용 수집하기 특정 게시글의 상세 내용 수집하기 2022. 2. 16.
[Web Crawler] 다양한 유형의 파일로 저장하기 (csv, xls, txt) 다양한 유형의 파일로 저장하기 (csv, xls, txt) from bs4 import BeautifulSoup from selenium import webdriver import time import sys query_txt = input('크롤링할 키워드 : ') f_name = input('검색 결과를 저장할 txt 파일경로와 이름 지정 (ex. c:\\temp\\test.txt): ') fc_name = input('검색 결과를 저장할 csv 파일경로와 이름 지정 (ex. c:\\temp\\test.csv): ') fx_name = input('검색 결과를 저장할 xls 파일경로와 이름 지정 (ex. c:\\temp\\test.xls): ') # 크롬 드라이버를 사용하여 웹 브라우저 실행 path.. 2022. 2. 16.
[Web Crawler] 조회결과를 수집하고 txt 파일로 저장하기 웹페이지 데이터 추출 # 필요한 모듈과 라이브러리를 로딩하고 검색어 입력 from bs4 import BeautifulSoup from selenium import webdriver import time import sys query_txt = input('크롤링할 키워드 입력: ') f_name = input('검색 결과를 저장할 파일경로와 이름 지정(예 : /Users/test.txt)') # 크롬 드라이버 사용해서 웹 브라우저 실행 path = "/Users/chromedriver" driver = webdriver.Chrome(path) driver.get("https://korean.visitkorea.or.kr/main/mian.html") time.sleep(2) # 창이 모두 열릴 때까지 .. 2022. 2. 16.
[Web Crawler] 셀레니움 (Selenium) (4) 자바스크립트 코드 실행 1. 스크롤 이동 # 브라우저 스크롤 최하단으로 이동 driver.execute_script('window.scrollTo(0, document.body.scrollHeight);') # CSS 셀렉터로 클릭 driver.execute_script("document.querySelector('body > div.modal-options__buttons > button.btn.btn-primary').click();") # 또는 elemToclick = driver.~~~ driver.execute_script('arguments[0].click();', elemToclick) # driver.find_element_by_css_selector(~~).click()과 동일하나 이 코.. 2022. 2. 15.
[Web Crawler] 셀레니움 (Selenium) (3) 경고창 (alert) 경고창이 떴을 때 수락 또는 거절을 눌러주거나 경고창의 텍스트를 가져올 수 있다. # 경고창으로 이동 driver.switch_to.alert from selenium.webdriver.common.alert import Alert Alert(driver).accept() # 경고창 수락 누름 Alert(driver).dismiss() # 경고창 거절 누름 print(Alert(driver).text # 경고창 텍스트 얻음 쿠키값 # 쿠키값 얻기 driver.get_cookies() # 쿠키 추가 driver.add_cookie() # 쿠키 전부 삭제 driver.delete_all_cookies() # 특정 쿠기 삭제 driver.delete_cookie(cookiename) Wa.. 2022. 2. 15.
[Web Crawler] 셀레니움 (Selenium) (2) 엘레먼트 (element) 웹브라우저에서 로그인도 하고 버튼도 클릭하고 검색창에 텍스트를 입력한다. 브라우저 상에서 보이는 버튼, 검색창, 사진, 테이블, 동영상 등등 이 모든 것들을 엘레먼트 (element, 요소) 라고 부른다. 셀레니움은 브라우저에서 특정 요소를 클릭하고 텍스트를 입력하고 사진등을 받아오고 텍스트를 가져오는 등등 어떠한 위치에 있는 무언가를 부를 때 요소라는 개념으로 접근한다. 다양한 방법으로 요소로 접근할 수 있는데 대부분 xpath 를 사용한다. river.find_element_by_xpath('/html/body/div[2]/div[2]/div[1]/div/div[3]/form/fieldset/button/span[2]') # xpath 로 접근 driver.find_elem.. 2022. 2. 15.
728x90
반응형
LIST