728x90
반응형
SMALL
데이터 수집용 웹 크롤러 만들기
# 필요한 모듈과 라이브러리 로딩
from bs4 import BeautifulSoup
from selenium import webdriver
import time
import sys
import re
import math
import numpy
import pandas as pd
import xlwt
import random
import os
# 크롤링 정보 입력
print("=" *80)
print("서울시 응답소 게시판 크롤링")
print("=" *80)
query_txt = '서울시 응답소'
cnt = int(input('1. 크롤링 할 건수 입력 : '))
page_cnt = math.ceil(cnt / 10)
f_dir = input("2. 결과 파일을 저장할 폴더명(예 : /Users): ")
# 저장 파일위치와 이름 지정
now = time.localtime()
s = '%04d-$02d-%02d-%02d-%02d-%02d' % (now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec)
os.makedirs(f_dir+s+'-'+query_txt)
os.chdir(f_dir+s+'-'+query_txt)
ff_name = f_dir+s+'-'+query_txt+s+'-'+query_txt+'.txt'
fc_name = f_dir+s+'-'+query_txt+s+'-'+query_txt+'.csv'
fx_name = f_dir+s+'-'+query_txt+s+'-'+query_txt+'.xls'
# 크롬 드라이버를 사용해서 웹 브라우저 실행
s_time = time.time()
path = "/Users/chromedriver"
driver = webdriver.Chrome(path)
driver.get("https://eungdapso.seoul.go.kr/")
time.sleep(random.randrange(2, 5)) # 2 ~ 5초 사이의 랜덤 시간 선택
728x90
반응형
LIST
'App Programming > Web Crawler' 카테고리의 다른 글
[Web Crawler] 구글 이미지 다운로드용 웹 크롤러 만들기 (0) | 2022.03.03 |
---|---|
[Web Crawler] YouTube 리뷰 수집용 웹 크롤러 만들기 (0) | 2022.02.18 |
[Web Crawler] 데이터 수집용 웹 크롤러 만들기 (1) (0) | 2022.02.16 |
[Web Crawler] 특정 게시글의 상세 내용 수집하기 (0) | 2022.02.16 |
[Web Crawler] 다양한 유형의 파일로 저장하기 (csv, xls, txt) (0) | 2022.02.16 |