본문 바로가기
App Programming/Web Crawler

[Web Crawler] 데이터 수집용 웹 크롤러 만들기 (2)

by goatlab 2022. 2. 16.
728x90
반응형
SMALL

데이터 수집용 웹 크롤러 만들기

 

# 필요한 모듈과 라이브러리 로딩
from bs4 import BeautifulSoup
from selenium import webdriver
import time
import sys
import re
import math
import numpy
import pandas as pd
import xlwt
import random
import os
# 크롤링 정보 입력
print("=" *80)
print("서울시 응답소 게시판 크롤링")
print("=" *80)

query_txt = '서울시 응답소'

cnt = int(input('1. 크롤링 할 건수 입력 : '))
page_cnt = math.ceil(cnt / 10)

f_dir = input("2. 결과 파일을 저장할 폴더명(예 : /Users): ")

# 저장 파일위치와 이름 지정
now = time.localtime()
s = '%04d-$02d-%02d-%02d-%02d-%02d' % (now.tm_year, now.tm_mon, now.tm_mday, now.tm_hour, now.tm_min, now.tm_sec)

os.makedirs(f_dir+s+'-'+query_txt)
os.chdir(f_dir+s+'-'+query_txt)

ff_name = f_dir+s+'-'+query_txt+s+'-'+query_txt+'.txt'
fc_name = f_dir+s+'-'+query_txt+s+'-'+query_txt+'.csv'
fx_name = f_dir+s+'-'+query_txt+s+'-'+query_txt+'.xls'
# 크롬 드라이버를 사용해서 웹 브라우저 실행
s_time = time.time()

path = "/Users/chromedriver"
driver = webdriver.Chrome(path)

driver.get("https://eungdapso.seoul.go.kr/")
time.sleep(random.randrange(2, 5)) # 2 ~ 5초 사이의 랜덤 시간 선택

 

728x90
반응형
LIST