본문 바로가기
App Programming/Web Crawler

[Web Crawler] 아마존 닷컴 베스트셀러 상품 정보 수집용 웹 크롤러 만들기

by goatlab 2022. 3. 3.
728x90
반응형
SMALL

아마존 닷컴 베스트셀러 상품 정보 수집용 웹 크롤러 만들기

 

from bs4 import BeautifulSoup
from selenium import webdriver
import time
import sys
import re
import math
import numpy
import pandas as pd
import xlwt
import random
import os
import urllib.request
import urllib

# 사용자에게 카테고리 메뉴를 안내하고 정보를 입력 받기
query_txt = '아마존닷컴'
query_url = 'https://www.amazon.com/bestsellers?Id=NSGoolge'

sec = input('''
	1.Amazon Devices & Accessories	2.Amazon Launchpad			3.Appliances
    4.Apps & Games					5.Arts, Crafts & Sewing		6.Automotive
    7.Baby							8.Beauty & Personal Care	9.Books
    10.CDs & Vinyl					11.Camera & Photo			12.Cell Phones & Accessories
    13.Clothing, Shoes & Jewelry	14.Collectible Coins		15.Computers & Accessories
    16.Digital Music				17.Electronics				18.Entertainment Collectibles
    19.Gift Cards					20.Grocery & Gourmet Food	21.Handmade Products
    22.Health & Household			23.Home & Kitchen			24.Industrial & Scientific
    25.Kindle Store					26.Kitchen & Dining			27.Magazing Subscriptions
    28.Movies & TV					29.Musical Instruments		30.Office Products
    31.Patio, Lawn & Garden			32.Pet Supplies				33.Prime Pantry
    34.Smart Home					35.Software					36.Sports & Outdoors
    40.Video Games
    
    위 분야 중에서 자료를 수집할 분야의 번호를 선택 : ''')
    
cnt = int(input('해당 분야에서 크롤링할 건 수 (1 - 100건 사이 입력): '))
f_dir = input("파일을 저장할 폴더명 (ex. c:\\temp\\): ")
print("\n")

if sec == '1':
	sec_name = 'Amazon Devices and Accessories'
elif sec == '2':


if cnt > 30:
	print("요청 건 수가 많으니 대기")
else:
	print("요청 데이터를 수집중")
728x90
반응형
LIST