본문 바로가기

728x90

SMALL

크롤러4

[MLops] TMDB API 데이터 수집 및 전처리 TMDB API https://developer.themoviedb.org/reference/intro/getting-started에 회원가입 후 아래와 같이 개발자용 API 토큰을 발급받는다. opt 디렉토리로 이동하여 실습 디렉토리를 생성한다. 그 다음, 러스트 언어로 개발된 uv 패키지 관리자를 설치하여 네트워크 통신 등 코드 동작 속도를 빠르게 해준다. pip install uv 사용법은 pip 앞에 uv를 붙여준다. uv pip install requests pandas numpy matplotlib python-dotenv Vim 설정 vi ~/.vimrcsyntax onset expandtabset autoindentset ts=4set shiftwidth=4set nuset curso.. 2024. 8. 9.

[Selenium] AttributeError: 'WebDriver' object has no attribute 'find_element_by_' 셀레니움이 업데이트되면서 find_element_by_와 같은 문법을 사용할 수 없다. 따라서, 아래 모듈을 가져와야 한다. from selenium.webdriver.common.by import By 변경된 문법 By.ID 태그의 id값으로 추출 By.NAME 태그의 name값으로 추출 By.XPATH 태그의 경로로 추출 By.LINK_TEXT 링크 텍스트값으로 추출 By.PARTIAL_LINK_TEXT 링크 텍스트의 자식 텍스트 값을 추출 By.TAG_NAME 태그 이름으로 추출 By.CLASS_NAME 태그의 클래스명으로 추출 By.CSS_SELECTOR css 선택자로 추출 2023. 5. 31.

[Web Crawler] YouTube Data API YouTube Data API YouTube Data API는 유튜브의 기본적인 리소스 (채널, 재생목록, 동영상 등)의 기본적인 기능 (등록, 수정, 삭제 등)을 제공한다. 유튜브 API 생성하기 Google API Console에 접속하여 유튜브 API 키를 발급 받는다. import requests import json # 유튜브 데이터 API 키 api_key = "YOUR_API_KEY" # 비디오 ID video_id = "VIDEO_ID" # 요청 URL url = f"https://www.googleapis.com/youtube/v3/commentThreads?key={api_key}&textFormat=plainText&part=snippet&videoId={video_id}&maxRes.. 2023. 3. 21.

[Web Crawler] 네이버 블로그 / 뉴스 크롤링 네이버 블로그 크롤링 # 블로그 본문 크롤링 import time from selenium import webdriver from bs4 import BeautifulSoup from selenium.common.exceptions import NoSuchElementException,StaleElementReferenceException driverPath = 'chromedriver.exe' driver = webdriver.Chrome(os.path.abspath(driverPath)) driver.implicitly_wait(3) # 크롤링 결과를 data frame으로 저장 import pandas as pd titles.pop(4) df = pd.DataFrame({'제목':titles,'링크.. 2022. 9. 29.

이전 1 다음

728x90

LIST

티스토리툴바