본문 바로가기
728x90
반응형
SMALL

App Programming/Web Crawler30

[Web Crawler] 셀레니움 (Selenium) (1) 셀레니움 (Selenium) python으로 크롤링할 때 Beautifulsoup4와 더불어 빼놓을 수 없는 훌륭한 라이브러리이다. pip install selenium # python 환경 conda install selenium # conda 환경 Import import selenium from selenium import webdriver from selenium.webdriver import ActionChains from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support import expected_conditions as EC fr.. 2022. 2. 15.
[Web Crawler] BeautifulSoup으로 다양한 데이터 추출하기 BeautifulSoup HTML 문서를 탐색해서 원하는 부분만 쉽게 뽑아낼 수 있는 python 라이브러리인 BeautifulSoup이 존재한다. # BeautifulSoup 설치 pip install beautifulsoup4 import requests from bs4 import BeautifulSoup url = 'https://kin.naver.com/search/list.nhn?query=%ED%8C%8C%EC%9D%B4%EC%8D%AC' response = requests.get(url) if response.status_code == 200: html = response.text soup = BeautifulSoup(html, 'html.parser') print(soup) else : .. 2022. 2. 14.
[Web Crawler] HTML 기본태그 (6) HTML Table HTML에서 테이블을 만들기 위해서는 tag를 사용한다. 이름 전화번호 홍길동 010-1234-5678 이순신 010-2323-5674 : HTML에서 테이블을 정의하는 tag이다 : 테이블에서 전체 헤더 항목을 감싼다. : 테이블에서 전체 데이터 항목을 감싼다. : 테이블에서 하나의 행 (row)을 뜻한다. : 하나의 헤더를 입력한다. : 하나의 데이터를 입력한다. 이름 전화번호 홍길동 010-1234-5678 이순신 010-2323-5674 : 이름 금액 홍길동 10만원 이순신 20만원 sum : 30만원 2. 행 합치기 : rowspan 속성을 이용하면 행을 합칠 수 있다. Content 이름 홍길동 이순신 지역 대구광역시 인천광역시 HTML Table Caption Tag는 테.. 2022. 2. 14.
[Web Crawler] HTML 기본태그 (5) HTML List 웹 페이지에서 항목이나 데이터를 순차적으로 나열하는 것을 List라고 한다. list는 크게 3가지의 종류가 있다. 순서가 없는 리스트 (unordered list), 순서가 있는 리스트 (ordered list), 정의 리스트 (definition list) 순서가 없는 리스트 (unordered list) 항목들을 나열할 때 순서가 없으며 검은색 점으로 항목들을 표시한다. 항목 1 항목 2 항목 3 : unordered list의 약자이며, 순서없는 리스트를 정의한다. : 싸여진 각 항목은 tag를 사용하여 항목을 표시한다. HTML5 CSS5 Java script CSS3을 이용하면 검은색 점을 바꿀 수 있다. style="list-style-type"을 이용한다. disc : 디.. 2022. 2. 14.
[Web Crawler] HTML 기본태그 (4) HTML Image (이미지) 웹 페이지에는 텍스트, 링크 뿐만 아니라 많은 이미지들이 존재한다. HTML에서 이미지를 삽입하려면 tag를 사용해야 한다. tage는 image의 약어이며, END TAG가 없는 empty tag이다. src : source의 약자로, 이미지가 있는 URL주소를 입력합니다. alt : alternative의 약자로, URL주소가 틀리거나 어떠한 에러로 인하여 이미지가 사용자에게 보여지지 않을때 대체로 보여줄 텍스트를 입력합니다. # 가져오고 싶은 이미지가 있으면 이미지를 오른쪽 마우스 클릭후 이미지 주소복사를 누른후 src에 붙여넣기 한다. 결과화면의 왼쪽은 웹 페이지에 정상적으로 이미지가 삽입된 상황이고, 오른쪽은 절대경로가 잘못되어 웹 페이지에 이미지가 삽입되지 못하고.. 2022. 2. 10.
[Web Crawler] HTML 기본태그 (3) HTML Quotation / Comment Tag는 quote의 약자이며, 짧은 문장을 인용할 때 쓰이는 태그이며 브라우저에서는 큰 따옴표로 표시된다. Tag는 긴 문장을 인용할 때 쓰이는 태그이며 브라우저에서는 들여쓰기로 표시된다. 전구를 발명한 에디슨은 이렇게 말했다. 모든사람은 다이아몬드 원석과 같다 갈고 닦으면 누구나 찬란히 빛나게 마련이다 긴 인용문은 브라우저에서 들여쓰기로 보여진다 HTML또는 하이퍼텍스트 마크업 언어(HyperText Markup Language, 문화어: 초본문표식달기언어, 하 이퍼본문표식달기언어)는 웹 페이지를 위한 지배적인 마크업 언어다. HTML은 제목, 단락, 목록 등 과 같은 본문을 위한 구조적 의미를 나타내는 것뿐만 아니라 링크, 인용과 그 밖의 항목으로 구조적.. 2022. 2. 10.
[Web Crawler] HTML 기본태그 (2) HTML Text Formatting Tag는 Bold의 약자로, 텍스트 굵게 출력, Tag는 텍스트를 굵게 출력하면서 의미적으로 중요함을 나타내는 태그이다. 와 비슷하게 텍스트가 굵게 표시되지만 의미적으로 더 중요함을 나타낸다. Tag는 italic의 약자로, 텍스트를 이탤릭체로 출력하는 태그이다. 텍스트를 이탤릭체로 표시합니다. Tag는 emphasize의 약자로, 텍스트를 이탤릭체로 출력하면서 의미적으로 중요함을 나타내는 태그이다. 와 비슷하게 텍스트가 이탤릭체로 표시되지만 의미적으로 더 중요함을 나타낸다. Tag는 텍스트를 작게 출력하는 태그이다. 텍스트의 크기가 작아지게 하는 tag Tag는 super subscript의 약자로, 윗 첨자 넣을 때 사용하는 태그, Tag는 subscript.. 2022. 2. 9.
[Web Crawler] HTML 기본태그 (1) HTML 기본태그 위의 표에서 tag처럼 간혹 몇개의 태그들은 CONTENT를 가지지 않는다. 이를 empty tag라고 한다. 또한, 이러한 empty tag는 END TAG를 가지지 않고 START TAG만 표기해준다. 중첩 TAG 중첩이란 겹치거나 포개어짐을 뜻한다. 제목입니다. 문단입니다 tag는 heading 1 heading 2 heading 3 heading 4 heading 5 heading 6 Heading의 중요도에 따라 크기와 굵기가 다른것을 볼 수 있다. HTML Paragraphs paragraph, 즉 문단의 약자로, 하나의 문단을 만들 때 쓰인다. 문단은 항상 새로운 줄에서 시작하며, 블록형태로 모양을 가진다. ~ 를 기준으로 앞뒤로 여분의 공백을 가진다. First Parag.. 2022. 2. 8.
[Web Crawler] HTML 기본 동작 원리 HTML5 HTML5는 "Hyper Text Markup Language" 5의 약자로 HTML 4.01, XHTML 1.1 등을 대체하는 차세대 웹표준으로 확정되었다. 기존의 HTML의 경우, 텍스트와 하이퍼링크만 표시하였지만, HTML5는 오디오, 비디오, 그래픽 처리 등의 다양한 기능을 제공하여 웹 자체에서 처리할 수 있는 기능이 향상되었다. 기본 구조 HTML 5 구조를 공부합시다. : HTML5를 사용함을 브라우저에 선언하는 역할을 합니다. : 전체 html 문서를 감싸는 태그입니다. 하나만 존재해야 하고 html 바깥에 DOCTYPE을 제외한 다른 태그가 있으면 안 됩니다. : html 문서에 대한 정보를 나타내는 부분입니다. 하나만 존재해야하고, html 바로 아래에 있어야합니다. : hea.. 2022. 2. 8.
웹 크롤러 (Web Crawler) 웹 크롤러 (Web Crawler) 웹 크롤러 (web crawler)는 조직적, 자동화된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램이다. 웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다. 웹 크롤러는 봇.. 2022. 2. 6.
728x90
반응형
LIST