본문 바로가기
728x90
반응형
SMALL

분류 전체보기1626

[Web Crawler] 네이버 블로그 / 뉴스 크롤링 네이버 블로그 크롤링 # 블로그 본문 크롤링 import time from selenium import webdriver from bs4 import BeautifulSoup from selenium.common.exceptions import NoSuchElementException,StaleElementReferenceException driverPath = 'chromedriver.exe' driver = webdriver.Chrome(os.path.abspath(driverPath)) driver.implicitly_wait(3) # 크롤링 결과를 data frame으로 저장 import pandas as pd titles.pop(4) df = pd.DataFrame({'제목':titles,'링크.. 2022. 9. 29.
[Data Science] 회귀 모델 단순 선형 회귀 분석 입력 변수인 X의 정보를 활용하여 출력 변수인 Y를 예측하는 방법이다. 회귀 분석 중 간단한 방법으로 통계학에서 배우는 대부분의 회귀 모델은 선형 회귀, 딥러닝은 대표적인 비선형 회귀이다. 종속 변수 : 독립 변수의 변화에 따라 어떻게 변하는지 알고싶어하는 변수 독립 변수 : 다른 변수의 영향을 받지 않는 변수 회귀 모델은 독립 변수에 따라 종류가 달라진다. 단순 선형 회귀 : 독립 변수가 1개인 경우 다중 선형 회귀 : 독립 변수가 2개 이상인 경우 다항 회귀 : 독립 변수의 차수를 높이는 형태 입력 변수가 X, 출력 변수가 Y일 때, 단순 선형 회귀의 회귀식은 검은 선으로 나타낼 수 있다. 𝛽0는 절편, 𝛽1은 기울기이며 합쳐서 회귀 계수 (coefficients)라고도 불린다... 2022. 9. 29.
정보 의학 (Biomedical Informatics) 정보 의학 (Biomedical Informatics) 의료 정보학 (醫療情報學, health informatics, health information systems, health care informatics, healthcare informatics, medical informatics, nursing informatics, clinical informatics, biomedical informatics) 또는 정보 의학 (情報 醫學)으로 불린다. 데이터를 사용하여 임상의, 연구원 및 과학자가 인간의 건강을 개선하고 의료를 제공하는 데 도움이 되는 건강 정보학의 한 분야이다. 정보 의학은 자연과학의 원리, 특히 생물학과 생화학의 원리를 의학과 보건의료에 적용하는 생물의학의 발전과 함께 성장해 온 진화.. 2022. 9. 28.
[Web Crawler] 네이버 클라우드 플랫폼 네이버 클라우드 플랫폼 네이버 오픈API 서비스는 24시간 365일 무중단으로 운영되고 있다. 오픈API 오류에 신속하게 대응하기 위해 매 10분 단위로 자동으로 모니터링하고 있다. (https://developers.naver.com/main/) ▪ Open API : 누구나 사용할 수 있도록 공개된 API ▪ API (Application Programming Interface) : 데이터를 요청하여 주고 받기 위한 방식 또는 규격 Open API Key [Products] → [서비스 API] → [데이터랩] → [Open API 신청] → [Application 등록] → [내 에플리케이션] → Client ID 및 Client secret 확인한다. example code # scrapy 설치 .. 2022. 9. 28.
[Data Science] 빅 데이터 (Big Data) 빅 데이터 (Big Data) 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. Volume 빅 데이터의 크기는 일반적으로 테라바이트 및 페타바이트보다 크다. Velocity 성장과 발전의 길에 놓여 있는 요구와 과제를 충족하기 위해 데이터가 생성되고 처리되는 속도이다. 빅데이터는 종종 실시간으로 이용할 수 있다. Variety 구조화에서 반구조화 또는 비구조화로의 유형 및 성격의 변화는 기존 도구와 기술에 도전장을 던졌다. 비정형 데이터 (Unstructured Data) 정형 데이터 (Structured data) 비정형 데이터 (Unstructured Da.. 2022. 9. 28.
[Data Science] 의사결정 트리 (Decision Tree) (3) 트리 가지치기 (Tree Pruning) 의사결정 트리의 마지막 노드의 개수를 지정하여 트리의 깊이를 조정하는 방법이다. 클래스의 마지막 노드인 잎 노드 (leaf node)의 개수를 개발자가 직접 결정한다. 1개로 이루어진 잎 노드가 많을 경우 과대적합되어 있는 상태에서 잎 노드의 개수와 관계 없이 해당 가지에 불확실성이 너무 높을 경우 의사결정 트리의 성능에 문제를 줄 수 있다. 사전 가지치기 (pre-pruning) 처음 트리를 만들 때 트리의 깊이나 마지막 노드의 최소 개수 등을 사전에 결정하여 입력한다. 데이터 분석가가 하이퍼 파라미터로 모든 값을 입력해야 하는 점이 어려움이 있다. 계산 효율이 좋고 작은 데이터셋에서도 쉽게 작동한다. 사용자가 중요한 속성 값을 놓치거나 과소적합 문제 발생할 수.. 2022. 9. 27.
[Data Science] 의사결정 트리 (Decision Tree) (2) 정보 이득 (Information Gain) 엔트로피를 사용하여 속성별 분류 시 데이터가 얼마나 순수한지 (impurity)를 측정하는 지표를 말한다. 속성별 엔트로피 속성 A로 데이터를 분류했을 때 속성 A가 가진 모든 클래스의 각 엔트로피를 계산한 후, 데이터의 개수만큼 가중치를 준다. 속성별 정보 이득 정보 이득이 크면 클수록 A를 기준으로 데이터를 분류했을 때 얻을 수 있는 정보량이 많다는 뜻이다. A를 기준으로 데이터를 나눌 때 엔트로피가 작다면 해당 속성을 기준으로 데이터를 나누기 좋다고 볼 수 있다. ID3 알고리즘 성장 (grow) : 일반적으로 의사결정 트리를 생성하는 방법을 성장이라고 부른다. 트리 (나무)를 성장시키는 개념이다. ID3 (Iterative Dichotomiser 3) .. 2022. 9. 27.
[Data Science] 의사결정 트리 (Decision Tree) (1) 의사결정 트리 (Decision Tree) 어떤 규칙을 하나의 트리 (tree) 형태로 표현한 후 이를 바탕으로 분류나 회귀 문제를 해결하는 것이다. 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 것이다. 머신러닝 알고리즘 중 가장 직관적으로 이해하기 쉬운 알고리즘이다. 머신러닝 모델 중 데이터에 대한 설명성이 존재하기에 효과와 실용성이 가장 좋다. 트리 구조의 마지막 노드에는 분류 문제에서 클래스, 회귀 문제에서는 예측치가 들어간다. 규칙은 ‘if-else’ 문으로 표현이 가능하다. 트리 구조 네모 박스 : 노드 (Node) 루트 노드 (Root node) : 트리의 가장 높은 곳에 위치하고 있는 노드 가지 (Branches) : 노드와 노드를 연결하는 화 살표 규칙.. 2022. 9. 27.
[AI] 평가 모델 (3) Mean Error MSE, MAE 및 RMSE는 회귀 분석에서 예측 오류율과 모델 성능을 평가하는 데 주로 사용된다. MAE (Mean Absolute Error) MAE (평균 절대 오차)는 데이터 세트에 대한 평균 절대 차이에 의해 추출된 원래 값과 예측 값 사이의 차이를 나타낸다. from sklearn.metrics import median_absolute_error y_true = [3, 5, 7] y_pred = [0, 4, 9] median_absolute_error(y_true, y_pred) 2.0 MSE (Mean Squared Error) MSE (평균 제곱 오차)는 데이터 집합에 대한 평균 차이를 제곱하여 추출한 원래 값과 예측 값의 차이를 나타낸다. from sklearn.met.. 2022. 9. 27.
[AI] 평가 모델 (2) Precision Precision은 올바르게 분류된 양성 예수의 수를 양성으로 분류된 예수의 총 수로 나눈 값이다. Recall Recall은 올바르게 분류된 양성 예제의 수를 검정 세트에서 실제 양성 예제의 총 수로 나눈 값이다. F1 Score 두 가지 측도를 사용하여 두 분류자를 비교하는 것은 어렵다. F1 점수는 precision과 recall을 하나의 척도로 결합한다. 두 숫자의 조화 평균은 둘 중 작은 숫자에 더 가까운 경향이 있다. F1 값이 크면 p와 r이 모두 크다. import numpy as np from sklearn.metrics import precision_score from sklearn.metrics import recall_score from sklearn.metrics.. 2022. 9. 27.
728x90
반응형
LIST