본문 바로가기
728x90
반응형
SMALL

Learning-driven Methodology108

08. 텍스트 마이닝 (Text mining) 텍스트 마이닝 (Text mining) 비 / 반정형 텍스트 데이터에서 자연어처리 (Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. - 자연어 처리 : 파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출한다. - 언어모델링 : 언어 감지, 규칙기반 개체명과 상용어를 인식한다. - ML 알고리즘 : 반복훈련을 통해 습득한 정보 사용능력을 개선한다. - 마이닝 기술 : 각종 통계적 기법을 활용한 정보 분류 및 분석 기술이다. 문서 수집 (Crawling) - html Parsing - BeautifulSoup 패키지 - 형태소 모듈 테스트 형태소 분석 (Konlpy) 1) 형태소 분석 개요 : 문서(document) > 문.. 2021. 12. 15.
07. SVM (Support Vector Machine) SVM (Support Vector Machine) 선형이나 비선형 분류, 회귀, 이상치 탐색 등에 사용할 수 있는 다목적 머신러닝 모델이다. 2개의 그룹을 분류하는 가장 일반화된 경계선을 찾기 위한 수학 이론에 의해 발전된 알고리즘이다. 예를 들어, 국경선 결정 문제, 양 국가의 불만을 최소화할 수 있는 최대 거리로 설정한다. 그리고 복잡한 패턴의 문제를 해결하기 위해 주로 사용한다. 중소형 크기의 데이터셋에 적합하다. SVM은 클래스 사이에 가장 폭이 넓은 도로를 찾는 것과 같다. 이에 SVM를 large margin classification 이라고도 한다. 분류 결정 경계는 도로 경계에 위치한 샘플에 전적으로 결정된다. 이러한 샘플을 support vector라고 한다 (동그라미 데이터). SVM.. 2021. 12. 15.
06. 나이브 베이즈 (Naive Bayes) 나이브 베이즈 (Naive Bayes) 나이브 베이즈는 분류기를 만들 수 있는 간단한 기술로써 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련된다. 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정한다. 예를 들어, 특정 과일을 사과로 분류 가능하게 하는 특성들 (둥글다, 빨갛다, 지름 10cm)은 나이브 베이즈 분류기에서 특성들 사이에서 발생할 수 있는 연관성이 없음을 가정하고 각각의 특성들이 특정 과일이 사과일 확률에 독립적으로 기여 하는 것으로 간주한다. 나이브 베이즈의 장점은 다음과 같다. 첫째, 일부의 확률 모델에서 나이브 베이즈 분류는 지도 학습 (Supervised Learning) 환경에서 매우 효율적으로 훈련 될 수 있다... 2021. 12. 15.
06. KNN (K-Nearest Neighbor) KNN (K-Nearest Neighbor) 특장점 간단한 구조, 이해 용이, 구현 용이, 데이터 예측 모든 계산이 이루어진 이후 분류 수행 : 훈련 데이터에 target값 존재 (지도학습) 속성값 ex) 색상 파랑 1개 레벨값 ex) 빨강, 파랑 2개 —> class 2개 어떤 것에서 이웃 K개를 선택 —> 이웃 속성 분석? 거리무시 —> weighted KNN(거리감안) Y = I(v) I: 0거짓 1참, v: 클래스, 가장 많은 라벨? KNN Classifier : 범주형 데이터 예측 KNN Regressor : 연속형 변수 예측 가능 데이터 정규화 데이터 속성들을 하나의 scale로 통일 z정규화가 많이 쓰임 단점 : 패턴이나 Feature을 추출하지 못함 2021. 12. 8.
04. 군집 분석 (Clustering) 군집 분석 (Clustering) 주어진 데이터 집합을 유사한 데이터들의 그룹으로 나누는 것을 군집화 (clustering)라 하고 이렇게 나누어진 유사한 데이터의 그룹을 군집 (cluster)이라 한다. 군집화는 예측 문제와 달리 특정한 독립변수와 종속변수의 구분도 없고 학습을 위한 목푯값도 필요로 하지 않는 비지도학습의 일종이다. 군집화 방법 군집화 방법에는 목적과 방법에 따라 다양한 모형이 존재한다. K-평균 군집화 (K-means Clustering) 디비스캔 군집화 (DBSCAN Clustering) 유사도 전파 군집화 (Affinity Propagation Clustering) 계층적 군집화 (Hierarchical Clustering) 스펙트럴 군집화 (Spectral Clustering) .. 2021. 12. 8.
03. 회귀분석 (Regression Analysis) 회귀분석 (Regression Analysis) 회귀분석 : 연속적 데이터? 오차 함수 = 비용 함수 데이터를 잘 적합시킴 == 오차 함수를 최소로 만드는 그래프를 구하는 것 ==> 최소제곱추정(직선형이 거의 회귀모델로 설명) 회귀모형 종류 단순회귀 : 독립변수 1개, 선형 or 비선형 다중회귀 : 독립변수 2개이상, 선형 or 비선형 회귀모델 평가방법 결정계수(R-squared) : 모형이 얼마나 데이터를 잘 설명 ; 70~90%이상이어야 F값과 P-value : 신뢰도를 통계적으로 평가 F값이 클수록 p-value 0.05 or 0.01보다 작아야 안정 T값 : 계수 신뢰도를 평가하는 수치 2021. 12. 8.
02. 의사결정 트리 (Decision Tree) 의사결정 트리 (Decision Tree) 의사결정 트리 (decision tree)는 여러 가지 규칙을 순차적으로 적용하면서 독립 변수 공간을 분할하는 분류 모형이다. 분류 (classification)와 회귀 분석 (regression)에 모두 사용될 수 있기 때문에 CART (Classification And Regression Tree)라고도 한다. 의사결정 트리를 이용한 분류학습 여러가지 독립 변수 중 하나의 독립 변수를 선택하고 그 독립 변수에 대한 기준값 (threshold)을 정한다. 이를 분류 규칙이라고 한다. 최적의 분류 규칙을 찾는 방법은 이후에 자세히 설명한다. 전체 학습 데이터 집합(부모 노드)을 해당 독립 변수의 값이 기준값보다 작은 데이터 그룹(자식 노드 1)과 해당 독립 변수.. 2021. 12. 8.
01. Intro 머신러닝 : 컴퓨터가 데이터를 통해 유의미한 패턴과 통계적인 함수를 발견하여 행동의 지침이 되는 지식을 얻어내는 행위 회귀 : 입력데이터를 바탕으로 원하는 타겟변수의 미래결과 예측 분류 : 개별 데이터의 class를 예측하거나 계급 결정 (스팸 필터링, 사기방지) 추천 : 상품 혹은 그 대안 예측 대체 : 누락된 입력데이터의 값 보강 ML workflow : 실데이터를 통한 모델이 안정화될 때까지 기존 데이터 EDA : 특성 추출, 훈련 검증 테스트 분리 모델링 : 모델구축 모델평가 모델최적ㅈ화 신규 데이터로 예측 -> 피드백 방법론 지도학습 : 훈련 데이터 안에 예측해야 할 target이 있는 경우, 오브젝트 디텍션 비지도학습 : target이 없는 경우, 함수모형을 만들지 않고 데이터 패턴 추출, 데.. 2021. 12. 8.
728x90
반응형
LIST