본문 바로가기
728x90
반응형
SMALL

Learning-driven Methodology112

[Deep Learning] Train / Validation / Test set Train / Validation / Test set ML 모델링을 하고자 할 때 데이터 set을 나누어 사용한다. 일반적으로 train : validation : test = 60 : 20 : 20 의 비율을 사용한다. 훈련 데이터 (train set) train set은 모델을 학습하는데 사용된다. train set으로 모델을 만든 뒤 동일한 데이터로 성능을 평가해보기도 하지만, 이는 cheating이 되기 때문에 유효한 평가는 아니다. train set은 test set이 아닌 나머지 데이터 set을 의미하기도 하며, train set 내에서 또 다시 쪼갠 validation set이 아닌 나머지 데이터 set을 의미하기도 한다. 따라서 test set과 구분하기 위해 사용되는지, validatio.. 2021. 12. 22.
[Deep Learning] 경사 하강법 (Gradient Descent) / 배치 사이즈 (Batch Size) / 에포크 (Epoch) 경사 하강법 (Gradient Descent) 반복 (iterative, 곡선의 최소값) 최상의 결과를 찾기 위해 기계 학습에 사용되는 최적화 알고리즘이다. 알고리즘은 iterative이므로 최적의 결과를 얻으려면 여러 번 결과를 얻어야 한다. gradient descent의 반복적인 quality은 과소 적합 (under-fitted) 그래프가 그래프를 데이터에 최적으로 맞추는 데 도움이 된다. gradient descent에는 학습률 (learning rate)이라는 매개변수 (parameter)가 있다. 왼쪽 그림에서 처음에는 단계가 더 크다는 것은 learning rate이 더 높다는 것을 의미하고, 포인트가 내려갈수록 단계의 크기가 짧을수록 learning rate은 더 작아진다. 또한, 비용 .. 2021. 12. 22.
10. 신경망 (Neural Network) 신경망 (Neural Network) 기계학습과 인지과학에서 생물학의 신경망 (동물의 중추신경계중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 신경세포를 흉내 내며 어느 정도 이하의 자극은 무시된다. 퍼셉트론 (Perceptron) 퍼셉트론 (perceptron)은 인공신경망의 한 종류로서, 1957년에 코넬 항공 연구소(Cornell Aeronautical Lab)의 프랑크 로젠블라트 (Frank Rosenblatt)에 의해 고안되었다. 다층 퍼셉트론 (Multilayer Perceptron) 다층 퍼셉트론은 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망이다. 네트워크는 입력층, 은닉층, 출력층 방향으로 연결되어 있고, 각 층내의 연결과 출력층에서 입력층으로 직접적 연결이 없다.. 2021. 12. 15.
09. 주성분 분석 (PCA)과 밀도기반 군집분석 (DBSCAN) 주성분 분석 (PCA)과 밀도기반 군집분석 (DBSCAN) 2021. 12. 15.
08. 텍스트 마이닝 (Text mining) 텍스트 마이닝 (Text mining) 비 / 반정형 텍스트 데이터에서 자연어처리 (Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. - 자연어 처리 : 파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출한다. - 언어모델링 : 언어 감지, 규칙기반 개체명과 상용어를 인식한다. - ML 알고리즘 : 반복훈련을 통해 습득한 정보 사용능력을 개선한다. - 마이닝 기술 : 각종 통계적 기법을 활용한 정보 분류 및 분석 기술이다. 문서 수집 (Crawling) - html Parsing - BeautifulSoup 패키지 - 형태소 모듈 테스트 형태소 분석 (Konlpy) 1) 형태소 분석 개요 : 문서(document) > 문.. 2021. 12. 15.
07. SVM (Support Vector Machine) SVM (Support Vector Machine) 선형이나 비선형 분류, 회귀, 이상치 탐색 등에 사용할 수 있는 다목적 머신러닝 모델이다. 2개의 그룹을 분류하는 가장 일반화된 경계선을 찾기 위한 수학 이론에 의해 발전된 알고리즘이다. 예를 들어, 국경선 결정 문제, 양 국가의 불만을 최소화할 수 있는 최대 거리로 설정한다. 그리고 복잡한 패턴의 문제를 해결하기 위해 주로 사용한다. 중소형 크기의 데이터셋에 적합하다. SVM은 클래스 사이에 가장 폭이 넓은 도로를 찾는 것과 같다. 이에 SVM를 large margin classification 이라고도 한다. 분류 결정 경계는 도로 경계에 위치한 샘플에 전적으로 결정된다. 이러한 샘플을 support vector라고 한다 (동그라미 데이터). SVM.. 2021. 12. 15.
06. 나이브 베이즈 (Naive Bayes) 나이브 베이즈 (Naive Bayes) 나이브 베이즈는 분류기를 만들 수 있는 간단한 기술로써 단일 알고리즘을 통한 훈련이 아닌 일반적인 원칙에 근거한 여러 알고리즘들을 이용하여 훈련된다. 모든 나이브 베이즈 분류기는 공통적으로 모든 특성 값은 서로 독립임을 가정한다. 예를 들어, 특정 과일을 사과로 분류 가능하게 하는 특성들 (둥글다, 빨갛다, 지름 10cm)은 나이브 베이즈 분류기에서 특성들 사이에서 발생할 수 있는 연관성이 없음을 가정하고 각각의 특성들이 특정 과일이 사과일 확률에 독립적으로 기여 하는 것으로 간주한다. 나이브 베이즈의 장점은 다음과 같다. 첫째, 일부의 확률 모델에서 나이브 베이즈 분류는 지도 학습 (Supervised Learning) 환경에서 매우 효율적으로 훈련 될 수 있다... 2021. 12. 15.
06. KNN (K-Nearest Neighbor) KNN (K-Nearest Neighbor) 특장점 간단한 구조, 이해 용이, 구현 용이, 데이터 예측 모든 계산이 이루어진 이후 분류 수행 : 훈련 데이터에 target값 존재 (지도학습) 속성값 ex) 색상 파랑 1개 레벨값 ex) 빨강, 파랑 2개 —> class 2개 어떤 것에서 이웃 K개를 선택 —> 이웃 속성 분석? 거리무시 —> weighted KNN(거리감안) Y = I(v) I: 0거짓 1참, v: 클래스, 가장 많은 라벨? KNN Classifier : 범주형 데이터 예측 KNN Regressor : 연속형 변수 예측 가능 데이터 정규화 데이터 속성들을 하나의 scale로 통일 z정규화가 많이 쓰임 단점 : 패턴이나 Feature을 추출하지 못함 2021. 12. 8.
04. 군집 분석 (Clustering) 군집 분석 (Clustering) 주어진 데이터 집합을 유사한 데이터들의 그룹으로 나누는 것을 군집화 (clustering)라 하고 이렇게 나누어진 유사한 데이터의 그룹을 군집 (cluster)이라 한다. 군집화는 예측 문제와 달리 특정한 독립변수와 종속변수의 구분도 없고 학습을 위한 목푯값도 필요로 하지 않는 비지도학습의 일종이다. 군집화 방법 군집화 방법에는 목적과 방법에 따라 다양한 모형이 존재한다. K-평균 군집화 (K-means Clustering) 디비스캔 군집화 (DBSCAN Clustering) 유사도 전파 군집화 (Affinity Propagation Clustering) 계층적 군집화 (Hierarchical Clustering) 스펙트럴 군집화 (Spectral Clustering) .. 2021. 12. 8.
03. 회귀분석 (Regression Analysis) 회귀분석 (Regression Analysis) 회귀분석 : 연속적 데이터? 오차 함수 = 비용 함수 데이터를 잘 적합시킴 == 오차 함수를 최소로 만드는 그래프를 구하는 것 ==> 최소제곱추정(직선형이 거의 회귀모델로 설명) 회귀모형 종류 단순회귀 : 독립변수 1개, 선형 or 비선형 다중회귀 : 독립변수 2개이상, 선형 or 비선형 회귀모델 평가방법 결정계수(R-squared) : 모형이 얼마나 데이터를 잘 설명 ; 70~90%이상이어야 F값과 P-value : 신뢰도를 통계적으로 평가 F값이 클수록 p-value 0.05 or 0.01보다 작아야 안정 T값 : 계수 신뢰도를 평가하는 수치 2021. 12. 8.
728x90
반응형
LIST