본문 바로가기
728x90
반응형
SMALL

Learning-driven Methodology108

16. 유전자 알고리즘 (Genetic Algorithm) 유전자 알고리즘 (Genetic Algorithm) 문제에 대한 해를 표현하는 염색체가 집단을 이루어 해집단을 구성하고 유전 알고리즘의 진행 과정속에서 부모 세대와 자식 세대의 역할을 반복적으로 하게 된다. 유전 알고리즘은 생물이 살아가면서 교차, 돌연변이, 도태 등으로 환경에 적합하도록 진화한다는 가설에 기반을 둔 최적화 기법이다. 시간 축 상에서 여러 번 계산을 반복해 단계 수를 쌓아서 궁극적으로 구하고 싶은 결과에 수렴한다. 진화 연산의 과정에서 교차와 돌연변이 등 진화론 아이디어를 도입한 계산 방식이다. 진화 연산 1. 집단성 : 개체 다수를 집단으로 설정해 동시에 탐색할 때는 병렬 연산한다. 2. 가능성 : 탐색 공간( 설명 변수와 목적 변수 등이 취할 수 있는 값의 범위)의 자세한 사전 지식을.. 2021. 12. 22.
15. TF-IDF (Term Frequency-Inverse Document Frequency) TF-IDF (Term Frequency-Inverse Document Frequency) 2021. 12. 22.
14. 소셜 네트워크 분석 (Social Network Analysis) 소셜 네트워크 분석 (Social Network Analysis) 2021. 12. 22.
13. 랜덤 포레스트 (Random Forest) / 에이다부스트 (AdaBoost) 부스팅 (Boosting) 여러 개의 분류기가 순차적으로 학습 수행, 다음 분류기에게는 가중치 (weight)를 부여하면서 학습, 예측 진행한다. 예측 성능이 뛰어나 앙상블 학습을 주도한다. 학습 라운드를 차례로 진행하면서 각 예측이 틀린 데이터에 점점 가중치를 주는 방식이다. 라운드별로 잘못 분류된 데이터를 좀 더 잘 분류하는 모델로 만들어 최종 적으로 모델들의 앙상블을 만드는 방식으로 배깅 알고리즘이 처음 성능을 측정하기 위한 기준 (baseline) 알고리즘으로 많이 사용 된다면, 부스팅 알고리즘은 높은 성능을 내야 하는 상황에서 가장 좋은 선택지이다. 첫 번째 라운드 결과 모델에서 어떤 점은 오차가 큰 부분이다. 두 번째 라운드에서 오답으로 분류된 어떤 점에 가중치를 줘 학습한다. 다시 오류가 큰.. 2021. 12. 22.
12. 토픽 모델링 (Topic Modeling) 토픽 모델링 (Topic Modeling) 토픽 (Topic)은 한국어로는 주제라고 한다. 토픽 모델링 (Topic Modeling)이란 기계 학습 및 자연어 처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법이다. 2021. 12. 22.
11. 워드투벡터 (Word2Vec) 워드투벡터 (Word2Vec) 원-핫 벡터는 단어 벡터 간 유의미한 유사도를 계산할 수 없다는 단점이 있다. 그래서 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 할 수 있는 방법이 필요하다. 이를 위해서 사용되는 대표적인 방법이 워드투벡터 (Word2Vec)이다. 희소 표현 (Sparse Representation) 원-핫 인코딩을 통해서 얻은 원-핫 벡터는 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이다. 이와 같이 벡터 또는 행렬의 값이 대부분이 0으로 표현되는 방법을 희소 표현 (sparse representation)이라고 한다. 하지만 이러한 표현 방법은 각 단어 벡터간 유의미한 유사성을 표현할 수 없다는 단점이.. 2021. 12. 22.
[Deep Learning] Train / Validation / Test set Train / Validation / Test set ML 모델링을 하고자 할 때 데이터 set을 나누어 사용한다. 일반적으로 train : validation : test = 60 : 20 : 20 의 비율을 사용한다. 훈련 데이터 (train set) train set은 모델을 학습하는데 사용된다. train set으로 모델을 만든 뒤 동일한 데이터로 성능을 평가해보기도 하지만, 이는 cheating이 되기 때문에 유효한 평가는 아니다. train set은 test set이 아닌 나머지 데이터 set을 의미하기도 하며, train set 내에서 또 다시 쪼갠 validation set이 아닌 나머지 데이터 set을 의미하기도 한다. 따라서 test set과 구분하기 위해 사용되는지, validatio.. 2021. 12. 22.
[Deep Learning] 경사 하강법 (Gradient Descent) / 배치 사이즈 (Batch Size) / 에포크 (Epoch) 경사 하강법 (Gradient Descent) 반복 (iterative, 곡선의 최소값) 최상의 결과를 찾기 위해 기계 학습에 사용되는 최적화 알고리즘이다. 알고리즘은 iterative이므로 최적의 결과를 얻으려면 여러 번 결과를 얻어야 한다. gradient descent의 반복적인 quality은 과소 적합 (under-fitted) 그래프가 그래프를 데이터에 최적으로 맞추는 데 도움이 된다. gradient descent에는 학습률 (learning rate)이라는 매개변수 (parameter)가 있다. 왼쪽 그림에서 처음에는 단계가 더 크다는 것은 learning rate이 더 높다는 것을 의미하고, 포인트가 내려갈수록 단계의 크기가 짧을수록 learning rate은 더 작아진다. 또한, 비용 .. 2021. 12. 22.
10. 신경망 (Neural Network) 신경망 (Neural Network) 기계학습과 인지과학에서 생물학의 신경망 (동물의 중추신경계중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 신경세포를 흉내 내며 어느 정도 이하의 자극은 무시된다. 퍼셉트론 (Perceptron) 퍼셉트론 (perceptron)은 인공신경망의 한 종류로서, 1957년에 코넬 항공 연구소(Cornell Aeronautical Lab)의 프랑크 로젠블라트 (Frank Rosenblatt)에 의해 고안되었다. 다층 퍼셉트론 (Multilayer Perceptron) 다층 퍼셉트론은 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망이다. 네트워크는 입력층, 은닉층, 출력층 방향으로 연결되어 있고, 각 층내의 연결과 출력층에서 입력층으로 직접적 연결이 없다.. 2021. 12. 15.
09. 주성분 분석 (PCA)과 밀도기반 군집분석 (DBSCAN) 주성분 분석 (PCA)과 밀도기반 군집분석 (DBSCAN) 2021. 12. 15.
728x90
반응형
LIST