본문 바로가기

728x90

SMALL

Learning-driven Methodology112

20. 모델 평가 방법 2021. 12. 22.

19. 시계열분석 (Time Series Analysis) 시계열분석 (Time Series Analysis) 2021. 12. 22.

18. 로지스틱 회귀분석 (Logistic Regression Analysis) 로지스틱 회귀분석 (Logistic Regression Analysis) 2021. 12. 22.

17. 연관규칙분석 (Association Rule Analysis) 연관규칙분석 (Association Rule Analysis) 2021. 12. 22.

16. 유전자 알고리즘 (Genetic Algorithm) 유전자 알고리즘 (Genetic Algorithm) 문제에 대한 해를 표현하는 염색체가 집단을 이루어 해집단을 구성하고 유전 알고리즘의 진행 과정속에서 부모 세대와 자식 세대의 역할을 반복적으로 하게 된다. 유전 알고리즘은 생물이 살아가면서 교차, 돌연변이, 도태 등으로 환경에 적합하도록 진화한다는 가설에 기반을 둔 최적화 기법이다. 시간 축 상에서 여러 번 계산을 반복해 단계 수를 쌓아서 궁극적으로 구하고 싶은 결과에 수렴한다. 진화 연산의 과정에서 교차와 돌연변이 등 진화론 아이디어를 도입한 계산 방식이다. 진화 연산 1. 집단성 : 개체 다수를 집단으로 설정해 동시에 탐색할 때는 병렬 연산한다. 2. 가능성 : 탐색 공간( 설명 변수와 목적 변수 등이 취할 수 있는 값의 범위)의 자세한 사전 지식을.. 2021. 12. 22.

15. TF-IDF (Term Frequency-Inverse Document Frequency) TF-IDF (Term Frequency-Inverse Document Frequency) 2021. 12. 22.

14. 소셜 네트워크 분석 (Social Network Analysis) 소셜 네트워크 분석 (Social Network Analysis) 2021. 12. 22.

13. 랜덤 포레스트 (Random Forest) / 에이다부스트 (AdaBoost) 부스팅 (Boosting) 여러 개의 분류기가 순차적으로 학습 수행, 다음 분류기에게는 가중치 (weight)를 부여하면서 학습, 예측 진행한다. 예측 성능이 뛰어나 앙상블 학습을 주도한다. 학습 라운드를 차례로 진행하면서 각 예측이 틀린 데이터에 점점 가중치를 주는 방식이다. 라운드별로 잘못 분류된 데이터를 좀 더 잘 분류하는 모델로 만들어 최종 적으로 모델들의 앙상블을 만드는 방식으로 배깅 알고리즘이 처음 성능을 측정하기 위한 기준 (baseline) 알고리즘으로 많이 사용 된다면, 부스팅 알고리즘은 높은 성능을 내야 하는 상황에서 가장 좋은 선택지이다. 첫 번째 라운드 결과 모델에서 어떤 점은 오차가 큰 부분이다. 두 번째 라운드에서 오답으로 분류된 어떤 점에 가중치를 줘 학습한다. 다시 오류가 큰.. 2021. 12. 22.

12. 토픽 모델링 (Topic Modeling) 토픽 모델링 (Topic Modeling) 토픽 (Topic)은 한국어로는 주제라고 한다. 토픽 모델링 (Topic Modeling)이란 기계 학습 및 자연어 처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법이다. 2021. 12. 22.

11. 워드투벡터 (Word2Vec) 워드투벡터 (Word2Vec) 원-핫 벡터는 단어 벡터 간 유의미한 유사도를 계산할 수 없다는 단점이 있다. 그래서 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 할 수 있는 방법이 필요하다. 이를 위해서 사용되는 대표적인 방법이 워드투벡터 (Word2Vec)이다. 희소 표현 (Sparse Representation) 원-핫 인코딩을 통해서 얻은 원-핫 벡터는 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이다. 이와 같이 벡터 또는 행렬의 값이 대부분이 0으로 표현되는 방법을 희소 표현 (sparse representation)이라고 한다. 하지만 이러한 표현 방법은 각 단어 벡터간 유의미한 유사성을 표현할 수 없다는 단점이.. 2021. 12. 22.

이전 1 ··· 7 8 9 10 11 12 다음

728x90

LIST

티스토리툴바