본문 바로가기
728x90
반응형
SMALL

Learning-driven Methodology/ML (Machine Learning)67

17. 연관규칙분석 (Association Rule Analysis) 연관규칙분석 (Association Rule Analysis) 2021. 12. 22.
16. 유전자 알고리즘 (Genetic Algorithm) 유전자 알고리즘 (Genetic Algorithm) 문제에 대한 해를 표현하는 염색체가 집단을 이루어 해집단을 구성하고 유전 알고리즘의 진행 과정속에서 부모 세대와 자식 세대의 역할을 반복적으로 하게 된다. 유전 알고리즘은 생물이 살아가면서 교차, 돌연변이, 도태 등으로 환경에 적합하도록 진화한다는 가설에 기반을 둔 최적화 기법이다. 시간 축 상에서 여러 번 계산을 반복해 단계 수를 쌓아서 궁극적으로 구하고 싶은 결과에 수렴한다. 진화 연산의 과정에서 교차와 돌연변이 등 진화론 아이디어를 도입한 계산 방식이다. 진화 연산 1. 집단성 : 개체 다수를 집단으로 설정해 동시에 탐색할 때는 병렬 연산한다. 2. 가능성 : 탐색 공간( 설명 변수와 목적 변수 등이 취할 수 있는 값의 범위)의 자세한 사전 지식을.. 2021. 12. 22.
15. TF-IDF (Term Frequency-Inverse Document Frequency) TF-IDF (Term Frequency-Inverse Document Frequency) 2021. 12. 22.
14. 소셜 네트워크 분석 (Social Network Analysis) 소셜 네트워크 분석 (Social Network Analysis) 2021. 12. 22.
13. 랜덤 포레스트 (Random Forest) / 에이다부스트 (AdaBoost) 부스팅 (Boosting) 여러 개의 분류기가 순차적으로 학습 수행, 다음 분류기에게는 가중치 (weight)를 부여하면서 학습, 예측 진행한다. 예측 성능이 뛰어나 앙상블 학습을 주도한다. 학습 라운드를 차례로 진행하면서 각 예측이 틀린 데이터에 점점 가중치를 주는 방식이다. 라운드별로 잘못 분류된 데이터를 좀 더 잘 분류하는 모델로 만들어 최종 적으로 모델들의 앙상블을 만드는 방식으로 배깅 알고리즘이 처음 성능을 측정하기 위한 기준 (baseline) 알고리즘으로 많이 사용 된다면, 부스팅 알고리즘은 높은 성능을 내야 하는 상황에서 가장 좋은 선택지이다. 첫 번째 라운드 결과 모델에서 어떤 점은 오차가 큰 부분이다. 두 번째 라운드에서 오답으로 분류된 어떤 점에 가중치를 줘 학습한다. 다시 오류가 큰.. 2021. 12. 22.
12. 토픽 모델링 (Topic Modeling) 토픽 모델링 (Topic Modeling) 토픽 (Topic)은 한국어로는 주제라고 한다. 토픽 모델링 (Topic Modeling)이란 기계 학습 및 자연어 처리 분야에서 토픽이라는 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법이다. 2021. 12. 22.
11. 워드투벡터 (Word2Vec) 워드투벡터 (Word2Vec) 원-핫 벡터는 단어 벡터 간 유의미한 유사도를 계산할 수 없다는 단점이 있다. 그래서 단어 벡터 간 유의미한 유사도를 반영할 수 있도록 단어의 의미를 수치화 할 수 있는 방법이 필요하다. 이를 위해서 사용되는 대표적인 방법이 워드투벡터 (Word2Vec)이다. 희소 표현 (Sparse Representation) 원-핫 인코딩을 통해서 얻은 원-핫 벡터는 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법이다. 이와 같이 벡터 또는 행렬의 값이 대부분이 0으로 표현되는 방법을 희소 표현 (sparse representation)이라고 한다. 하지만 이러한 표현 방법은 각 단어 벡터간 유의미한 유사성을 표현할 수 없다는 단점이.. 2021. 12. 22.
10. 신경망 (Neural Network) 신경망 (Neural Network) 기계학습과 인지과학에서 생물학의 신경망 (동물의 중추신경계중 특히 뇌)에서 영감을 얻은 통계학적 학습 알고리즘이다. 신경세포를 흉내 내며 어느 정도 이하의 자극은 무시된다. 퍼셉트론 (Perceptron) 퍼셉트론 (perceptron)은 인공신경망의 한 종류로서, 1957년에 코넬 항공 연구소(Cornell Aeronautical Lab)의 프랑크 로젠블라트 (Frank Rosenblatt)에 의해 고안되었다. 다층 퍼셉트론 (Multilayer Perceptron) 다층 퍼셉트론은 입력층과 출력층 사이에 하나 이상의 중간층이 존재하는 신경망이다. 네트워크는 입력층, 은닉층, 출력층 방향으로 연결되어 있고, 각 층내의 연결과 출력층에서 입력층으로 직접적 연결이 없다.. 2021. 12. 15.
09. 주성분 분석 (PCA)과 밀도기반 군집분석 (DBSCAN) 주성분 분석 (PCA)과 밀도기반 군집분석 (DBSCAN) 2021. 12. 15.
08. 텍스트 마이닝 (Text mining) 텍스트 마이닝 (Text mining) 비 / 반정형 텍스트 데이터에서 자연어처리 (Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. - 자연어 처리 : 파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출한다. - 언어모델링 : 언어 감지, 규칙기반 개체명과 상용어를 인식한다. - ML 알고리즘 : 반복훈련을 통해 습득한 정보 사용능력을 개선한다. - 마이닝 기술 : 각종 통계적 기법을 활용한 정보 분류 및 분석 기술이다. 문서 수집 (Crawling) - html Parsing - BeautifulSoup 패키지 - 형태소 모듈 테스트 형태소 분석 (Konlpy) 1) 형태소 분석 개요 : 문서(document) > 문.. 2021. 12. 15.
728x90
반응형
LIST