728x90
반응형
SMALL
텍스트 마이닝 (Text mining)
비 / 반정형 텍스트 데이터에서 자연어처리 (Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.
- 자연어 처리 : 파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출한다. - 언어모델링 : 언어 감지, 규칙기반 개체명과 상용어를 인식한다. - ML 알고리즘 : 반복훈련을 통해 습득한 정보 사용능력을 개선한다. - 마이닝 기술 : 각종 통계적 기법을 활용한 정보 분류 및 분석 기술이다. |
문서 수집 (Crawling)
- html Parsing - BeautifulSoup 패키지 - 형태소 모듈 테스트 |
형태소 분석 (Konlpy)
1) 형태소 분석 개요 : 문서(document) > 문단(paragraph) > 문장(sentence) > 어절 > 형태소 > 음절
* 형태소 : 의미를 가진 가장 작은 말의 단위이다. 더 나누면 뜻을 잃어버린다.
2) 형태소 모듈 테스트
pip install konlpy # konlpy 패키지 설치
import jpype
path = jpype.getDefaultJVMPath()
print(path)
--> C:\Program Files\Java\jdk1.8.0_151\jre\bin\server\jvm.dll
# 경로가 출력되면 연결 성공
시각화 (Word Cloud)
pip install pygame
pip install pytagcloud
pip install simplejson
728x90
반응형
LIST
'Learning-driven Methodology > ML (Machine Learning)' 카테고리의 다른 글
10. 신경망 (Neural Network) (0) | 2021.12.15 |
---|---|
09. 주성분 분석 (PCA)과 밀도기반 군집분석 (DBSCAN) (0) | 2021.12.15 |
07. SVM (Support Vector Machine) (0) | 2021.12.15 |
06. 나이브 베이즈 (Naive Bayes) (0) | 2021.12.15 |
06. KNN (K-Nearest Neighbor) (0) | 2021.12.08 |