본문 바로가기
Learning-driven Methodology/ML (Machine Learning)

08. 텍스트 마이닝 (Text mining)

by goatlab 2021. 12. 15.
728x90
반응형
SMALL

텍스트 마이닝 (Text mining)

 

 

비 / 반정형 텍스트 데이터에서 자연어처리 (Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다.

 

- 자연어 처리 : 파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출한다.

- 언어모델링 : 언어 감지, 규칙기반 개체명과 상용어를 인식한다.

- ML 알고리즘 : 반복훈련을 통해 습득한 정보 사용능력을 개선한다.

- 마이닝 기술 : 각종 통계적 기법을 활용한 정보 분류 및 분석 기술이다.

 

문서 수집 (Crawling)

 

  - html Parsing

  - BeautifulSoup 패키지

  - 형태소 모듈 테스트

 

형태소 분석 (Konlpy)

 

1) 형태소 분석 개요 : 문서(document) > 문단(paragraph) > 문장(sentence) > 어절 > 형태소 > 음절

* 형태소 : 의미를 가진 가장 작은 말의 단위이다. 더 나누면 뜻을 잃어버린다.

 

2) 형태소 모듈 테스트

 

pip install konlpy # konlpy 패키지 설치

import jpype

path = jpype.getDefaultJVMPath()
print(path)
--> C:\Program Files\Java\jdk1.8.0_151\jre\bin\server\jvm.dll
# 경로가 출력되면 연결 성공

 

시각화 (Word Cloud)

 

pip install pygame
pip install pytagcloud
pip install simplejson

 

728x90
반응형
LIST