본문 바로가기
728x90
반응형
SMALL

텍스트 마이닝2

[Data Science] Text Data (1) Text Data 텍스트 데이터는 일반적으로 단어, 문장 또는 자유 흐름 텍스트의 단락을 나타낼 수 있는 문서로 구성된다. 텍스트 데이터의 고유한 비정형화 (정연하게 포맷된 데이터 열이 없음)와 노이즈가 많은 특성으로 인해 머신러닝 방법이 원시 텍스트 데이터에 직접 작용하는 것이 더 어렵다. 비정형 데이터의 텍스트 데이터 속 정보를 합리적이고 효율적으로 축약하여 숫자, 즉 정형 데이터로 변환하는 것이 하나의 목적이다. Text Mining 텍스트 분석과 유사한 텍스트 데이터 마이닝이라고도 하는 텍스트 마이닝은 텍스트에서 고품질 정보를 추출하는 프로세스이다. 여기에는 "다른 문서 자원에서 정보를 자동으로 추출하여 이전에 알려지지 않은 새로운 정보를 컴퓨터가 발견하는 것"이 ​​포함된다. 어떤 방식으로 텍스.. 2022. 9. 29.
08. 텍스트 마이닝 (Text mining) 텍스트 마이닝 (Text mining) 비 / 반정형 텍스트 데이터에서 자연어처리 (Natural Language Processing) 기술에 기반하여 유용한 정보를 추출, 가공하는 것을 목적으로 하는 기술이다. - 자연어 처리 : 파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출한다. - 언어모델링 : 언어 감지, 규칙기반 개체명과 상용어를 인식한다. - ML 알고리즘 : 반복훈련을 통해 습득한 정보 사용능력을 개선한다. - 마이닝 기술 : 각종 통계적 기법을 활용한 정보 분류 및 분석 기술이다. 문서 수집 (Crawling) - html Parsing - BeautifulSoup 패키지 - 형태소 모듈 테스트 형태소 분석 (Konlpy) 1) 형태소 분석 개요 : 문서(document) > 문.. 2021. 12. 15.
728x90
반응형
LIST