본문 바로가기
728x90
반응형
SMALL

비정형 데이터3

TabNet TabNet TabNet은 tabular 데이터의 훈련에 맞게 설계됐으며 Tree 기반 모델에서 변수의 선택 특징을 네트워크 구조에 반영한 테이블 형식 데이터 학습 아키텍처 모델이다. TabNet은 순차적인 attention을 사용하여 각 결정 단계에서 추론할 기능을 선택하고, 학습 용량이 가장 두드러진 기능에 사용되므로 해석 가능성과 보다 효율적인 학습을 가능하게 한다. 예제 pip install pytorch_tabnet from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.metrics import accuracy_score from pytorch_ta.. 2024. 4. 21.
자연어 처리 (NLP) 자연어 처리 (NLP) 자연어 처리 (⾃然語處理) 또는 자연 언어 처리 (⾃然⾔語處理)는 인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사할 수 있도록 연구하고 이를 구현하는 인공지능의 주요 분야 중 하나다. 정보 검색, QA 시스템, 문서 자동 분류, 신문 기사 클러스터링, 대화형 Agent 등 다양한 응용이 이루어지고 있다. 전통적인 프로그래밍 언어 자연어 처리 기계 (혹은 컴퓨터)를 실행하기 위해서 기계가 이해할 수 있는 프로그래밍 언어로 명령을 내리고 그 결과를 사용자에게 전달 인간의 언어 (자연 언어)로 명령을 내리면 기계가 자연어 처리 (NLP)를통해 이해하여 처리하고그 결과를 사용자에게 전달 비정형 데이터 인터넷과 모바일의 발달로 온라인 매체에 대한 데이터가 급격하게 증가 전 세계에서 .. 2023. 1. 5.
[Data Science] 빅 데이터 (Big Data) 빅 데이터 (Big Data) 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. Volume 빅 데이터의 크기는 일반적으로 테라바이트 및 페타바이트보다 크다. Velocity 성장과 발전의 길에 놓여 있는 요구와 과제를 충족하기 위해 데이터가 생성되고 처리되는 속도이다. 빅데이터는 종종 실시간으로 이용할 수 있다. Variety 구조화에서 반구조화 또는 비구조화로의 유형 및 성격의 변화는 기존 도구와 기술에 도전장을 던졌다. 비정형 데이터 (Unstructured Data) 정형 데이터 (Structured data) 비정형 데이터 (Unstructured Da.. 2022. 9. 28.
728x90
반응형
LIST