본문 바로가기
728x90
반응형
SMALL

정형 데이터3

TabNet TabNet TabNet은 tabular 데이터의 훈련에 맞게 설계됐으며 Tree 기반 모델에서 변수의 선택 특징을 네트워크 구조에 반영한 테이블 형식 데이터 학습 아키텍처 모델이다. TabNet은 순차적인 attention을 사용하여 각 결정 단계에서 추론할 기능을 선택하고, 학습 용량이 가장 두드러진 기능에 사용되므로 해석 가능성과 보다 효율적인 학습을 가능하게 한다. 예제 pip install pytorch_tabnet from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelEncoder from sklearn.metrics import accuracy_score from pytorch_ta.. 2024. 4. 21.
관계형 데이터베이스 관리 시스템 (Relational DataBase Management System) 데이터베이스 (Database) 1980년대에 컴퓨터가 보급화 되면서 처리해야 할 데이터가 늘어남에 따라 여러 회사들에서 대규모 데이터를 관리하기 위해서 통합된 환경이 필요했다. 데이터들을 표현할 수 있는 다양한 모델 (Relational Model, Network Model, Hierarchical Model 등)이 등장했다. 데이터를 체계적으로 관리할 수 있는 공간을 데이터베이스 (database)로 정의한다. 그리고 데이터베이스를 관리하는 시스템을 DataBase Management System (DBMS)으로 정의한다. 데이터베이스의 이점 데이터베이스라는 개념이 나타나기 이전엔, File 단위로 데이터를 관리 (ex: 윈도우 탐색기, macOS Finder) 데이터를 효율적으로 관리하기 힘든 여러.. 2024. 4. 16.
[Data Science] 빅 데이터 (Big Data) 빅 데이터 (Big Data) 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. Volume 빅 데이터의 크기는 일반적으로 테라바이트 및 페타바이트보다 크다. Velocity 성장과 발전의 길에 놓여 있는 요구와 과제를 충족하기 위해 데이터가 생성되고 처리되는 속도이다. 빅데이터는 종종 실시간으로 이용할 수 있다. Variety 구조화에서 반구조화 또는 비구조화로의 유형 및 성격의 변화는 기존 도구와 기술에 도전장을 던졌다. 비정형 데이터 (Unstructured Data) 정형 데이터 (Structured data) 비정형 데이터 (Unstructured Da.. 2022. 9. 28.
728x90
반응형
LIST