본문 바로가기
728x90
반응형
SMALL

분류 전체보기1626

[XGBoost] 위스콘신 유방암 데이터 (1) 위스콘신 유방암 데이터 사이킷런에서는 UCI ML 유방암 위스콘신 (진단) 데이터 세트를 제공한다. 또한, 사본도 다운로드 가능하다. 라이브러리 설치 conda install -c conda-forge xgboost conda install -c conda-forge imbalanced-learn breast-cancer-wisconsin 데이터셋 로드 import pandas as pd df = pd.read_csv('breast-cancer-wisconsin.data.csv', names=['id','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell.. 2022. 10. 4.
[Machine Learning] 앙상블 (Ensemble) 앙상블 (Ensemble) 여러 개의 알고리즘들이 이용하여 하나의 값을 예측하는 기법을 통칭하며, 대중적인 데이터 분석 알고리즘이다. 선형 회귀나 로지스틱 회귀는 가장 대중적인 알고리즘이고, 그 다음이 의사결정 트리와 앙상블 계열 알고리즘이다. 최근 머신/딥러닝 분야에서 딥러닝 다음으로 부스팅 (boosting) 알고리즘이 핵심적으로 사용된다. 메타 분류기 (meta-classifier)라고도 부른다. 메타 (meta)는 일종의 상위 또는 추상화라는 개념이다. 여러 분류기들을 모아 하나의 분류기를 만들어 이를 메타 분류기라고 부른다. 시간이 많이 소요되지만 비교적 좋은 성능을 낸다. 하나의 데이터를 넣고 이를 여러 모델에 학습시킨다. 테스트 데이터를 각 모델에 입력하고 투표 또는 여러 가중치 기법을 적용.. 2022. 10. 4.
[Machine Learning] LightGBM LightGBM LightGBM은 GBM 계열의 트리 분할 방법과 다르게 리프 중심 트리 분할 방식을 사용한다. 기존의 대부분 트리 기반 알고리즘은 트리의 깊이를 효과적으로 줄이기 위한 균형 트리 분할 방식을 사용한다. 리프 중심 트리 분할은 트리의 균형을 맞추지 않고, 최대 손실 값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가 깊어지고 비대칭적인 규칙 트리가 생성 된다. 예측 오류 손실을 최소화 할 수 있다. LightGBM의 특징 더 빠른 학습과 예측 수행 시간 더 작은 메모리 사용 카테고리형 피처의 자동 변환과 최적 분할 대용량 데이터에 대한 뛰어난 예측 성능 및 병렬 컴퓨팅 기능을 제공 최근에는 GPU까지 지원 XGBoost보다 학습에 걸리는 시간이 훨씬 적으며, 메모리 사용량도 상대.. 2022. 10. 4.
하둡 (Hadoop) 하둡 (Hadoop)  하둡은 비정형 데이터를 포함한 빅데이터를 다루기 위한 가장 적절한 플랫폼이다. 데이터 증가로 하둡을 적용하는 회사들은 급증하고 있다. 하둡 에코시스템은 Governance, Finance, Banking, Insurance, Heathcare 등 사회 전반에 걸친 모든 요소들과 밀접하게 연관되어 사용되고 있다. 라이브러리 설치 Ubuntu에서 apt-get을 이용해 필요한 라이브러리를 설치한다. # 설치 가능한 리스트 업데이트$ sudo apt-get -y update# 업데이트한 패키지들을 최신 버전에 맞게 업그레이드$ sudo apt-get -y upgrade# 의존성까지 체크해서 업그레이드$ sudo apt-get -y dist-upgrade# 필요 라이브러리 설치$ sudo.. 2022. 10. 4.
[Machine Learning] SVM 회귀 SVM 회귀 SVM을 회귀에 적용하는 방법은 제한된 마진 오류 (도로 밖 샘플) 안에서 도로 안에 가능한 많은 샘플이 들어가도록 학습한다. 도로 폭은 하이퍼파라미터 ϵ로 조절한다. 마진 안에서 훈련 샘플이 추가되어도 모델의 예측에는 영향이 없게 되면, ϵ에 민감하지 않다고 한다. from sklearn.svm import LinearSVR svm_reg = LinearSVR(epsilon=1.5) svm_reg.fit(X, y) LinearSVR(C=1.0, dual=True, epsilon=1.5, fit_intercept=True, intercept_scaling=1.0, loss='epsilon_insensitive', max_iter=1000, random_state=None, tol=0.0001.. 2022. 9. 30.
[Machine Learning] 비선형 SVM 분류 비선형 SVM 분류 데이터가 선형적으로 분류가 안되는 경우에 사용한다. 그림을 보면, 빨강색과 파란색 직선 둘 다 완벽한 분류기가 되지 않았다. 이와 같이 실생활에서는 선형적으로 분류할 수 없는 데이터가 많다. 따라서, 데이터를 분류하기 쉽게 (선형적으로 분류 가능하도록) 만드는 작업을 진행해야 한다. 간단한 방법인 X1과 X1의 제곱 값을 X2에 대입한다. 빨강색 선과 같이 분명하게 나누어 진다. 이와 같이 Scikitlearn에서는 PolynomialFeatures 방식을 제공한다. example 초승달 모양의 2개의 클러스터 생성 선형적으로 분류 불가능 데이터를 선형적인 분류가 되게끔 변형이 필요함 import numpy as np from sklearn import datasets from skl.. 2022. 9. 30.
[Data Science] 문서의 행렬 표현 (DTM and TF-IDF) CountVectorizer를 이용한 토큰화 import sklearn print(sklearn.__version__) from sklearn.feature_extraction.text import CountVectorizer vector = CountVectorizer() text = ['Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text.'] vector.fit_transform(text).toarray() array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 4,.. 2022. 9. 29.
[Data Science] Text Preprocessing 텍스트 전처리를 위한 라이브러리 설치 ! pip install nltk import nltk from nltk.tokenize import word_tokenize # 문장 구조가 학습된 일종의 모형 nltk.download('punkt') text = "Text mining, also referred to as text data mining, similar to text analytics, is the process of deriving high-quality information from text. It involves 'the discovery by computer of new, previously unknown information, by automatically extracting informa.. 2022. 9. 29.
[Data Science] Text Data (2) 한국어 텍스트 데이터의 특성 영어 텍스트의 경우, 띄어 쓰기를 기준으로 토큰화하면 단어가 비교적 깔끔하게 분리되어 나오기 때문에 전처리의 결과가 대부분 좋다. 그러나 한국어 텍스트의 경우, 띄어 쓰기로 구분되는 “어절”이 반드시 “단어”와 일치하지가 않는다. 이는 “교착어”로써의 특성 때문으로, 한국어는 영어와 달리 조사가 존재하고, 이러한 조사가 띄어 쓰기 없이 붙어 있게 되어 이를 전부 분리해 주는 전처리 과정이 필요하다. 즉, 한국어 전처리와 토큰화의 핵심은 조사를 잘 분리하여 토큰화하는 것으로, 이를 위해서는 형태소 (morpheme), 특히 자립 형태소를 잘 추출할 수 있어야한다. 또 하나의 어려운 점은 한국어의 경우 영어에 비해 띄어 쓰기가 잘 지켜지지 않는 경향이 존재한다. 이는 한국어의 경.. 2022. 9. 29.
[Data Science] Text Data (1) Text Data 텍스트 데이터는 일반적으로 단어, 문장 또는 자유 흐름 텍스트의 단락을 나타낼 수 있는 문서로 구성된다. 텍스트 데이터의 고유한 비정형화 (정연하게 포맷된 데이터 열이 없음)와 노이즈가 많은 특성으로 인해 머신러닝 방법이 원시 텍스트 데이터에 직접 작용하는 것이 더 어렵다. 비정형 데이터의 텍스트 데이터 속 정보를 합리적이고 효율적으로 축약하여 숫자, 즉 정형 데이터로 변환하는 것이 하나의 목적이다. Text Mining 텍스트 분석과 유사한 텍스트 데이터 마이닝이라고도 하는 텍스트 마이닝은 텍스트에서 고품질 정보를 추출하는 프로세스이다. 여기에는 "다른 문서 자원에서 정보를 자동으로 추출하여 이전에 알려지지 않은 새로운 정보를 컴퓨터가 발견하는 것"이 ​​포함된다. 어떤 방식으로 텍스.. 2022. 9. 29.
728x90
반응형
LIST