본문 바로가기
728x90
반응형
SMALL

Python Library/Scikit-Learn3

[Scikit-Learn] HistGradientBoostingClassifier sklearn.ensemble.HistGradientBoostingClassifier 이 추정기는 큰 데이터 세트(n_samples >= 10,000)에서 GradientBoostingClassifier보다 훨씬 빠르다. 이 추정기는 누락된 값 (NaN)을 기본적으로 지원한다. 훈련하는 동안 나무 재배자는 누락된 값이 있는 샘플이 잠재적 이득에 따라 왼쪽 또는 오른쪽 자식으로 이동해야 하는지 여부를 각 분할 지점에서 학습한다. 예측할 때 누락된 값이 있는 샘플은 결과적으로 왼쪽 또는 오른쪽 자식에 할당된다. 교육 중에 지정된 기능에 대해 누락된 값이 없으면 누락된 값이 있는 샘플은 가장 많은 샘플이 있는 하위 항목에 매핑된다. 결측치 처리 import numpy as np import pandas as .. 2023. 7. 5.
[Scikit-Learn] train_test_split 모듈을 활용하여 학습과 테스트 세트 분리 train_test_split 모듈 scikit-learn의 model_selection 패키지 안에 train_test_split 모듈을 활용하여 손쉽게 학습 데이터 셋 (train set)과 테스트 셋 (test set)을 분리할 수 있다. train / test 은 train / validation 으로 볼 수 있다. ML 모델에 train 데이터를 100% 학습시킨 후 test 데이터에 모델을 적용했을 때 성능이 잘 안 나오는 경우가 있다. 이것을 보통 과적합 (overfitting)되었다라고 한다. 즉, 모델이 가진 학습 데이터에 overfitting되도록 학습하면 이를 조금이라도 벗어난 케이스에 대해서는 예측율이 현저히 떨어진다. 그렇기 때문에 overfitting을 방지하는 것은 전체적인 모.. 2021. 12. 20.
사이킷런 (Scikit-Learn) 사이킷런 (Scikit-Learn) scikit-learn이란 python을 대표하는 머신 러닝 라이브러리이다. scikit-learn은 오픈 소스로 공개되어 있으며, 개인, 비즈니스 관계없이 누구나 무료로 사용가능하다. scikit-learn은 현재도 활용하여 개발이 이루어지고 있으며, 인터넷에서 정보를 찾기 쉽다. 샘플 데이터 셋이 부속되어 있으므로, 설치하여 바로 기계 학습을 시험해 볼 수 있다. 설치 pip install -U scikit-learn Classification 개체가 속한 범주 식별한다. Regression (회귀) 개체와 연결된 연속 값 속성을 예측한다. Clustering (군집화) 유사한 개체를 세트로 자동 그룹화한다. Dimensionality Reduction (차원 축소.. 2021. 12. 20.
728x90
반응형
LIST