728x90 반응형 SMALL 위스콘신 유방암 데이터3 [XGBoost] 위스콘신 유방암 데이터 (3) wpbc 데이터셋 특징은 유방 종괴의 미세 바늘 흡인물 (FNA)의 디지털화된 이미지에서 계산된다. 이것은 이미지에 존재하는 세포 핵의 특성을 설명한다. (https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29) import pandas as pd df = pd.read_csv('wpbc_data.csv', header=None) df.head() # Outcome 값 변경 df.loc[df[1]=='N',1] = 0 df.loc[df[1]=='R',1] = 1 df[1] = df[1].astype('int32') df.describe() # 결측치 제거 및 Outcome 비율 확인 for key in df.keys.. 2022. 10. 4. [XGBoost] 위스콘신 유방암 데이터 (2) wdbc 데이터셋 특징은 유방 종괴의 미세 바늘 흡인물 (FNA)의 디지털화된 이미지에서 계산된다. 이것은 이미지에 존재하는 세포 핵의 특성을 설명한다. (https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29) import pandas as pd df = pd.read_csv('wdbc_data.csv', header=None) df.head() # Outcome 값 변경 df.loc[df[1]=='B', 1] = 0 df.loc[df[1]=='M', 1] = 1 df[1] = df[1].astype('int32') df.describe() df.isnull().sum() 데이터 전처리 features = df[d.. 2022. 10. 4. [Machine Learning] LightGBM LightGBM LightGBM은 GBM 계열의 트리 분할 방법과 다르게 리프 중심 트리 분할 방식을 사용한다. 기존의 대부분 트리 기반 알고리즘은 트리의 깊이를 효과적으로 줄이기 위한 균형 트리 분할 방식을 사용한다. 리프 중심 트리 분할은 트리의 균형을 맞추지 않고, 최대 손실 값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가 깊어지고 비대칭적인 규칙 트리가 생성 된다. 예측 오류 손실을 최소화 할 수 있다. LightGBM의 특징 더 빠른 학습과 예측 수행 시간 더 작은 메모리 사용 카테고리형 피처의 자동 변환과 최적 분할 대용량 데이터에 대한 뛰어난 예측 성능 및 병렬 컴퓨팅 기능을 제공 최근에는 GPU까지 지원 XGBoost보다 학습에 걸리는 시간이 훨씬 적으며, 메모리 사용량도 상대.. 2022. 10. 4. 이전 1 다음 728x90 반응형 LIST