본문 바로가기
728x90
반응형
SMALL

lightgbm6

[Machine Learning] Histogram-Based Gradient Boosting Ensembles Gradient Boosting Ensembles 부스팅은 트리 모델을 순차적으로 앙상블에 추가하는 앙상블 학습 알고리즘의 클래스를 말한다. 앙상블에 추가된 각 트리 모델은 앙상블에 이미 존재하는 트리 모델에 의해 발생한 예측 오류를 수정하려고 시도한다. 그레이디언트 부스팅은 AdaBoost와 같은 부스팅 알고리즘을 통계 프레임워크로 일반화하는 것으로, 훈련 과정을 가법 모델로 처리하고 임의 손실 함수를 사용할 수 있게 하여 기술의 능력을 크게 향상시킨다. 이와 같이 그레이디언트 부스팅 앙상블은 대부분의 구조화된 (ex: 표 형식 데이터) 예측 모델링 작업에 사용되는 기술이다. 그레이디언트 부스팅이 실제로 매우 잘 수행되지만 모델의 교육 속도가 느릴 수 있다. 이는 여러 CPU 코어를 활용하여 앙상블 멤.. 2023. 7. 7.
[LightGBM] 매개변수 조정 (Parameters Tuning) (3) For Better Accuracy 큰 max_bin 사용 (더 느릴 수 있음) num_iterations가 많은 작은 learning_rate 사용 큰 num_leaves 사용 (과적합의 원인이 될 수 있음) 더 큰 교육 데이터 사용 dart를 시도 Deal with Over-fitting 작은 max_bin 사용 작은 num_leaves 사용 min_data_in_leaf 및 min_sum_hessian_in_leaf 사용 bagging_fract 및 bagging_freq를 설정하여 bagging 사용 feature_fraction을 설정하여 피쳐 하위 샘플링 사용 더 큰 학습 데이터 사용 정규화를 위해 lambda_l1, lambda_l2 및 min_gain_to_split을 사용 깊은 트리가 자.. 2023. 7. 3.
[Machine Learning] LightGBM LightGBM LightGBM은 GBM 계열의 트리 분할 방법과 다르게 리프 중심 트리 분할 방식을 사용한다. 기존의 대부분 트리 기반 알고리즘은 트리의 깊이를 효과적으로 줄이기 위한 균형 트리 분할 방식을 사용한다. 리프 중심 트리 분할은 트리의 균형을 맞추지 않고, 최대 손실 값을 가지는 리프 노드를 지속적으로 분할하면서 트리의 깊이가 깊어지고 비대칭적인 규칙 트리가 생성 된다. 예측 오류 손실을 최소화 할 수 있다. LightGBM의 특징 더 빠른 학습과 예측 수행 시간 더 작은 메모리 사용 카테고리형 피처의 자동 변환과 최적 분할 대용량 데이터에 대한 뛰어난 예측 성능 및 병렬 컴퓨팅 기능을 제공 최근에는 GPU까지 지원 XGBoost보다 학습에 걸리는 시간이 훨씬 적으며, 메모리 사용량도 상대.. 2022. 10. 4.
[LightGBM] 매개변수 조정 (Parameters Tuning) (2) Grow Less Trees 모델에 트리 노드를 추가하는 데 필요한 시간을 줄여 학습 시간을 더욱 줄일 수 있다. 아래는 훈련 속도를 높이지만 훈련 정확도를 떨어뜨릴 수 있다. Decrease num_iterations 매개변수 num_iterations는 수행할 부스팅 라운드 수를 제어한다. LightGBM은 의사결정 트리를 학습자로 사용하기 때문에 "트리의 수"로 생각할 수도 있다. num_iterations을 변경하려고 하면 learning_rate도 바꾼다. learning_rate는 훈련 시간에는 영향을 미치지 않지만 훈련 정확도에는 영향을 미친다. 일반적으로 num_iterations를 줄이면 learning_rate을 늘려야 한다. num_iterations와 learning_rate의 올바.. 2022. 7. 4.
[LightGBM] 매개변수 조정 (Parameters Tuning) (1) 리프 방식 (최상 우선) 트리 매개변수 조정 LightGBM은 잎별 트리 성장 알고리즘을 사용하는 반면 다른 많은 인기 도구는 깊이별 트리 성장을 사용한다. 깊이별 성장과 비교할 때 잎별 알고리즘은 훨씬 빠르게 수렴할 수 있다. 그러나 적절한 매개변수와 함께 사용하지 않으면 잎사귀 성장이 과적합될 수 있다. 리프 방식 트리를 사용하여 좋은 결과를 얻으려면 다음과 같은 몇 가지 중요한 매개변수가 있다. num_leaves : 이는 트리 모델의 복잡성을 제어하는 ​​주요 매개변수이다. 이론적으로 깊이별 트리와 동일한 수의 잎을 얻도록 num_leaves = 2^(max_depth)을 설정할 수 있다. 그러나 이 간단한 변환은 실제로 좋지 않다. 그 이유는 고정된 수의 잎에 대해 leaf-wise tree가 .. 2022. 6. 28.
LightGBM LightGBM LightGBM은 트리 기반 학습 알고리즘을 사용하는 그래디언트 부스팅 프레임워크이다. 다음과 같은 이점이 있는 분산 및 효율적으로 설계되었다. 더 빠른 훈련 속도와 더 높은 효율성 메모리 사용량을 줄임 더 나은 정확도 병렬, 분산 및 GPU 학습 지원 대규모 데이터를 처리할 수 있음 https://lightgbm.readthedocs.io/en/latest/index.html Welcome to LightGBM’s documentation! — LightGBM 3.3.2.99 documentation © Copyright 2022, Microsoft Corporation. Revision df14e607. lightgbm.readthedocs.io 2022. 6. 28.
728x90
반응형
LIST