본문 바로가기
728x90
반응형
SMALL

Learning-driven Methodology/ML (Machine Learning)67

[XGBoost] 의사결정 트리 앙상블 (Decision Tree Ensembles) 의사결정 트리 앙상블 (Decision Tree Ensembles) 트리 앙상블 모델은 분류 및 회귀 트리 (CART) 세트로 구성된다. 다음은 누군가가 가상의 컴퓨터 게임 X를 좋아할지 여부를 분류하는 CART의 간단한 예이다. 가족 구성원을 다른 잎 (leaf)으로 분류하고 해당 잎에 점수를 할당한다. CART는 잎이 결정 값만 포함하는 결정 트리와 약간 다르다. CART에서 실제 점수는 각 리프와 연결되어 분류를 넘어 더 풍부한 해석을 제공한다. 이것은 또한 최적화에 대한 원칙적이고 통합된 접근 방식을 허용한다. 일반적으로 단일 트리는 실제로 사용하기에 충분히 강하지 않다. 실제로 사용되는 것은 여러 트리의 예측을 합산하는 앙상블 모델이다. 다음은 두 나무의 트리 앙상블의 예이다. 각 개별 트리의 .. 2022. 5. 6.
[XGBoost] Boosted Trees 부스트 트리 (Boosted Trees) XGBoost는 "Extreme Gradient Boosting"의 약자로, "그라디언트 부스팅"이라는 용어는 Friedman의 논문 Greedy Function Approximation: A Gradient Boosting Machine에서 유래했다. 지도 학습의 요소 (Elements of Supervised Learning) XGBoost는 학습 데이터 (여러 기능 포함)를 사용하는 지도 학습 문제에 사용된다. xi는 목표 변수 yi를 예측하기 위함이다. 모델 및 매개변수 (Model and Parameters) 지도 학습의 모델은 일반적으로 예측의 수학적 구조를 나타낸다. 가중 입력 특성의 선형 조합. 예측 값은 작업, 즉 회귀 또는 분류에 따라 다르게 해.. 2022. 5. 6.
XGBoost XGBoost XGBoost는 매우 효율적이고 유연하며 이식가능 하도록 설계된 최적화된 분산 그라디언트 부스팅 라이브러리이다. Gradient Boosting 프레임워크 에서 기계 학습 알고리즘을 구현한다. XGBoost는 빠르고 정확한 방법으로 많은 데이터 과학 문제를 해결하는 병렬 트리 부스팅 (GBDT, GBM이라고도 함)을 제공한다. 동일한 코드가 주요 분산 환경 (Hadoop, SGE, MPI)에서 실행되며 수십억 개의 예제를 넘어선 문제를 해결할 수 있다. https://xgboost.readthedocs.io/en/stable/index.html XGBoost Documentation — xgboost 1.6.0 documentation © Copyright 2021, xgboost deve.. 2022. 5. 3.
[Machine Learning] SHAP (SHapley Additive exPlanations) SHAP (SHapley Additive exPlanations) SHAP(SHapley Additive exPlanations)는 모든 기계 학습 모델의 출력을 설명하기 위한 게임 이론적인 접근 방식이다. 게임 이론 및 관련 확장의 고전적인 Shapley 값을 사용하여 최적의 학점 할당을 지역 설명과 연결한다. pip install shap conda install -c conda-forge shap https://shap.readthedocs.io/en/latest/index.html Welcome to the SHAP documentation — SHAP latest documentation © Copyright 2018, Scott Lundberg. Revision 904b72c3. shap.re.. 2022. 5. 3.
[Machine Learning] MNIST MNIST (Modified National Institute of Standards and Technology database) TensorFlow 샘플에 보면 mnist dataset이 많이 등장한다. MNIST는 인공지능 연구의 권위자 LeCun교수가 만든 dataset이고 현재 딥러닝을 공부할 때 반드시 거쳐야할 Hello, World같은 존재이다. MNIST는 60,000개의 train set과 10,000개의 test set으로 이루어져 있고 이 중 train set을 학습 data로 사용하고 test set을 신경망을 검증하는 데에 사용한다. MNIST는 간단한 컴퓨터 비전 dataset로, 아래와 같이 손으로 쓰여진 이미지들로 구성되어 있다. 숫자는 0에서 1까지의 값을 갖는 고정 크기 이.. 2022. 4. 28.
[Machine Learning] 분류 (Classification) 분류 (Classification) supervised ML의 문제의 타입 (problem type)에 따라 크게 두가지로 분류될 수 있다. Regression (회귀 분석) : 주어진 데이터가 어떤 함수로부터 생성됐는가를 알아보는 ‘함수 관계’를 추측하는 것이다. 예측하는 결과값이 continuous value (연속값) Classification (분류) : 분류는 말 그대로 입력이 어떤 카테고리에 해당하는지 나누는 것이다. 즉 예 아니오 와 같은 예측하는 결과값이 discrete value (이산값) Classification은 주어진 데이터를 정해진 카테고리에 따라 분류하는 문제를 말한다. 최근에 많이 사용되는 이미지 분류도 Classification 중에 하나이다. 예를 들어, 이메일이 스팸메일.. 2022. 4. 28.
[Machine Learning] 경사하강법 (Gradient Descent) 경사하강법 (Gradient Descent) 경사 하강법 (Gradient descent)은 1차 근삿값 발견용 최적화 알고리즘이다. 기본 아이디어는 함수의 기울기 (경사)를 구하여 기울기가 낮은 쪽으로 계속 이동시켜서 극값에 이를 때까지 반복시키는 것이다. 예를 들어, 회사 직원들의 근무 만족도를 1~100점 점수로 평가한 데이터가 있다고 가정하고 그것을 이차원 그래프상에 표시한다. 위의 데이터를 보면 "급여가 올라감에 따라 직원 만족도가 높아지는 경향이 있다"와 같은 패턴이 있다는 것을 알 수 있지만 모든 것이 일직선 상에 잘 맞지는 않다. 이러한 현상은 현실 세계에서 실제 데이터가 있는 경우 항상 발생한다. 그렇다면 급여에 따른 직원의 만족도를 완벽하게 예측할 수 있는 AI를 어떻게 학습 시킬 수 .. 2022. 4. 28.
20. 모델 평가 방법 2021. 12. 22.
19. 시계열분석 (Time Series Analysis) 시계열분석 (Time Series Analysis) 2021. 12. 22.
18. 로지스틱 회귀분석 (Logistic Regression Analysis) 로지스틱 회귀분석 (Logistic Regression Analysis) 2021. 12. 22.
728x90
반응형
LIST