본문 바로가기
728x90
반응형
SMALL

Learning-driven Methodology112

[Machine Learning] 무작위 탐색 (RandomizedSearchCV) 무작위 탐색 (RandomizedSearchCV) Random Search는 Grid Search의 단점들을 조금 보완하고자 나온 방법이다. 말 그대도 파라미터의 범위를 선정하고 값을 랜덤으로 설정하여 파라미터를 조합하고 평가하는 방식이다. Grid Search와 방식 자체는 유사하나 Grid Search보다 근사 최적값을 빨리 찾을 수 있다. 또한, 격자 형식의 Grid Search와 다르게 그 사이값들도 랜덤으로 탐색할 수 있기 때문에 그 안에서 더 좋은 값을 찾을 수 있다는 장점도 있다. 즉, 몇 번 학습과 평가를 반복할 것인지 시도의 수를 직접 설정할 수 있기 때문에 비교적 시간이 적게 걸린다. RandomizedSearchCV 가 사용하는 인자들은 GridSearchCV와 거의 동일하지만, n_.. 2023. 7. 10.
[Machine Learning] 그리드 탐색 (GridSearchCV) 그리드 탐색 (GridSearchCV) 머신 러닝에서 하이퍼파라미터란 간단하게 말해 사용자의 입력값 또는 설정 가능한 입력값이라고 이해할 수 있다. 사용할 데이터에 따라 가장 적합한 모델과 모델의 하이퍼파라미터값이 다르다. sklearn의 모듈 GridSearchCV는 머신 러닝 알고리즘에 사용되는 하이퍼 파라미터를 입력해 학습하고 검증하면서 가장 좋은 파라미터를 알려준다. 따라서, 학습하려는 하이퍼파라미터와 값 범위를 지정하기만 하면 GridSearchCV는 교차 검증을 사용하여 하이퍼파라미터 값의 가능한 모든 조합을 수행한다. 매개 변수 estimator 모델 객체 지정 param_grid 하이퍼파라미터 목록을 dictionary로 전달 scoring 평가 지표 cv 교차 검증시 fold 개수 n_j.. 2023. 7. 10.
[Machine Learning] Histogram-Based Gradient Boosting Ensembles Gradient Boosting Ensembles 부스팅은 트리 모델을 순차적으로 앙상블에 추가하는 앙상블 학습 알고리즘의 클래스를 말한다. 앙상블에 추가된 각 트리 모델은 앙상블에 이미 존재하는 트리 모델에 의해 발생한 예측 오류를 수정하려고 시도한다. 그레이디언트 부스팅은 AdaBoost와 같은 부스팅 알고리즘을 통계 프레임워크로 일반화하는 것으로, 훈련 과정을 가법 모델로 처리하고 임의 손실 함수를 사용할 수 있게 하여 기술의 능력을 크게 향상시킨다. 이와 같이 그레이디언트 부스팅 앙상블은 대부분의 구조화된 (ex: 표 형식 데이터) 예측 모델링 작업에 사용되는 기술이다. 그레이디언트 부스팅이 실제로 매우 잘 수행되지만 모델의 교육 속도가 느릴 수 있다. 이는 여러 CPU 코어를 활용하여 앙상블 멤.. 2023. 7. 7.
[LightGBM] 매개변수 조정 (Parameters Tuning) (3) For Better Accuracy 큰 max_bin 사용 (더 느릴 수 있음) num_iterations가 많은 작은 learning_rate 사용 큰 num_leaves 사용 (과적합의 원인이 될 수 있음) 더 큰 교육 데이터 사용 dart를 시도 Deal with Over-fitting 작은 max_bin 사용 작은 num_leaves 사용 min_data_in_leaf 및 min_sum_hessian_in_leaf 사용 bagging_fract 및 bagging_freq를 설정하여 bagging 사용 feature_fraction을 설정하여 피쳐 하위 샘플링 사용 더 큰 학습 데이터 사용 정규화를 위해 lambda_l1, lambda_l2 및 min_gain_to_split을 사용 깊은 트리가 자.. 2023. 7. 3.
[Deep Learning] Perplexity Perplexity  정보 이론에서 Perplexity는 확률 분포 또는 확률 모델이 샘플을 얼마나 잘 예측하는지를 측정하는 것이다. 그리고 확률 모델을 비교하는 데 사용할 수 있다. Perplexity가 낮다는 것은 확률 분포가 샘플을 예측하는 데 능숙하다는 것을 나타낸다. ▪ 언어 모델에서 Perplexity은 모델의 성능을 측정하는 데 사용▪ 외재적 평가 (extirnsic evaluation) : 실제 작업으로 입력에 대한 결과를 확인하는 평가 방식 ▪ 내재적 평가 (intrinsic evaluation) : 모델 내에서 자신의 성능을 수치화하여 결과를 내놓는 평가 방식▪ Perplexity는 일반적으로 단어에서 사용 범주 분류에서 교차 엔트로피는 경계 엔트로피 기반 라벨의 합산이다. Chain .. 2023. 6. 27.
[Deep Learning] 베이지안 하이퍼파라미터 최적화 (Bayesian Hyperparameter Optimization) 베이지안 하이퍼파라미터 최적화 (Bayesian Hyperparameter Optimization) 베이지안 하이퍼파라미터 최적화는 그리드 검색보다 더 효율적으로 하이퍼파라미터를 찾는 방법이다. 하이퍼파라미터의 각 후보 집합은 신경망을 다시 학습시켜야 하므로 후보 집합의 수를 최소한으로 유지하는 것이 가장 좋다. 베이지안 하이퍼파라미터 최적화는 좋은 하이퍼파라미터 후보 집합을 예측하는 모델을 학습시켜 이를 달성한다. bayesian-optimization hyperopt spearmint # Ignore useless W0819 warnings generated by TensorFlow 2.0. # Hopefully can remove this ignore in the future. # See https.. 2023. 5. 26.
[Machine Learning] K겹 교차 검증 (K-fold cross validation) K겹 교차 검증 (K-fold cross validation) k-fold cross-validation (k-겹 교차 검증)은 가장 널리 사용되는 교차 검증 방법의 하나로, 데이터를 k개로 분할한 뒤, k-1개를 학습용 데이터 세트로, 1개를 평가용 데이터 세트로 사용하는데, 이 방법을 k번 반복하여 k개의 성능 지표를 얻어내는 방법이다. k를 4로 설정하는 경우, 데이터를 폴드 (fold)라고 하는 거의 비슷한 크기의 부분 집합 네 개로 나눈다. 그 다음 일련의 모델을 만든다. 첫 번째 모델은 첫 번째 폴드를 평가용 데이터셋으로 사용하고, 두 번째부터 네 번째까지의 폴드 (3개의 폴드)를 학습용 데이터셋으로 사용한다. 그 다음 모델을 두 번째 폴드를 평가용, 1, 3, 4 폴드를 학습용 데이터셋으로 .. 2023. 4. 27.
[Machine Learning] 사용자기반 협업 필터링 (User-based Filtering) 사용자기반 협업 필터링 (User-based Filtering) import pandas as pd import numpy as np import seaborn as sns import matplotlib.pylab as plt from sklearn.metrics import mean_squared_error from datetime import datetime %matplotlib inline movies = pd.read_csv('movies.csv') # 영화 정보 ratings = pd.read_csv('ratings.csv') # 사용자가 영화에 대해 남긴 평점 데이터 print(movies.shape) print(ratings.shape) movies.head() # 제목으로 영화 찾기 mo.. 2022. 12. 7.
[Machine Learning] 추천 시스템 (Recommender System) 추천 시스템 (Recommender System) 추천 시스템 (推薦 system)은 정보 필터링 (IF) 기술의 일종으로, 특정 사용자가 관심을 가질만한 정보 (영화, 음악, 책, 뉴스, 이미지, 웹 페이지 등)를 추천하는 것이다. 추천 시스템에는 협업 필터링 기법을 주로 사용한다. 소셜 북마크 사이트에서 링크를 사람들에게 추천하고 무비렌즈 데이터 세트에서 영화를 추천하는 방법등이 이에 속한다. 협업 필터링 (Collaborative Filtering) 협업 필터링은 많은 사용자들로부터 얻은 기호정보에 따라 사용자들의 관심사들을 자동적으로 예측하게 해주는 방법이다. 협력 필터링 접근법의 근본적인 가정은 사용자들의 과거의 경향이 미래에서도 그대로 유지 될 것이라는 전제에 있다. Data sparsity .. 2022. 12. 7.
[Machine Learning] 의사 결정 트리 : 붓꽃 (Iris) 데이터 로드 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.tree import DecisionTreeClassifier from sklearn import tree iris_dt = load_iris() train_x, test_x, train_y, test_y = train_test_split(iris_dt.data, iris_dt.target, test_size=0.2, random_state=0.. 2022. 11. 29.
728x90
반응형
LIST