728x90 반응형 SMALL 훈련5 [LightGBM] Python 패키지 (2) 매개변수 설정 LightGBM은 사전을 사용하여 매개변수를 설정할 수 있다. # 부스터 매개변수: param = {'num_leaves': 31, 'objective': 'binary'} param['metric'] = 'auc' # 여러 평가 지표를 지정 param['metric'] = ['auc', 'binary_logloss'] 훈련 모델을 훈련하려면 매개변수 목록과 데이터 세트가 필요하다. num_round = 10 bst = lgb.train(param, train_data, num_round, valid_sets=[validation_data]) 학습 후 모델을 저장할 수 있다. bst.save_model('model.txt') 훈련된 모델은 JSON 형식으로 덤프할 수도 있다. json_mo.. 2022. 6. 28. [TensorFlow] CSV 전처리 (2) 데이터 전처리 CSV 파일은 다양한 데이터 유형을 포함할 수 있다. 일반적으로 데이터를 모델에 공급하기 전에 혼합 유형에서 고정 길이 벡터로 변환한다. TensorFlow에는 일반적인 입력 변환을 설명하기 위한 내장 시스템이 있다. 자세한 내용은 tf.feature_column, 이 튜토리얼을 참조하면 된다. 원하는 도구 (ex: nltk 또는 sklearn)를 사용하여 데이터를 전처리하고 처리된 출력을 TensorFlow에 전달하면 된다. 모델 내에서 전처리를 수행할 때의 주요 이점은 모델을 내보낼 때 전처리가 포함된다는 것이다. 이렇게 하면 원시 데이터를 모델로 직접 전달할 수 있다. 연속 데이터 데이터가 이미 적절한 숫자 형식인 경우, 데이터를 모델로 전달하기 전에 벡터로 묶을 수 있다. SELEC.. 2022. 6. 16. [Machine Learning] MNIST MNIST (Modified National Institute of Standards and Technology database) TensorFlow 샘플에 보면 mnist dataset이 많이 등장한다. MNIST는 인공지능 연구의 권위자 LeCun교수가 만든 dataset이고 현재 딥러닝을 공부할 때 반드시 거쳐야할 Hello, World같은 존재이다. MNIST는 60,000개의 train set과 10,000개의 test set으로 이루어져 있고 이 중 train set을 학습 data로 사용하고 test set을 신경망을 검증하는 데에 사용한다. MNIST는 간단한 컴퓨터 비전 dataset로, 아래와 같이 손으로 쓰여진 이미지들로 구성되어 있다. 숫자는 0에서 1까지의 값을 갖는 고정 크기 이.. 2022. 4. 28. Material and Methods (2) Time Distributed Multivariate Network 시간적 수면 단계 분류 (k>0)를 수행하기 위해 제안하는 시간 분산 다변량 네트워크를 설명한다. 그것은 이전에 제시된 다변량 네트워크 아키텍처를 기반으로 하고 시간적 맥락을 고려할 수 있는 시간에 그것을 배포한다. 실제로 등급 N2의 표본은 다른 N2 표본에 가깝지만 N1 또는 N3 표본에 가까울 가능성이 매우 높다. 관심 샘플 전후의 신호의 통계적 특성을 고려하기 위해, 관심 샘플 이전 또는 이후 여러 시간 세그먼트에서 Z에 의해 추출된 다양한 특징을 집계할 것을 제안한다. 좀 더 공식적으로, S^(k)_(T)={Xt-k,…,Xt,…,Xt+k} ∈ Xk를 2k+1개의 인접 샘플 (과거에는 k개 샘플, 미래에는 k개 샘플)의 시퀀스로 .. 2022. 4. 12. [Deep Learning] Train / Validation / Test set Train / Validation / Test set ML 모델링을 하고자 할 때 데이터 set을 나누어 사용한다. 일반적으로 train : validation : test = 60 : 20 : 20 의 비율을 사용한다. 훈련 데이터 (train set) train set은 모델을 학습하는데 사용된다. train set으로 모델을 만든 뒤 동일한 데이터로 성능을 평가해보기도 하지만, 이는 cheating이 되기 때문에 유효한 평가는 아니다. train set은 test set이 아닌 나머지 데이터 set을 의미하기도 하며, train set 내에서 또 다시 쪼갠 validation set이 아닌 나머지 데이터 set을 의미하기도 한다. 따라서 test set과 구분하기 위해 사용되는지, validatio.. 2021. 12. 22. 이전 1 다음 728x90 반응형 LIST