본문 바로가기
728x90
반응형
SMALL

Learning-driven Methodology112

[Deep Learning] Teacher Forcing Teacher Forcing  티처 포싱은 target word (Ground Truth)를 디코더의 다음 입력으로 넣어 주는 기법이다. 타임 시리즈 예측 (Time Serise Forecasting, 데이터의 시간적 패턴을 탐지하는 것) 등 NLP 이외의 분야에 활용된다. 트랜스포머 (Transformer)와 같이 자기회귀성 (Autoregressive) 을 가진 다른 모델에도 적용된다. 장점 학습이 빠르다. 학습 초기 단계에서는 모델의 예측 성능이 나쁘다. 따라서, Tearcher Forcing을 이용하지 않으면 잘못된 예측값을 토대로hidden state 값이 update되고, 이 때문에 모델의 학습 속도를 더디게 한다. 그리고 Ground Truth를 모두 넘겨준다는 특징이 있다. 시점t에서 모델.. 2022. 11. 24.
[Deep Learning] 활성화 함수 구현 Sigmoid import numpy as np def sigmoid(x): return 1/(1+np.exp(-x)) sigmoid(4) 0.9820137900379085 import matplotlib.pyplot as plt x = np.arange(-10, 10, 0.01) y = sigmoid(x) plt.plot(x, y) ReLU def relu(x): return np.maximum(0, x) x = np.arange(-10, 10, 0.01) y = relu(x) plt.plot(x, y) Softmax def origin_softmax(x): f_x = np.exp(x) / np.sum(np.exp(x)) return f_x x = np.array([1.3, 5.1, 2.2, 0.7, .. 2022. 11. 17.
[Machine Learning] 이상 탐지 (Anomaly Detection) 이상 탐지 (Anomaly Detection) 변칙은 데이터 세트의 예상된 패턴에서 예상치 못한 변화 또는 편차이다. 이상 탐지는 이상 징후가 예상과 다르게 발생하고 있음을 보여주기 때문에 비정상적인 동작을 경고하는 데 사용된다. 이상 징후가 반드시 좋거나 나쁜 것은 아니지만, 기업은 패턴의 단절에 대해 알아야 조치를 취할 필요가 있는지 여부를 평가할 수 있다. 기업은 일상적인 운영 중에 수백만 개의 데이터 포인트를 생성하지만, 그 중요한 정보의 대부분은 사용되지 않고 잊혀진다. 이러한 이유로 비즈니스 세계에서 이상 탐지 기능이 점점 더 부각되고 있다. 즉, 운영을 최적화하고 프로세스를 간소화하여 보다 예측 가능한 미래를 실현하는 것이다. Anomalies와 Outliers의 차이 많은 비즈니스 사용자들.. 2022. 11. 17.
[Machine Learning] 오토인코더 (Autoencoder) 오토인코더 (Autoencoder) 오토인코더는 인코더를 통해 입력을 신호로 변환한 다음 다시 디코더를 통해 레이블 따위를 만들어내는 비지도 학습기법이다. 다시 말해, 오토인코더는 고차원의 정보를 압축해 주는 인코더와 압축된 정보를 다시 원래 정보로 돌려주는 디코더로 이루어져 있다. 원본 데이터에서 인코더를 거쳐 압축된 정보로 변환한 뒤, 다시 디코더를 거쳐 원본 데이터로 복구하는 작업을 한다. 오토인코더 모델은 인코더 - 디코더의 결합된 형태로 만들어진다. 나중에 디코더만 따로 분리하여 압축된 정보를 입력으로 주게 되면, 알아서 원본 이미지와 유사한 마치 Fake 이미지를 만들어 주도록 유도할 수도 있다. 오토인코더의 손실은 MNIST의 28 X 28 이미지 각각의 pixel 값에 대하여 원본과 디코딩.. 2022. 11. 11.
[XGBoost] 보험료 예측 데이터셋 로드 import pandas as pd df = pd.read_csv('Medical_Insurance_dataset.csv') df.head() 원-핫 인코딩 df = pd.get_dummies(df) df.head() 데이터 전처리 # 훈련 데이터, 검증 데이터, 테스트 데이터 나누기 features = df[df.keys().drop('charges')].values outcome = df['charges'].values.reshape(-1, 1) from sklearn.model_selection import train_test_split train_features, test_features, train_target, test_target = train_test_split(feature.. 2022. 10. 5.
[XGBoost] 심혈관 질환 예측 데이터셋 로드 import pandas as pd df = pd.read_csv('Cardiovascular_Disease_dataset.csv') df.head() df['Presence or absence of cardiovascular disease'].value_counts() 0 35021 1 34979 Name: Presence or absence of cardiovascular disease, dtype: int64 데이터 전처리 # 훈련 데이터, 검증 데이터, 테스트 데이터로 나누기 features = df[df.keys().drop(['id','Presence or absence of cardiovascular disease'])].values outcome = df['Presence o.. 2022. 10. 5.
[XGBoost] 심장 질환 예측 데이터셋 로드 import pandas as pd df = pd.read_csv('Heart_Prediction_Dataset.csv') df.head() 원-핫 인코딩 df = pd.get_dummies(df) df.head() df['HeartDisease'].value_counts() 데이터 전처리 # 훈련 데이터, 검증 데이터, 테스트 데이터 나누기 features = df[df.keys().drop(['HeartDisease'])].values outcome = df['HeartDisease'].values.reshape(-1,1) from sklearn.model_selection import train_test_split train_features, test_features, train_ta.. 2022. 10. 4.
[XGBoost] 위스콘신 유방암 데이터 (3) wpbc 데이터셋 특징은 유방 종괴의 미세 바늘 흡인물 (FNA)의 디지털화된 이미지에서 계산된다. 이것은 이미지에 존재하는 세포 핵의 특성을 설명한다. (https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29) import pandas as pd df = pd.read_csv('wpbc_data.csv', header=None) df.head() # Outcome 값 변경 df.loc[df[1]=='N',1] = 0 df.loc[df[1]=='R',1] = 1 df[1] = df[1].astype('int32') df.describe() # 결측치 제거 및 Outcome 비율 확인 for key in df.keys.. 2022. 10. 4.
[XGBoost] 위스콘신 유방암 데이터 (2) wdbc 데이터셋 특징은 유방 종괴의 미세 바늘 흡인물 (FNA)의 디지털화된 이미지에서 계산된다. 이것은 이미지에 존재하는 세포 핵의 특성을 설명한다. (https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+%28Diagnostic%29) import pandas as pd df = pd.read_csv('wdbc_data.csv', header=None) df.head() # Outcome 값 변경 df.loc[df[1]=='B', 1] = 0 df.loc[df[1]=='M', 1] = 1 df[1] = df[1].astype('int32') df.describe() df.isnull().sum() 데이터 전처리 features = df[d.. 2022. 10. 4.
[XGBoost] 위스콘신 유방암 데이터 (1) 위스콘신 유방암 데이터 사이킷런에서는 UCI ML 유방암 위스콘신 (진단) 데이터 세트를 제공한다. 또한, 사본도 다운로드 가능하다. 라이브러리 설치 conda install -c conda-forge xgboost conda install -c conda-forge imbalanced-learn breast-cancer-wisconsin 데이터셋 로드 import pandas as pd df = pd.read_csv('breast-cancer-wisconsin.data.csv', names=['id','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion','Single Epithelial Cell.. 2022. 10. 4.
728x90
반응형
LIST