728x90
반응형
SMALL
Teacher Forcing
티처 포싱은 target word (Ground Truth)를 디코더의 다음 입력으로 넣어 주는 기법이다. 타임 시리즈 예측 (Time Serise Forecasting, 데이터의 시간적 패턴을 탐지하는 것) 등 NLP 이외의 분야에 활용된다. 트랜스포머 (Transformer)와 같이 자기회귀성 (Autoregressive) 을 가진 다른 모델에도 적용된다.
장점
학습이 빠르다. 학습 초기 단계에서는 모델의 예측 성능이 나쁘다. 따라서, Tearcher Forcing을 이용하지 않으면 잘못된 예측값을 토대로hidden state 값이 update되고, 이 때문에 모델의 학습 속도를 더디게 한다.
그리고 Ground Truth를 모두 넘겨준다는 특징이 있다. 시점t에서 모델의 입력은 t-1시점에서의 ground truth와 시점 1에서 t-2까지의 참 값을 바탕으로 update된 hidden state이다. 시점 t에서의 참값을 입력으로 주기 전이므로, 모델이 이를 단순히 추론하는경우가 없다.
장점
노출 편향 문제 (Exposure Bias Problem)가 발생한다. 추론 (inference) 과정에서는 제공할 수 있는 ground truth가 없다. 때문에 모델은 전 단계에서 자기 자신의 출력값을 기반으로 다음을 예측한다. 이러한 학습과 추론 단계에서의 차이 (discrepancy)가 존재하여 모델의 성능과 안정성을 떨어뜨릴 수 있다. 다만, 노출 편향 문제가 큰 영향을 미치지 않는다는연구 결과가 있다.
728x90
반응형
LIST
'Learning-driven Methodology > DL (Deep Learning)' 카테고리의 다른 글
[Deep Learning] Perplexity (0) | 2023.06.27 |
---|---|
[Deep Learning] 베이지안 하이퍼파라미터 최적화 (Bayesian Hyperparameter Optimization) (0) | 2023.05.26 |
[Deep Learning] 활성화 함수 구현 (0) | 2022.11.17 |
[Deep Learning] Global Average Pooling (GAP) (0) | 2022.08.14 |
[Deep Learning] 전이 학습 (Transfer Learning) (4) (0) | 2022.06.21 |