728x90 반응형 SMALL exposure bias problem1 [Deep Learning] Teacher Forcing Teacher Forcing 티처 포싱은 target word (Ground Truth)를 디코더의 다음 입력으로 넣어 주는 기법이다. 타임 시리즈 예측 (Time Serise Forecasting, 데이터의 시간적 패턴을 탐지하는 것) 등 NLP 이외의 분야에 활용된다. 트랜스포머 (Transformer)와 같이 자기회귀성 (Autoregressive) 을 가진 다른 모델에도 적용된다. 장점 학습이 빠르다. 학습 초기 단계에서는 모델의 예측 성능이 나쁘다. 따라서, Tearcher Forcing을 이용하지 않으면 잘못된 예측값을 토대로hidden state 값이 update되고, 이 때문에 모델의 학습 속도를 더디게 한다. 그리고 Ground Truth를 모두 넘겨준다는 특징이 있다. 시점t에서 모델.. 2022. 11. 24. 이전 1 다음 728x90 반응형 LIST