728x90 반응형 SMALL teacher forcing2 [Deep Learning] Attention Mechanism Attention Seq2Seq는 인코더 마지막 히든 스테이트 (hidden state)에 모든 인코더 정보를 우겨넣게 된다. 그리고 LSTM을 통해 Long-term dependency 문제를 해결했지만, 뒤 타임 스텝에서 앞쪽의 정보를 잘 저장하지 못하는 현상이 발생하기도 했다. 이 문제를 보완하기 위해 attention이 등장하게 된다. 동작 원리 어텐션이란, 디코더 (Decoder)가 각 타임 스텝 (time step)에서 결과를 생성할 때에 인코더 (Encoder)의 몇번째 타임 스텝을 더 집중 (Attention)해야하는 지를 스코어 형태로 나타내는 것이다. 각 디코더의 타임 스텝마다 인코더의 히든 스테이트 백터 (hidden state vector)와의 유사도를 계산함으로써, 인코더의 몇번.. 2023. 12. 28. [Deep Learning] Teacher Forcing Teacher Forcing 티처 포싱은 target word (Ground Truth)를 디코더의 다음 입력으로 넣어 주는 기법이다. 타임 시리즈 예측 (Time Serise Forecasting, 데이터의 시간적 패턴을 탐지하는 것) 등 NLP 이외의 분야에 활용된다. 트랜스포머 (Transformer)와 같이 자기회귀성 (Autoregressive) 을 가진 다른 모델에도 적용된다. 장점 학습이 빠르다. 학습 초기 단계에서는 모델의 예측 성능이 나쁘다. 따라서, Tearcher Forcing을 이용하지 않으면 잘못된 예측값을 토대로hidden state 값이 update되고, 이 때문에 모델의 학습 속도를 더디게 한다. 그리고 Ground Truth를 모두 넘겨준다는 특징이 있다. 시점t에서 모델.. 2022. 11. 24. 이전 1 다음 728x90 반응형 LIST