본문 바로가기

728x90

SMALL

seq2seq4

[Deep Learning] 인코더 디코더 모델 인코더 모델 (Encoder Models) 인코더 모델 (encoder models)은 Transformers 모델의 인코더 모듈만 사용한다. 각 단계에서 어텐션 계층 (attention layer)은 초기/원본 입력 문장 (initial sentence)의 모든 단어에 액세스할 수 있다. 이러한 모델은 종종 양방향 (bi-directional) 주의 집중 (attention)을 수행하는 것이 특징이며, auto-encoding model 이라고 부르기도 한다. 이러한 모델의 사전 학습 (pre-training) 과정에서 일반적으로 주어진 초기 문장을 다양한 방법을 사용하여 손상시키고 (ex: 임의의 단어를 masking), 손상시킨 문장을 다시 원래 문장으로 복원하는 과정을 통해서 모델 학습이 진행된.. 2024. 8. 7.

[Deep Learning] 트랜스포머 구조 트랜스포머 구조 트랜스포머는 RNN을 사용하지 않지만 기존의 seq2seq처럼 인코더에서 입력 시퀀스를 입력받고, 디코더에서 출력 시퀀스를 출력하는 인코더-디코더 구조를 유지하고 있다. seq2seq 구조에서는 인코더와 디코더에서 각각 하나의 RNN이 t개의 시점 (time step)을 가지는 구조였다면 트랜스포머의 인코더와 디코더는 단위가 N개로 구성되는 구조이다. 인코더로부터 정보를 전달받아 디코더가 출력 결과를 만들어내는 트랜스포머 구조를 보여준다. 디코더는 마치 기존의 seq2seq 구조처럼 시작 심볼 를 입력으로 받아 종료 심볼 가 나올 때까지 연산을 진행한다. 이는 RNN은 사용되지 않지만 여전히 인코더-디코더의 구조는 유지되고 있음을 보여준다. 하이퍼파라미터 d_model 트랜스포머의 인코더.. 2023. 12. 28.

[Deep Learning] Attention Mechanism Attention Seq2Seq는 인코더 마지막 히든 스테이트 (hidden state)에 모든 인코더 정보를 우겨넣게 된다. 그리고 LSTM을 통해 Long-term dependency 문제를 해결했지만, 뒤 타임 스텝에서 앞쪽의 정보를 잘 저장하지 못하는 현상이 발생하기도 했다. 이 문제를 보완하기 위해 attention이 등장하게 된다. 동작 원리 어텐션이란, 디코더 (Decoder)가 각 타임 스텝 (time step)에서 결과를 생성할 때에 인코더 (Encoder)의 몇번째 타임 스텝을 더 집중 (Attention)해야하는 지를 스코어 형태로 나타내는 것이다. 각 디코더의 타임 스텝마다 인코더의 히든 스테이트 백터 (hidden state vector)와의 유사도를 계산함으로써, 인코더의 몇번.. 2023. 12. 28.

[Deep Learning] Seq2Seq (Sequence to Sequence) Seq2Seq (Sequence to Sequence) RNN에서 many-to-many에 해당되는 모델을 'Seq2Seq Model'이라고 하며, 그 중 입력 문장을 읽어오는 부분을 인코더 (encoder), 출력 문장을 생성하는 부분을 디코더 (decoder)라고 한다. 디코더의 첫번째 입력값 (input)은 SoS (Start of Sentence)에 들어가며 결과값을 생성하기 시작하고, EoS (End of Sentece) 토큰이 디코더의 출력값 (output)으로 나오면 생성을 멈추게 된다. Seq2Seq의 문제 입력 시퀀스의 길이에 상관없이 단일 컨텍스트 벡터로 표현하여 정보 병목 (Information Bottleneck) 현상이 발생한다. 2023. 12. 27.

이전 1 다음

728x90

LIST

티스토리툴바