본문 바로가기

728x90

SMALL

디코더7

[Deep Learning] 인코더 디코더 모델 인코더 모델 (Encoder Models) 인코더 모델 (encoder models)은 Transformers 모델의 인코더 모듈만 사용한다. 각 단계에서 어텐션 계층 (attention layer)은 초기/원본 입력 문장 (initial sentence)의 모든 단어에 액세스할 수 있다. 이러한 모델은 종종 양방향 (bi-directional) 주의 집중 (attention)을 수행하는 것이 특징이며, auto-encoding model 이라고 부르기도 한다. 이러한 모델의 사전 학습 (pre-training) 과정에서 일반적으로 주어진 초기 문장을 다양한 방법을 사용하여 손상시키고 (ex: 임의의 단어를 masking), 손상시킨 문장을 다시 원래 문장으로 복원하는 과정을 통해서 모델 학습이 진행된.. 2024. 8. 7.

[Speech Recognition] 변환기 (Transducer) 변환기 (Transducer) 변환기는 에너지를 한 형태에서 다른 형태로 변환하는 장치이다. 일반적으로 변환기는 한 형태의 에너지 신호를 다른 형태의 신호로 변환한다. 변환기는 전기 신호가 다른 물리적 양으로 변환되거나 그 반대로 변환되는 자동화, 측정 및 제어 시스템의 경계에서 종종 사용된다. Transducer는 실시간 음성 인식 등 빠른 응답 속도를 요구하는 분야에 사용할 수 있는 Encoder, Decoder와 Joint Network 3개의 모듈로 구성된 구조이다. 음성에서 특징을 추출하는 Encoder, 글자에서 특징을 추출하는 Decoder와 앞선 두 특징을 결합해서 다음 글자를 예측하는 Joint Network로 구성되어 있다. import torchimport stringimport nu.. 2024. 6. 25.

[Deep Learning] 트랜스포머 구조 트랜스포머 구조 트랜스포머는 RNN을 사용하지 않지만 기존의 seq2seq처럼 인코더에서 입력 시퀀스를 입력받고, 디코더에서 출력 시퀀스를 출력하는 인코더-디코더 구조를 유지하고 있다. seq2seq 구조에서는 인코더와 디코더에서 각각 하나의 RNN이 t개의 시점 (time step)을 가지는 구조였다면 트랜스포머의 인코더와 디코더는 단위가 N개로 구성되는 구조이다. 인코더로부터 정보를 전달받아 디코더가 출력 결과를 만들어내는 트랜스포머 구조를 보여준다. 디코더는 마치 기존의 seq2seq 구조처럼 시작 심볼 를 입력으로 받아 종료 심볼 가 나올 때까지 연산을 진행한다. 이는 RNN은 사용되지 않지만 여전히 인코더-디코더의 구조는 유지되고 있음을 보여준다. 하이퍼파라미터 d_model 트랜스포머의 인코더.. 2023. 12. 28.

[Deep Learning] Seq2Seq (Sequence to Sequence) Seq2Seq (Sequence to Sequence) RNN에서 many-to-many에 해당되는 모델을 'Seq2Seq Model'이라고 하며, 그 중 입력 문장을 읽어오는 부분을 인코더 (encoder), 출력 문장을 생성하는 부분을 디코더 (decoder)라고 한다. 디코더의 첫번째 입력값 (input)은 SoS (Start of Sentence)에 들어가며 결과값을 생성하기 시작하고, EoS (End of Sentece) 토큰이 디코더의 출력값 (output)으로 나오면 생성을 멈추게 된다. Seq2Seq의 문제 입력 시퀀스의 길이에 상관없이 단일 컨텍스트 벡터로 표현하여 정보 병목 (Information Bottleneck) 현상이 발생한다. 2023. 12. 27.

[Audio Processing] 시스템 구조 (Systems structures) 전송 및 저장 (Transmission and storage) 음성 전송 시스템 (speech transmission systems)의 목적은 가능한 한 적은 비트 (bits)로 신호를 압축 (compress)하는 동시에 출력 음질 (sound quality)을 가능한 한 좋게 유지하는 것이다. 이를 위해서는 도입하는 degradations가 지각적 영향 (perceptual influence)이 가능한 한 작도록 선택되어야 한다. 다시 말해, 청취자 (listener)가 신호가 저하된 것을 알아차리지 못하게 하거나 가능한 한 적게 알아차리게 하기를 원치 않는다. 그림에서 송신자 측 (sender side)의 인코더에서 신호가 어떻게 양자화되는지 결정하는 지각적 중요성 모델을 가지고 있다. 그런 다음 .. 2023. 6. 15.

[Deep Learning] Teacher Forcing Teacher Forcing 티처 포싱은 target word (Ground Truth)를 디코더의 다음 입력으로 넣어 주는 기법이다. 타임 시리즈 예측 (Time Serise Forecasting, 데이터의 시간적 패턴을 탐지하는 것) 등 NLP 이외의 분야에 활용된다. 트랜스포머 (Transformer)와 같이 자기회귀성 (Autoregressive) 을 가진 다른 모델에도 적용된다. 장점 학습이 빠르다. 학습 초기 단계에서는 모델의 예측 성능이 나쁘다. 따라서, Tearcher Forcing을 이용하지 않으면 잘못된 예측값을 토대로hidden state 값이 update되고, 이 때문에 모델의 학습 속도를 더디게 한다. 그리고 Ground Truth를 모두 넘겨준다는 특징이 있다. 시점t에서 모델.. 2022. 11. 24.

[Machine Learning] 오토인코더 (Autoencoder) 오토인코더 (Autoencoder) 오토인코더는 인코더를 통해 입력을 신호로 변환한 다음 다시 디코더를 통해 레이블 따위를 만들어내는 비지도 학습기법이다. 다시 말해, 오토인코더는 고차원의 정보를 압축해 주는 인코더와 압축된 정보를 다시 원래 정보로 돌려주는 디코더로 이루어져 있다. 원본 데이터에서 인코더를 거쳐 압축된 정보로 변환한 뒤, 다시 디코더를 거쳐 원본 데이터로 복구하는 작업을 한다. 오토인코더 모델은 인코더 - 디코더의 결합된 형태로 만들어진다. 나중에 디코더만 따로 분리하여 압축된 정보를 입력으로 주게 되면, 알아서 원본 이미지와 유사한 마치 Fake 이미지를 만들어 주도록 유도할 수도 있다. 오토인코더의 손실은 MNIST의 28 X 28 이미지 각각의 pixel 값에 대하여 원본과 디코딩.. 2022. 11. 11.

이전 1 다음

728x90

LIST

티스토리툴바