728x90 반응형 SMALL connectionist temporal classification1 [Speech Recognition] 연결주의 시간 분류 (Connectionist Temporal Classification) 연결주의 시간 분류 (Connectionist Temporal Classification) 음성 인식에서 CTC (Connectionist Temporal Classification)는 단조 손실 (monotonic loss)이기 때문에 더 널리 사용되는 접근 방식이다. 시간 단계의 음성 특징은 t₁와 t₂ 시간 단계의 u₁와 u₂ 대상 토큰에 해당된다. 이 단조로운 속성은 ASR 모델의 훈련을 크게 단순화하고 수렴 (convergence) 속도를 높인다. 일반적으로 ASR은 시퀀스 간 예측 작업으로 설명할 수 있다. 원래 시퀀스는 오디오 시퀀스이다 (종종 멜 스펙트로그램으로 변환됨). 대상 시퀀스는 문자 (또는 하위 단어 토큰)의 시퀀스이다. Attention 모델은 동일한 시퀀스 간 예측 작업을 수행.. 2024. 7. 16. 이전 1 다음 728x90 반응형 LIST