728x90 반응형 SMALL ASR2 [Speech Recognition] 연결주의 시간 분류 (Connectionist Temporal Classification) 연결주의 시간 분류 (Connectionist Temporal Classification) 음성 인식에서 CTC (Connectionist Temporal Classification)는 단조 손실 (monotonic loss)이기 때문에 더 널리 사용되는 접근 방식이다. 시간 단계의 음성 특징은 t₁와 t₂ 시간 단계의 u₁와 u₂ 대상 토큰에 해당된다. 이 단조로운 속성은 ASR 모델의 훈련을 크게 단순화하고 수렴 (convergence) 속도를 높인다. 일반적으로 ASR은 시퀀스 간 예측 작업으로 설명할 수 있다. 원래 시퀀스는 오디오 시퀀스이다 (종종 멜 스펙트로그램으로 변환됨). 대상 시퀀스는 문자 (또는 하위 단어 토큰)의 시퀀스이다. Attention 모델은 동일한 시퀀스 간 예측 작업을 수행.. 2024. 7. 16. 자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition)이란 음성 신호(acoustic signal)를 단어(word) 혹은 음소 (phoneme) 시퀀스로 변환하는 시스템을 가리킨다. 자동 음성 인식 모델은 입력 음성 신호 X(x1, x2, ..., xt)에 대해 가장 그럴듯한 (likely) 음소/단어 시퀀스 Y(y1, y2, ..., yn)를 추정한다. 자동 음성 인식 모델의 목표는 P(Y∥X)를 최대화하는 음소/단어 시퀀스 Y를 추론 (inference)하는 데에 있다. 이를 식으로 표현하면 다음 수식과 같다. P(Y∥X)를 바로 추정하는 모델을 구축하는 것이 가장 이상적이다. 하지만 같은 음소나 단어라 하.. 2024. 7. 3. 이전 1 다음 728x90 반응형 LIST