본문 바로가기
728x90
반응형
SMALL

Linguistic Intelligence/Speech Recognition2

[Speech Recognition] 레거시 음성 모델 (Legacy Acoustic Model) 레거시 음성 모델 (Legacy Acoustic Model) 은닉 마코프 모델 (Hidden Markov Model)과 가우시안 혼합 모델 (Gaussian Mixture Model) 조합의 음향 모델 (Acoustic Model)은 딥러닝 기반의 엔드투엔드 (end-to-end) 모델들이 등장하기 전 비교적 강력한 성능을 자랑했던 기존 음성 인식 시스템에서 언어 모델 (Language Model)과 더불어 중요한 역할을 수행했던 컴포넌트이다. HMM (Hidden Markov Model)  은닉 마코프 모델 (Hidden Markov Model)에서는 일반적으로 상태 전이에 대한 제약을 두지 않는다. 하지만, 은닉 마코프 모델을 음성 인식에 적용할 때는 left-to-right 제약을 둔다. 다시 말해.. 2024. 7. 3.
자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition)   자동 음성 인식 (Automatic Speech Recognition)이란 음성 신호(acoustic signal)를 단어(word) 혹은 음소 (phoneme) 시퀀스로 변환하는 시스템을 가리킨다. 자동 음성 인식 모델은 입력 음성 신호 X(x1, x2, ..., xt)에 대해 가장 그럴듯한 (likely) 음소/단어 시퀀스 Y(y1, y2, ..., yn)를 추정한다. 자동 음성 인식 모델의 목표는 P(Y∥X)를 최대화하는 음소/단어 시퀀스 Y를 추론 (inference)하는 데에 있다. 이를 식으로 표현하면 다음 수식과 같다.  P(Y∥X)를 바로 추정하는 모델을 구축하는 것이 가장 이상적이다. 하지만 같은 음소나 단어라 하.. 2024. 7. 3.
728x90
반응형
LIST