자동 음성 인식 (Automatic Speech Recognition)

Linguistic Intelligence/Speech Recognition

자동 음성 인식 (Automatic Speech Recognition)

goatlab 2024. 7. 3. 10:47

728x90

SMALL

자동 음성 인식 (Automatic Speech Recognition)

자동 음성 인식 (Automatic Speech Recognition)이란 음성 신호(acoustic signal)를 단어(word) 혹은 음소 (phoneme) 시퀀스로 변환하는 시스템을 가리킨다.

자동 음성 인식 모델은 입력 음성 신호 X(x1, x2, ..., xt)에 대해 가장 그럴듯한 (likely) 음소/단어 시퀀스 Y(y1, y2, ..., yn)를 추정한다. 자동 음성 인식 모델의 목표는 P(Y∥X)를 최대화하는 음소/단어 시퀀스 Y를 추론 (inference)하는 데에 있다. 이를 식으로 표현하면 다음 수식과 같다.

P(Y∥X)를 바로 추정하는 모델을 구축하는 것이 가장 이상적이다. 하지만 같은 음소나 단어라 하더라도 사람마다 발음하는 양상이 다르다. 화자가 남성이냐 여성이냐에 따라서도 음성 신호는 달라질 수 있다. 다시 말해, 음성 신호의 다양한 변이형을 모두 커버하는 모델을 만들기가 쉽지 않다는 것이다. 이에 베이즈 정리 (Bayes' Theorem)를 활용해 다음 수식처럼 문제를 다시 정의한다.

위 수식의 우변에 등장한 P(X)는 베이즈 정리에서 evidence로 불린다. evidence는 Y의 모든 경우의 수에 해당하는 X의 발생 확률이기 때문에 추정하기가 매우 어렵다. 그런데 다행히 추론 (inference) 과정에서 입력 신호 X는 Y와 관계없이 고정되어 있다. 따라서, 추론 과정에서 P(X)를 계산에서 생략할 수 있다. Y의 후보 시퀀스가 2가지 (Y1, Y2)뿐이라면 다음 수식처럼 예측 결과 Y1를 만들 때 분자만 고려하면 된다.

결론적으로 음성 인식 모델은 다음 수식처럼 크게 두 가지 컴포넌트로 구성된다. 수식 우변의 첫번째 항 P(X∥Y)는 음향 모델 (Acoustic Model), P(Y)는 언어 모델 (Language Model)로 불린다. 음향 모델은 음소/단어 시퀀스와 입력 음성 신호가 어느 정도 관계를 맺고 있는지 추출하고, 언어 모델은 해당 음소/단어 시퀀스가 얼마나 자연스러운지 확률값 형태로 나타낸다.

728x90

LIST

저작자표시 비영리 변경금지