728x90
반응형
SMALL
EER (Equal Error Rate)
EER (동일 오류율)은 음성 인식 시스템, 특히 화자 검증 (speaker verification) 시스템의 성능을 평가하는 데 사용되는 중요한 지표이다. EER은 오수락률 (FAR)과 동일인인데 타인으로 인식하는 오류인 오거부률 (FRR)이 같아지는 지점을 의미한다. 이를 통해 화자 검증 모델의 인식 능력을 간단하게 평가할 수 있다.
|
등록 과정
등록 과정에서는 등록할 사용자의 음성으로부터 특징을 추출한다. 화자 특징 추출 (speaker embedding extraction) 방법에는 대표적은 i-vector, x-vector가 활용될 수 있다.
등록할 사용자의 음성 특징을 추출하는 방법에는 특정 문장을 읽게 해 특징을 추출하는 text dependent 방법과, 임의의 발화로부터 특징을 추출하는 text independent 방법이 있다. 등록할 사용자의 음성에 대해 특징 추출 전, VAD (voice activation detection)나 노이즈 제거 등의 전처리가 수행될 수 있다.
인증 과정
인증 과정에서도 마찬가지로 인증을 수행할 사용자의 음성으로부터 특징을 추출한다. 인증을 수행할 사용자의 음성에서 추출한 특징 벡터를 기존에 등록된 특징 벡터와 비교한다. 이 과정에서 유사도를 판단해 동일인인지 타인인지 여부를 판단한다. 특정 벡터 간 유사도 판단에는 코사인이나 유클리드 유사도 등이 활용될 수 있다. 인증을 수행할 사용자의 음성에 대해서도 특징 추출 전, VAD나 노이즈 제거 등의 전처리가 수행될 수 있다.
728x90
반응형
LIST
'Linguistic Intelligence > Speech Recognition' 카테고리의 다른 글
[Speech Recognition] wav2vec2 (0) | 2024.08.06 |
---|---|
[Speech Recognition] 연결주의 시간 분류 (Connectionist Temporal Classification) (0) | 2024.07.16 |
[Speech Recognition] 레거시 음성 모델 (Legacy Acoustic Model) (0) | 2024.07.03 |
자동 음성 인식 (Automatic Speech Recognition) (0) | 2024.07.03 |
[Speech Recognition] 변환기 (Transducer) (0) | 2024.06.25 |