본문 바로가기
Linguistic Intelligence/Speech Recognition

EER (Equal Error Rate)

by goatlab 2024. 4. 17.
728x90
반응형
SMALL

EER (Equal Error Rate)

 

https://www.researchgate.net/publication/342275067_Decision_Making_Process_in_Keystroke_Dynamics/figures?lo=1

 

EER (동일 오류율)은 음성 인식 시스템, 특히 화자 검증 (speaker verification) 시스템의 성능을 평가하는 데 사용되는 중요한 지표이다. EER은 오수락률 (FAR)과 동일인인데 타인으로 인식하는 오류인 오거부률 (FRR)이 같아지는 지점을 의미한다. 이를 통해 화자 검증 모델의 인식 능력을 간단하게 평가할 수 있다.

 

  • False Acceptance Rate (FAR) : 비인증 사용자가 인증된 사용자로 잘못 인식되는 비율
  • False Rejection Rate (FRR) : 인증된 사용자가 비인증 사용자로 잘못 인식되는 비율

 

등록 과정

 

https://maelfabien.github.io/machinelearning/basics_speech/

 

등록 과정에서는 등록할 사용자의 음성으로부터 특징을 추출한다. 화자 특징 추출 (speaker embedding extraction) 방법에는 대표적은 i-vector, x-vector가 활용될 수 있다.

 

등록할 사용자의 음성 특징을 추출하는 방법에는 특정 문장을 읽게 해 특징을 추출하는 text dependent 방법과, 임의의 발화로부터 특징을 추출하는 text independent 방법이 있다. 등록할 사용자의 음성에 대해 특징 추출 전, VAD (voice activation detection)나 노이즈 제거 등의 전처리가 수행될 수 있다.

 

인증 과정

 

인증 과정에서도 마찬가지로 인증을 수행할 사용자의 음성으로부터 특징을 추출한다. 인증을 수행할 사용자의 음성에서 추출한 특징 벡터를 기존에 등록된 특징 벡터와 비교한다. 이 과정에서 유사도를 판단해 동일인인지 타인인지 여부를 판단한다. 특정 벡터 간 유사도 판단에는 코사인이나 유클리드 유사도 등이 활용될 수 있다. 인증을 수행할 사용자의 음성에 대해서도 특징 추출 전, VAD나 노이즈 제거 등의 전처리가 수행될 수 있다.

728x90
반응형
LIST