본문 바로가기
728x90
반응형
SMALL

Linguistic Intelligence/Speech Recognition7

[Speech Recognition] wav2vec2 모델을 이용하여 음성 인식 프로젝트 허깅페이스 로그인  from huggingface_hub import loginlogin(token="hf_") 라이브러리 및 모델 로드 import torchimport librosaimport numpy as npfrom scipy.io import wavfilefrom IPython.display import Audiofrom transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizertokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")# 오디오 파일 로드fi.. 2024. 8. 6.
[Speech Recognition] wav2vec2 wav2vec2 wav2vec2 모델은 음성 표현의 자기 지도 학습 (Self-Supervised Learning)을 위한 프레임워크이며, 16kHz 샘플링 음성 오디오에서 대규모 음성 녹음 자료인  960시간의 Librispeech를 통해 사전 훈련되고 미세 조정되었다. 그런 다음, 음성 인식을 위해 감독되는 방식으로 신속하게 미세 조정되거나 다른 어플리케이션을 위한 상위 수준 기능 및 의사 음소 추출기 역할을 할 수 있다. 이 모델은 음성 오디오만으로 강력한 표현을 학습한 후 전사된 (transcribed) 음성을 미세 조정하는 것이 개념적으로 더 간단하면서도 최상의 준지도 (semi-supervised) 방법보다 성능이 뛰어날 수 있음을 처음으로 보여준다. wav2vec2 잠재 공간 (latent .. 2024. 8. 6.
[Speech Recognition] 연결주의 시간 분류 (Connectionist Temporal Classification) 연결주의 시간 분류 (Connectionist Temporal Classification) 음성 인식에서 CTC (Connectionist Temporal Classification)는 단조 손실 (monotonic loss)이기 때문에 더 널리 사용되는 접근 방식이다. 시간 단계의 음성 특징은 t₁와 t₂ 시간 단계의 u₁와 u₂ 대상 토큰에 해당된다. 이 단조로운 속성은 ASR 모델의 훈련을 크게 단순화하고 수렴 (convergence) 속도를 높인다. 일반적으로 ASR은 시퀀스 간 예측 작업으로 설명할 수 있다. 원래 시퀀스는 오디오 시퀀스이다 (종종 멜 스펙트로그램으로 변환됨). 대상 시퀀스는 문자 (또는 하위 단어 토큰)의 시퀀스이다. Attention 모델은 동일한 시퀀스 간 예측 작업을 수행.. 2024. 7. 16.
[Speech Recognition] 레거시 음성 모델 (Legacy Acoustic Model) 레거시 음성 모델 (Legacy Acoustic Model) 은닉 마코프 모델 (Hidden Markov Model)과 가우시안 혼합 모델 (Gaussian Mixture Model) 조합의 음향 모델 (Acoustic Model)은 딥러닝 기반의 엔드투엔드 (end-to-end) 모델들이 등장하기 전 비교적 강력한 성능을 자랑했던 기존 음성 인식 시스템에서 언어 모델 (Language Model)과 더불어 중요한 역할을 수행했던 컴포넌트이다. HMM (Hidden Markov Model)  은닉 마코프 모델 (Hidden Markov Model)에서는 일반적으로 상태 전이에 대한 제약을 두지 않는다. 하지만, 은닉 마코프 모델을 음성 인식에 적용할 때는 left-to-right 제약을 둔다. 다시 말해.. 2024. 7. 3.
자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition)   자동 음성 인식 (Automatic Speech Recognition)이란 음성 신호(acoustic signal)를 단어(word) 혹은 음소 (phoneme) 시퀀스로 변환하는 시스템을 가리킨다. 자동 음성 인식 모델은 입력 음성 신호 X(x1, x2, ..., xt)에 대해 가장 그럴듯한 (likely) 음소/단어 시퀀스 Y(y1, y2, ..., yn)를 추정한다. 자동 음성 인식 모델의 목표는 P(Y∥X)를 최대화하는 음소/단어 시퀀스 Y를 추론 (inference)하는 데에 있다. 이를 식으로 표현하면 다음 수식과 같다.  P(Y∥X)를 바로 추정하는 모델을 구축하는 것이 가장 이상적이다. 하지만 같은 음소나 단어라 하.. 2024. 7. 3.
[Speech Recognition] 변환기 (Transducer) 변환기 (Transducer) 변환기는 에너지를 한 형태에서 다른 형태로 변환하는 장치이다. 일반적으로 변환기는 한 형태의 에너지 신호를 다른 형태의 신호로 변환한다. 변환기는 전기 신호가 다른 물리적 양으로 변환되거나 그 반대로 변환되는 자동화, 측정 및 제어 시스템의 경계에서 종종 사용된다. Transducer는 실시간 음성 인식 등 빠른 응답 속도를 요구하는 분야에 사용할 수 있는 Encoder, Decoder와 Joint Network 3개의 모듈로 구성된 구조이다. 음성에서 특징을 추출하는 Encoder, 글자에서 특징을 추출하는 Decoder와 앞선 두 특징을 결합해서 다음 글자를 예측하는 Joint Network로 구성되어 있다. import torchimport stringimport nu.. 2024. 6. 25.
EER (Equal Error Rate) EER (Equal Error Rate)  EER (동일 오류율)은 음성 인식 시스템, 특히 화자 검증 (speaker verification) 시스템의 성능을 평가하는 데 사용되는 중요한 지표이다. EER은 오수락률 (FAR)과 동일인인데 타인으로 인식하는 오류인 오거부률 (FRR)이 같아지는 지점을 의미한다. 이를 통해 화자 검증 모델의 인식 능력을 간단하게 평가할 수 있다. False Acceptance Rate (FAR) : 비인증 사용자가 인증된 사용자로 잘못 인식되는 비율False Rejection Rate (FRR) : 인증된 사용자가 비인증 사용자로 잘못 인식되는 비율 등록 과정   등록 과정에서는 등록할 사용자의 음성으로부터 특징을 추출한다. 화자 특징 추출 (speaker embeddi.. 2024. 4. 17.
728x90
반응형
LIST