본문 바로가기

728x90

SMALL

wav2vec22

[Speech Recognition] wav2vec2 모델을 이용하여 음성 인식 프로젝트 허깅페이스 로그인 from huggingface_hub import loginlogin(token="hf_") 라이브러리 및 모델 로드 import torchimport librosaimport numpy as npfrom scipy.io import wavfilefrom IPython.display import Audiofrom transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizertokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")# 오디오 파일 로드fi.. 2024. 8. 6.

[Speech Recognition] wav2vec2 wav2vec2 wav2vec2 모델은 음성 표현의 자기 지도 학습 (Self-Supervised Learning)을 위한 프레임워크이며, 16kHz 샘플링 음성 오디오에서 대규모 음성 녹음 자료인 960시간의 Librispeech를 통해 사전 훈련되고 미세 조정되었다. 그런 다음, 음성 인식을 위해 감독되는 방식으로 신속하게 미세 조정되거나 다른 어플리케이션을 위한 상위 수준 기능 및 의사 음소 추출기 역할을 할 수 있다. 이 모델은 음성 오디오만으로 강력한 표현을 학습한 후 전사된 (transcribed) 음성을 미세 조정하는 것이 개념적으로 더 간단하면서도 최상의 준지도 (semi-supervised) 방법보다 성능이 뛰어날 수 있음을 처음으로 보여준다. wav2vec2 잠재 공간 (latent .. 2024. 8. 6.

이전 1 다음

728x90

LIST

티스토리툴바