본문 바로가기
728x90
반응형
SMALL

Speech-to-Text2

[Speech Recognition] wav2vec2 wav2vec2 wav2vec2 모델은 음성 표현의 자기 지도 학습 (Self-Supervised Learning)을 위한 프레임워크이며, 16kHz 샘플링 음성 오디오에서 대규모 음성 녹음 자료인  960시간의 Librispeech를 통해 사전 훈련되고 미세 조정되었다. 그런 다음, 음성 인식을 위해 감독되는 방식으로 신속하게 미세 조정되거나 다른 어플리케이션을 위한 상위 수준 기능 및 의사 음소 추출기 역할을 할 수 있다. 이 모델은 음성 오디오만으로 강력한 표현을 학습한 후 전사된 (transcribed) 음성을 미세 조정하는 것이 개념적으로 더 간단하면서도 최상의 준지도 (semi-supervised) 방법보다 성능이 뛰어날 수 있음을 처음으로 보여준다. wav2vec2 잠재 공간 (latent .. 2024. 8. 6.
[언어 지능] 음성 인식 (Acoustic Recognition) 음성 인식 (Acoustic Recognition) 음성 인식은 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리를 말한다. STT (Speech-to-Text)라고도 한다. 키보드 대신 문자를 입력하는 방식으로 주목을 받고 있다. 일반적으로 마이크나 전화를 통하여 얻어진 음향학적 신호를 단어나 단어 집합 또는 문장으로 변환하는 과정을 말한다. 인식된 결과는 명령이나 제어, 데이터 입력, 문서 준비 등의 응용 분야에서 최종 결과로 사용될 수 있으며, 음성이해와 같은 분야에는 언어 처리과정의 입력으로 사용될 수 있다. 음성 인식 시스템은 여러 가지 항목들에 의하여 특징 지워질 수 있다. 먼저 고립 단어 인식 (isolated word recognition) 은 단어간의 경계.. 2022. 8. 27.
728x90
반응형
LIST