728x90 반응형 SMALL Linguistic Intelligence38 [Speech Recognition] wav2vec2 모델을 이용하여 음성 인식 프로젝트 허깅페이스 로그인 from huggingface_hub import loginlogin(token="hf_") 라이브러리 및 모델 로드 import torchimport librosaimport numpy as npfrom scipy.io import wavfilefrom IPython.display import Audiofrom transformers import Wav2Vec2ForCTC, Wav2Vec2Tokenizertokenizer = Wav2Vec2Tokenizer.from_pretrained("facebook/wav2vec2-base-960h")model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")# 오디오 파일 로드fi.. 2024. 8. 6. [Speech Recognition] wav2vec2 wav2vec2 wav2vec2 모델은 음성 표현의 자기 지도 학습 (Self-Supervised Learning)을 위한 프레임워크이며, 16kHz 샘플링 음성 오디오에서 대규모 음성 녹음 자료인 960시간의 Librispeech를 통해 사전 훈련되고 미세 조정되었다. 그런 다음, 음성 인식을 위해 감독되는 방식으로 신속하게 미세 조정되거나 다른 어플리케이션을 위한 상위 수준 기능 및 의사 음소 추출기 역할을 할 수 있다. 이 모델은 음성 오디오만으로 강력한 표현을 학습한 후 전사된 (transcribed) 음성을 미세 조정하는 것이 개념적으로 더 간단하면서도 최상의 준지도 (semi-supervised) 방법보다 성능이 뛰어날 수 있음을 처음으로 보여준다. wav2vec2 잠재 공간 (latent .. 2024. 8. 6. [LLM] PaliGemma Inference PaliGemma PaliGemma는 PaLI-3에서 영감을 받아 SigLIP 비전 모델 및 Gemma 언어 모델과 같은 개방형 구성 요소를 기반으로 하는 다재다능하고 가벼운 비전 언어 모델 (vision-language model, VLM)이다. 이미지와 텍스트를 모두 입력으로 받고 텍스트를 출력으로 생성하여 여러 언어를 지원한다. 이미지 및 짧은 비디오 캡션, 시각적 질문 답변, 텍스트 읽기, 객체 감지 및 객체 분할과 같은 광범위한 비전 언어 작업에서 동급 최고의 미세 조정 성능을 위해 설계되었다. Transformers PaliGemma 모델의 3B 가중치는 224*224 입력 이미지와 128 토큰 입력/출력 텍스트 시퀀스로 사전 학습되었다. 이 모델은 미세 조정을 위해 float32, bfloa.. 2024. 7. 30. [LLM] Llama 3 모델 Llama 3 Meta는 8 및 70B 크기의 사전 학습 및 instruction 튜닝된 생성 텍스트 모델 모음인 Meta Llama 3 대규모 언어 모델 (LLM) 제품군을 개발하여 출시했다. instruction 튜닝된 Llama 3 모델은 대화 사용 사례에 최적화되어 있으며 일반적인 업계 벤치마크에서 사용 가능한 많은 오픈 소스 채팅 모델보다 성능이 뛰어나다. 입력 모델은 텍스트만 입력하고, 출력 모델은 텍스트와 코드만 생성한다. Llama 3는 최적화된 트랜스포머 아키텍처를 사용하는 자동 회귀 언어 모델이다. 튜닝된 버전은 감독 미세 조정 (supervised fine-tuning, SFT)과 인간 피드백을 통한 강화 학습 (reinforcement learning with human feedba.. 2024. 7. 29. [Speech Recognition] 연결주의 시간 분류 (Connectionist Temporal Classification) 연결주의 시간 분류 (Connectionist Temporal Classification) 음성 인식에서 CTC (Connectionist Temporal Classification)는 단조 손실 (monotonic loss)이기 때문에 더 널리 사용되는 접근 방식이다. 시간 단계의 음성 특징은 t₁와 t₂ 시간 단계의 u₁와 u₂ 대상 토큰에 해당된다. 이 단조로운 속성은 ASR 모델의 훈련을 크게 단순화하고 수렴 (convergence) 속도를 높인다. 일반적으로 ASR은 시퀀스 간 예측 작업으로 설명할 수 있다. 원래 시퀀스는 오디오 시퀀스이다 (종종 멜 스펙트로그램으로 변환됨). 대상 시퀀스는 문자 (또는 하위 단어 토큰)의 시퀀스이다. Attention 모델은 동일한 시퀀스 간 예측 작업을 수행.. 2024. 7. 16. [Speech Recognition] 레거시 음성 모델 (Legacy Acoustic Model) 레거시 음성 모델 (Legacy Acoustic Model) 은닉 마코프 모델 (Hidden Markov Model)과 가우시안 혼합 모델 (Gaussian Mixture Model) 조합의 음향 모델 (Acoustic Model)은 딥러닝 기반의 엔드투엔드 (end-to-end) 모델들이 등장하기 전 비교적 강력한 성능을 자랑했던 기존 음성 인식 시스템에서 언어 모델 (Language Model)과 더불어 중요한 역할을 수행했던 컴포넌트이다. HMM (Hidden Markov Model) 은닉 마코프 모델 (Hidden Markov Model)에서는 일반적으로 상태 전이에 대한 제약을 두지 않는다. 하지만, 은닉 마코프 모델을 음성 인식에 적용할 때는 left-to-right 제약을 둔다. 다시 말해.. 2024. 7. 3. 자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition)이란 음성 신호(acoustic signal)를 단어(word) 혹은 음소 (phoneme) 시퀀스로 변환하는 시스템을 가리킨다. 자동 음성 인식 모델은 입력 음성 신호 X(x1, x2, ..., xt)에 대해 가장 그럴듯한 (likely) 음소/단어 시퀀스 Y(y1, y2, ..., yn)를 추정한다. 자동 음성 인식 모델의 목표는 P(Y∥X)를 최대화하는 음소/단어 시퀀스 Y를 추론 (inference)하는 데에 있다. 이를 식으로 표현하면 다음 수식과 같다. P(Y∥X)를 바로 추정하는 모델을 구축하는 것이 가장 이상적이다. 하지만 같은 음소나 단어라 하.. 2024. 7. 3. [Speech Recognition] 변환기 (Transducer) 변환기 (Transducer) 변환기는 에너지를 한 형태에서 다른 형태로 변환하는 장치이다. 일반적으로 변환기는 한 형태의 에너지 신호를 다른 형태의 신호로 변환한다. 변환기는 전기 신호가 다른 물리적 양으로 변환되거나 그 반대로 변환되는 자동화, 측정 및 제어 시스템의 경계에서 종종 사용된다. Transducer는 실시간 음성 인식 등 빠른 응답 속도를 요구하는 분야에 사용할 수 있는 Encoder, Decoder와 Joint Network 3개의 모듈로 구성된 구조이다. 음성에서 특징을 추출하는 Encoder, 글자에서 특징을 추출하는 Decoder와 앞선 두 특징을 결합해서 다음 글자를 예측하는 Joint Network로 구성되어 있다. import torchimport stringimport nu.. 2024. 6. 25. 영점 교차율 (Zero-crossing rate) 영점 교차율 (Zero-crossing rate) 다양한 음성 및 오디오 파형을 보면 내용에 따라 부드러움 (smoothness)이 많이 다르다는 것을 알 수 있다. 예를 들어, 유성음은 무성음보다 더 부드럽다. 따라서, 부드러움은 신호의 유익한 특성이다. 신호의 부드러움을 측정하는 매우 간단한 방법은 해당 신호 세그먼트 내에서 제로 크로싱 수를 계산하는 것이다. 음성 신호는 천천히 진동한다. 예를 들어, 100Hz 신호는 초당 0을 100 교차하는 반면 무성 마찰음은 초당 3000을 교차할 수 있다. 창에서 신호에 대한 제로 크로싱 구현은 다음과 같다. # static example of zero-crossingfrom ipywidgets import *import IPython.dis.. 2024. 4. 24. 자기 상관 관계 및 공분산 자기 상관 관계 및 공분산 음성 신호 세그먼트는 큰 규모에서 구조를 식별하기 어렵지만 작은 규모에서는 신호가 연속적으로 보인다. 음성 신호는 일반적으로 서로 시간적으로 가까운 샘플링이 진폭이 유사한 구조를 갖는다. 이러한 구조를 종종 단기 시간 구조라고 합니다. 보다 구체적으로, 신호 샘플은 이전 및 다음 샘플과 상관된다. 이러한 구조는 공분산 (covariance)과 상관 관계 (correlation)로 측정된 통계에 있으며, 평균이 0인 변수 x와 y에 대해 다음과 같이 정의된다. import numpy as npimport matplotlib.pyplot as pltfrom scipy.io import wavfileimport scipy# read from storagefilen.. 2024. 4. 24. 이전 1 2 3 4 다음 728x90 반응형 LIST