728x90 반응형 SMALL MFCC4 자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition) 자동 음성 인식 (Automatic Speech Recognition)이란 음성 신호(acoustic signal)를 단어(word) 혹은 음소 (phoneme) 시퀀스로 변환하는 시스템을 가리킨다. 자동 음성 인식 모델은 입력 음성 신호 X(x1, x2, ..., xt)에 대해 가장 그럴듯한 (likely) 음소/단어 시퀀스 Y(y1, y2, ..., yn)를 추정한다. 자동 음성 인식 모델의 목표는 P(Y∥X)를 최대화하는 음소/단어 시퀀스 Y를 추론 (inference)하는 데에 있다. 이를 식으로 표현하면 다음 수식과 같다. P(Y∥X)를 바로 추정하는 모델을 구축하는 것이 가장 이상적이다. 하지만 같은 음소나 단어라 하.. 2024. 7. 3. Mel-Frequency Cepstral Coefficients (MFCC) Mel-scale 사람 달팽이관 특성을 고려한 값을 Mel-scale이라고 한다. Mel-scale은 톤과 톤 사이의 단계가 사람이 인식하는 단계와 일치하도록 주파수를 매핑하는 척도 (scale)이다. 즉, 예를 들어 X에서 X+1 멜까지의 단계는 Y에서 Y+1 멜까지의 단계만큼 크게 들린다. 삼각형 중심이 멜 음계에서 동일한 거리 단계에 해당하는 주파수에 위치하도록 필터 뱅크 (filter bank)를 형성한다. def freq2mel(f): return 2595*np.log10(1 + (f/700))def mel2freq(m): return 700*(10**(m/2595) - 1)f = np.linspace(0,8000,1000)plt.plot(f/1000,freq2mel(f))plt.xlabel('.. 2024. 3. 20. 캡스트럼 (Cepstrum) 스펙트로그램 (Spectrogram) 스펙트로그램은 음성 신호의 많은 관련 특징을 효과적으로 시각화한다는 점에서 음성을 표현하는 데 유용하다. 특히, 시간 경과에 따른 이벤트, 기본 주파수의 변화, 스펙트럼 포락선 (spectral envelope)의 일부 특징을 관찰할 수 있다. 하지만 단점도 있다. 스펙트럼은 원하는 정보의 양에 비해 많은 수의 계수 (coefficients)를 가지고 있기 때문에 계수 수 측면에서 특별히 효율적인 표현이 아니다. 일반적으로 포먼트 (formant)의 위치와 진폭에 대한 정보를 원하는데, 이는 몇 개의 계수로 표현할 수 있다. 마찬가지로 기본 주파수는 하나의 정보에 불과하지만 수많은 주파수 성분에 숨겨져 있다. 캡스트럼 (Cepstrum) 예를 들어, 음성 신호의 많은.. 2024. 3. 20. 호흡 관련 소음 음향 분석 (2) Pitch 음성 신호 분석에서 피치는 초과 시간의 기본 주파수의 과정을 나타낸다. 따라서 피치는 코골이 이벤트 기간 동안 기본 주파수의 과정을 설명하는 데 사용할 수 있다. 원발성 코골이와 OSA 관련 코골이를 구별하기 위한 피치 분석은 여러 출판물에 설명되어 있다. OSA가 있는 코골이와 없는 코골이의 구별은 코골이 소리의 기본 주파수의 안정성을 기반으로 입증되었다. 피치 불연속성 (코골이 이벤트 내에서 기본 주파수의 점프)도 OSA 관련 코골이를 나타낸다. 음압 레벨 (Sound pressure level) 음압 레벨 (SPL)은 코골이를 정량화하기 위해 수많은 연구에서 사용되었다. 예를 들어, SPL과 RDI 사이의 관계는 1000명 이상의 대상으로 구성된 대규모 집단에서 나타났다. 코골이의 절대 .. 2022. 5. 6. 이전 1 다음 728x90 반응형 LIST