본문 바로가기
Linguistic Intelligence/Audio Processing

[Audio Processing] 시스템 구조 (Systems structures)

by goatlab 2023. 6. 15.
728x90
반응형
SMALL

전송 및 저장 (Transmission and storage)

 

 

음성 전송 시스템 (speech transmission systems)의 목적은 가능한 한 적은 비트 (bits)로 신호를 압축 (compress)하는 동시에 출력 음질 (sound quality)을 가능한 한 좋게 유지하는 것이다. 이를 위해서는 도입하는 degradations가 지각적 영향 (perceptual influence)이 가능한 한 작도록 선택되어야 한다. 다시 말해, 청취자 (listener)가 신호가 저하된 것을 알아차리지 못하게 하거나 가능한 한 적게 알아차리게 하기를 원치 않는다. 그림에서 송신자 측 (sender side)의 인코더에서 신호가 어떻게 양자화되는지 결정하는 지각적 중요성 모델을 가지고 있다. 그런 다음 양자화된 신호는 가능한 한 적은 비트로 압축된다. 이러한 압축을 위해 음성 신호에 대한 통계적 정보를 사용한다. 수신 측 (receiving side)의 디코더는 압축 해제와 역양자화 (dequantization)를 통해 단계를 역전한다. 사전 처리 작업에는 일반적으로 소음 감소 (noise attenuation) 및 음성 활동 감지가 포함된다.

 

정보 추출 (Information extraction)

 

 

음성 신호에서 텍스트 콘텐츠 (text content)와 화자 인식 (speaker identity)과 같은 많은 유형의 정보를 추출할 수 있다 . 이러한 많은 형태의 정보는 레이블 (labels)로 분류할 수 있다. 즉, 특정 음성 신호에 레이블을 지정한다. 해당 레이블은 예를 들어 발음된 단어나 화자 인식이 될 수 있다. 또는 이러한 추출된 정보는 화자의 나이 또는 기분과 같이 연속적인 값이 될 수 있지만 두 유형의 정보를 모두 레이블로 처리할 수 있다. 이러한 정보 추출 방법은 오늘날 주로 머신 러닝 방법이다. 전형적인 시스템은 음성 데이터베이스와 해당 레이블로 오프라인에서 학습된다. 시스템이 학습되면 음성 입력에서 레이블을 도출하는 방법을 "알게" 되어 모델을 실제로 사용 (적용)할 때 입력 음성을 분류하여 레이블을 추정할 수 있다. 많은 경우, 정보 추출은 신호 처리 작업으로 구현될 수도 있는데, 여기서 신호에 대한 사전 지식을 사용하여 알고리즘을 고안한다. 예를 들어, 음성 신호의 기본 주파수 (pitch, 피치)를 추정하기 위해, 지식을 사용하여 효율적인 알고리즘을 고안할 수 있다. 이러한 알고리즘은 일반적으로 머신 러닝 방법보다 훨씬 간단하지만, 작업이 복잡하면 출력의 정확도가 그에 따라 떨어진다.

728x90
반응형
LIST

'Linguistic Intelligence > Audio Processing' 카테고리의 다른 글

캡스트럼 (Cepstrum)  (0) 2024.03.20
오디오 데이터 처리  (2) 2024.03.06
소리 및 파형  (0) 2024.03.06
[Audio Processing] librosa specshow  (0) 2023.07.05
[Audio Processing] 말 (Speech)  (0) 2023.03.09