728x90 반응형 SMALL Linguistic Intelligence38 음성 신호에서 스펙트로그램 해석 음성 신호에서 스펙트로그램 해석 스펙트로그램 (또는 로그 크기 스펙트로그램)은 음성 신호의 효과적인 시각화이다. 스펙트로그램을 보면 고조파 구조 (harmonic structure), 시간적 사건 (temporal events), 음형대 (formants) 등 음성 신호의 가장 중요한 속성 중 다수를 볼 수 있다. # Initializationimport matplotlib.pyplot as pltfrom scipy.io import wavfileimport scipyimport scipy.fftimport numpy as npimport librosaimport librosa.displayimport IPython.display as ipdspeechfile = 'sample... 2024. 4. 24. 단시간 푸리에 변환 (STFT) 단시간 푸리에 변환 (Short-Time Fourier Transform) 피치 (Pitch)는 높거나 낮은 음조가 무엇을 의미하는지 음조의 주파수에 대한 사람의 인식을 나타낸다. 신호의 푸리에 스펙트럼은 이러한 주파수 내용을 나타낸다. 이는 신호를 시각적으로 검사할 수 있기 때문에 스펙트럼을 작업하기에 직관적인 영역으로 만든다. 실제로, 이산 시간 신호를 사용하여 해당 시간-주파수 변환이 이산 푸리에 변환이 되도록 작업한다. 이는 길이 신호 X를 다음과 같이 N 계수의 복소수 값 주파수 영역 표현으로 매핑한다. 실수 값 입력의 경우 양수 및 음수 주파수 구성 요소는 서로의 복소 공액 (complex conjugates)이므로 고유한 정보 단위를 유지한다. 그러나 스펙트럼은 복소수 벡터이므로 시각화하기가.. 2024. 4. 23. Sound Energy 신호 에너지 신호 에너지란 일반적으로 신호의 분산 (variance)을 의미하며, 이는 신호 x의 평균이 평균인 평균 제곱 편차 (average squared deviation)이다. x를 진자 (pendulum)의 변위 (displacement)로 해석하면 분산은 에너지의 척도다. 진동 신호의 진폭은 진동 기간에 따라 달라지므로 일반적으로 순간 에너지 (instantaneous energy)를 추정하는 것은 의미가 없으며 일부 창에 대한 평균만 계산된다. 그러나 윈도우 함수는 평균 에너지를 감소시키고 (신호에 1보다 작은 양을 곱함) 절대 에너지 추정이 필요한 경우 수정해야 하는 편향 (bias)을 도입한다. 그러나 일반적으로 편향은 데이터 세트 전체에서 일관되며 무시할 수 있다. 일반적인 에너지 추정.. 2024. 4. 23. 윈도우 기법 (Windowing) 윈도우 기법 (Windowing) 음성 문장은 일련의 음소 (phonemes)다. 따라서, 음성 신호는 성격이 시변적 (time-variant)이다. 따라서 신호에서 정보를 추출하려면 신호를 충분히 짧은 세그먼트로 분할해야 한다. 즉, 경험적으로 말하면 각 세그먼트에는 하나의 음소만 포함된다. 즉, 음성 신호의 속성이 해당 세그먼트 내에서 시간 변화를 갖지 않을 만큼 충분히 짧은 세그먼트를 추출해야 한다. 윈도우 기법은 신호 처리의 고전적인 방법으로, 입력 신호를 시간적 세그먼트로 분할하는 것을 의미한다. 그러면 세그먼트의 경계가 실제 신호와 일치하지 않는 불연속성으로 표시된다. 신호의 통계적 속성에 대한 분할의 영향을 줄이기 위해 시간 세그먼트에 윈도우 기법을 적용한다. 윈도우 함수는 경계에서 0으로 .. 2024. 4. 17. [Prompt Engineering] Langchain Langchain LangChain은 LLM을 활용한 애플리케이션 개발을 단순화하기 위해 설계된 오픈 소스 프레임워크이다. 다양한 LLM과 상호 작용하고, 여러 모델을 연결하여 복잡한 AI 어플리케이션을 구축하는 데 도움을 주는 도구이다. 주로 LLM 자체를 개발하는 것보다는 만들어진 LLM을 사용하여 여러 텍스트 분석 기능, 챗봇 개발 등에 사용된다. 개발 환경 설치 pip install langchain langchain-google-genai langchain-community langchainhub langchain-chroma bs4 API 설정 API 키는 https://aistudio.google.com/app/apikey에서 발급받는다. 다만, 5월 2일부터 유료화 예정이다. import .. 2024. 4. 16. 파형 (Waveform) 파형 (Waveform) 음성 신호는 공기를 통해 이동하는 압력 변화 ( pressure variations)로 정의되는 소리 신호다. 압력의 이러한 변화는 파동으로 설명될 수 있고 그에 따라 종종 음파 (sound waves)라고 불린다. 현재, 주로 디지털 시스템에서 그러한 파형의 분석과 처리는 항상 음향 음성 신호가 마이크에 의해 캡처되어 디지털 형태로 변환되었다고 가정할 것이다. 그런 다음 음성 신호는 시간 순간의 상대 기압을 나타내는 일련의 숫자 xn으로 표시다. 이 표현은 종종 PCM으로 약칭되는 펄스 부호 변조 (pulse code modulation)로 알려져 있다. 그런 다음 이 표현의 정확성은 두 가지 요인에 의해 지정된다. 샘플링 주파수 n와 n+1 사이의 시간 단계 xn의 정확성과 .. 2024. 3. 27. Mel-Frequency Cepstral Coefficients (MFCC) Mel-scale 사람 달팽이관 특성을 고려한 값을 Mel-scale이라고 한다. Mel-scale은 톤과 톤 사이의 단계가 사람이 인식하는 단계와 일치하도록 주파수를 매핑하는 척도 (scale)이다. 즉, 예를 들어 X에서 X+1 멜까지의 단계는 Y에서 Y+1 멜까지의 단계만큼 크게 들린다. 삼각형 중심이 멜 음계에서 동일한 거리 단계에 해당하는 주파수에 위치하도록 필터 뱅크 (filter bank)를 형성한다. def freq2mel(f): return 2595*np.log10(1 + (f/700))def mel2freq(m): return 700*(10**(m/2595) - 1)f = np.linspace(0,8000,1000)plt.plot(f/1000,freq2mel(f))plt.xlabel('.. 2024. 3. 20. 캡스트럼 (Cepstrum) 스펙트로그램 (Spectrogram) 스펙트로그램은 음성 신호의 많은 관련 특징을 효과적으로 시각화한다는 점에서 음성을 표현하는 데 유용하다. 특히, 시간 경과에 따른 이벤트, 기본 주파수의 변화, 스펙트럼 포락선 (spectral envelope)의 일부 특징을 관찰할 수 있다. 하지만 단점도 있다. 스펙트럼은 원하는 정보의 양에 비해 많은 수의 계수 (coefficients)를 가지고 있기 때문에 계수 수 측면에서 특별히 효율적인 표현이 아니다. 일반적으로 포먼트 (formant)의 위치와 진폭에 대한 정보를 원하는데, 이는 몇 개의 계수로 표현할 수 있다. 마찬가지로 기본 주파수는 하나의 정보에 불과하지만 수많은 주파수 성분에 숨겨져 있다. 캡스트럼 (Cepstrum) 예를 들어, 음성 신호의 많은.. 2024. 3. 20. 오디오 데이터 처리 Python 라이브러리 import import pandas as pd import numpy as np import matplotlib.pylab as plt import seaborn as sns import librosa import librosa.display import IPython.display as ipd from glob import glob from itertools import cycle sns.set_theme(style="white", palette=None) color_pal = plt.rcParams["axes.prop_cycle"].by_key()["color"] color_cycle = cycle(plt.rcParams["axes.prop_cycle"].by_key()["c.. 2024. 3. 6. 소리 및 파형 소리 (Sound) 소리는 물체의 진동 (vibration)에 의해 발생한다. 진동은 공기 분자를 진동시킨다 (oscillate). 기압의 변화가 파동을 일으킨다. 기계적 파동 (Mechanical wave) 공간을 이동하는 진동이다. 한 지점에서 다른 지점으로 이동하는 에너지이며 매체가 변형된다. 파형 (Waveform) 파형은 다인자 (multifactorial) 정보를 전달한다. 주파수 (Frequency)강도 (Intensity)음색 (Timbre) 주기적 (periodic) 및 비주기적 (aperiodic) 소리의 파형은 다음과 같다. 주파수 및 진폭 (Frequency and amplitude) 주파수가 높을수록 더 높은 소리가 되며, 진폭이 클수록 크게 들린다. Pitch 음높이 (.. 2024. 3. 6. 이전 1 2 3 4 다음 728x90 반응형 LIST