-
Module 2 - Spectrum음성 2023. 8. 16. 21:43
Courses Speech Processing Module 2 – Acoustics of Consonants and Vowels Videos Spectrum
Spectrum
speech.zone
파동의 복잡성은 소리의 질(quality)에 대한 우리의 경험에 기여합니다. 이러한 복잡도(complexity)의 차이는 파형에서 볼 수 있지만 특정하기는 다소 어렵습니다. 예를 들어, 여기에는 세 가지 모음(vowel)의 파형이 있습니다. 각 모음은 거의 동일한 F0으로 생성되었지만 복잡도 측면에서 다른 모음과 다릅니다.
시각화에서 시간(time) 차원을 제거하고 대신 component wave의 주파수(frequency)와 진폭(amplitude)을 살펴보면 이 복잡성(complexity)의 구조를 더 잘 이해할 수 있습니다. complex wave는 적어도 두 개의 성분 사인파(sine wave)로 구성되어 있다는 것을 알고 있습니다. 그러나 파형만으로는 이러한 component wave의 주파수와 진폭이 무엇인지 쉽게 파악할 수 없습니다.
이를 결정하기 위해 푸리에 변환(Fourier transform)이라는 수학적 프로세스를 사용합니다. 이 과정은 프리즘이 백색광을 다양한 파장(wavelength)으로 쪼개는 것과 다소 유사합니다. 오른쪽에는 complex wave를 빨간색으로, 각 구성 요소인 simple wave를 파란색으로 시각화한 그림이 있습니다. 각 simple wave는 눈금(scale)의 적절한 지점에서 주파수 축(axis)을 따라 수직선으로 표시되며, 진폭은 해당 선의 높이로 표시됩니다.
모든 simple wave가 동일한 형태, 즉 사인파(sine wave)로 설명되면 시간 차원을 제거하여 complex wave의 각 component wave를 진폭과 주파수만으로 나타낼 수 있습니다. 이것이 바로 우리가 complex wave의 스펙트럼을 볼 때 표현하는 것입니다. 다음은 5개의 주파수 성분으로 구성된 complex wave의 선형 스펙트럼(line spectrum)의 예입니다.
이러한 각 component wave의 모양을 추적하면 'spectral envelope'라고 하는 것이 생성됩니다. 이 envelope의 정확한 모양은 component wave의 진폭과 이를 도출하는 데 사용된 방법에 따라 달라집니다.
speech sound는 매우 복잡하기 때문에 스펙트럼도 지금까지 보았던 선 스펙트럼(line spectra)보다 더 복잡합니다. 이 구조는 복잡한 음원(sound source), 즉 음성(voice)이 필터인 성대를 거쳐 형성된 결과입니다. 이 두 가지 구성 요소가 합쳐져 스펙트럼의 구조가 만들어집니다. 음원은 harmonic structure 구조에 기여하고 성대의 모양은 spectrum envelope의 전체 모양에 기여하여 포먼트(formant)라고 하는 결과를 낳습니다.
음성 원천(source) 특성은 기본 주파수와, 이와 관련된 harmonics입니다. 이러한 harmonics는 스펙트럼에서 서로 등거리(equidistant)에 있는 주파수 성분(frequency components)의 배열(array)로 표시됩니다. 이러한 주파수 구성 요소를 harmonics라고 합니다.
harmonics는 첫 번째 harmonic인 H1부터 순차적으로 번호가 매겨집니다. 이 가장 낮은 harmonic H1은 harmonics series의 기본 주파수, 즉 F0이기도 합니다. H1 이상의 harmonics는 H1의 모든 정수 배수입니다. 따라서 H2는 H1의 2배, H3은 H1의 3배입니다.
주파수 눈금(scale)의 왼쪽에 있는 낮은(low) harmonics는 주파수 눈금의 오른쪽에 있는 high harmonics보다 진폭이 더 큰 경향이 있습니다. 이 패턴은 harmonics를 증폭하거나 감쇠시키는 포먼트의 존재 여부에 따라 변조됩니다.필터는 스펙트럼의 주파수 영역을 증폭하거나 감쇠시킴으로써 후두(larynx)에서 나오는 complex wave를 만듭니다. 필터에 의해 증폭되는 주파수 범위를 포먼트(formant)라고 하며 모음 품질을 설명하는 데 중요합니다. 일반적으로 낮은 주파수의 진폭이 전반적으로 더 높은 패턴을 갖기 때문에 harmonics의 진폭이 예상보다 높거나 낮은 주파수 범위를 찾으면 필터가 스펙트럼에 미치는 영향을 확인할 수 있습니다. 이 경우 약 7~800헤르츠의 주파수 범위가 증폭되고 12~1300헤르츠 범위도 증폭됩니다. 이것이 각각 첫 번째와 두 번째 포먼트입니다.
포먼트는 harmonics와 마찬가지로 F1부터 순차적으로 번호가 매겨집니다. 그러나 harmonics와 달리 스펙트럼에서 포먼트 주파수 간에는 예측 가능한 관계가 없습니다. 대신 성대(vocal tract)의 조음기(articulator)의 크기, 모양 및 위치와 같은 물리적 특성에 의해 결정됩니다. 또한 F0은 포먼트가 아니라는 점에 유의하는 것이 중요합니다.
앞서 harmonics를 살펴볼 때 보았듯이 기본 주파수 또는 F0은 첫 번째 harmonics H1과 동일하며 complex wave에서 구성 요소의 최대 공통 분모(common denominator)입니다. harmonics는 이 기본 주파수의 정수 배수입니다. 포먼트는 F0과 직접적인 관계가 없으므로 harmonics 계열과 혼동해서는 안 됩니다.
지금까지 periodic complex wave의 스펙트럼 특성을 살펴보았지만 주기적 파동에도 스펙트럼이 있습니다. 주기적 음(periodic sound)과 달리 비주기적 음(aperiodic sound)의 스펙트럼은 평평합니다. harmonics도 없고 기본 주파수도 없으며 다양한 component wave의 진폭이 고 주파수에서 감소하지 않습니다. 이는 주기적 음(periodic sound) 과 달리 비주기적 음(aperiodic sound)의 진동 패턴이 무작위이기 때문입니다. 패턴이나 구조가 없으므로 스펙트럼 안에 예측 가능한 주파수 모양이 없습니다.The complexity of a wave contributes to our experience of the quality of the sound. These differences in complexity are visible in the waveform, but somewhat difficult to characterize. For example, we see here waveforms of three different vowels. Each of these vowels was produced with roughly the same F0, but differs from the others in terms of complexity.
We can get a better sense of the structure of this complexity by removing the time dimension from our visualization, and instead look at the frequency and amplitude of the component waves. We know that complex waves are made up of at least two component sine waves. However, we cannot easily determine from the waveform what the frequency and amplitudes of those component waves are.
To determine that, we use a mathematical process called the Fourier transform. This process is somewhat analogous to a prism breaking white light into its various wavelengths. Here, we have a visualization of a complex wave in red on the right, and each of its component simple waves in blue. Each simple wave appears as a vertical line along the frequency axis at the appropriate spot on the scale, with the amplitude represented by the height of that line.
Once all simple waves are described by the same form, that is, a sine wave, we can represent each component wave of a complex wave in terms of its amplitude and frequency alone, eliminating the time dimension. This is what we are representing when we look at the spectrum of a complex wave. Here is an example of a line spectrum of a complex wave made up of five frequency components.
If we trace the shape of each of these component waves, we create what is called the spectral envelope. The precise shape of this envelope depends on the amplitudes of the component waves, as well as the method used to derive it.
Because speech sounds are highly complex, the spectrum is also more complex than the line spectra that we have seen thus far. This structure is the result of a complex sound source, that is, the voice, passing through and being shaped by the filter, the vocal tract. These two components together result in the structure of the spectrum. The voice source contributes the harmonic structure, while the shape of the vocal tract contributes to the overall shape of the spectral envelope, resulting in what are known as formants.
The source characteristics are the fundamental frequency and its associated harmonics. These harmonics are represented as an array of frequency components which are equidistant from one another in the spectrum. These frequency components are known as the harmonics.
They are numbered sequentially starting with the first harmonic, H1. This lowest harmonic, H1, is also the fundamental frequency of the harmonic series, or F0. The harmonics above H1 are found at every integer multiple of H1. So H2 is 2 times H1. H3 is 3 times H1 and so on.
Lower harmonics on the left side of the frequency scale tend to have a higher amplitude than higher harmonics on the right side of the frequency scale. Though this pattern is modulated by the presence or absence of formants, which amplify or dampen the harmonics.
The filter shapes the complex wave that emerges from the larynx by amplifying or dampening frequency regions of the spectrum. Frequency ranges that are amplified by the filter are called formants and are important for the description of vowel quality. We can see the effect of the filter on the spectrum by looking for frequency ranges where the harmonics are higher or lower in amplitude than we would expect, given the general pattern for lower frequencies to have higher amplitudes overall. In this case, the frequency range of about 7 to 800 hertz is amplified, as is the 12 to 1300 hertz range. These are the first and second formants respectively.
Similar to harmonics, formants are numbered sequentially starting with F1. Unlike harmonics, however, there is no predictable relationship between the format frequencies in the spectrum. Instead, they are determined by the physical properties, such as the size, shape, and position of the articulators of the vocal tract. It is also important to note that F0 is not a formant.
As we saw before when we looked at the harmonics, the fundamental frequency or F0 is the same as the first harmonic, H1, and is the greatest common denominator of the components in a complex wave. The higher harmonics are integer multiples of this fundamental frequency. The formants bear no direct relationship to F0 and should not be confused with the harmonic series.
So far we've been considering characteristics of the spectrum of periodic complex waves, but a periodic waves also have a spectrum. Unlike periodic sounds, the spectra of A periodic sounds are flat. There are no harmonics, no fundamental frequency, and the amplitudes of the various component waves do not decrease at higher frequencies. This is because, unlike periodic sounds, the vibratory pattern in an A periodic sound is random. There is no pattern, no structure, and therefore no predictable shape of the frequencies in the spectrum.'음성' 카테고리의 다른 글
Module 2 - Acoustic characteristics of vowels (0) 2023.08.16 Module 2 - Spectrogram (0) 2023.08.16 Module 2 - Types of waveform (0) 2023.08.16 Module 2 - Waveform (0) 2023.08.16 Module 1 - Introduction to the IPA (0) 2023.08.07