ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Module 2 - Acoustic characteristics of consonants
    음성 2023. 8. 16. 21:48

    Courses Speech Processing Module 2 – Acoustics of Consonants and Vowels Videos Acoustic characteristics of consonants

    https://speech.zone/courses/speech-processing/module-2-acoustics-of-consonants-and-vowels/videos-2/acoustic-characteristics-of-consonants/

     

    Acoustic characteristics of consonants

     

    speech.zone

    자음은 모음과 유사한 근사치(approximants)부터 성대(vocal tract)가 완전히 닫혀 무음(silence)에 이르는 다양한 말소리의 집합입니다. 음성 소리의 스펙트로그램 표현 세부 정보를 활용하면 파형만 보는 것보다 훨씬 더 정확하게 음성을 분류하고 설명할 수 있습니다. 이 비디오에서는 자음 소리를 정의하는 parameter(목소리, 위치, 방법)의 음향적(acoustic) 특성을 소개합니다.

    먼저 음성(voicing)부터 시작하겠습니다. 모든 speech sounds는 모두 유성음(voice) 또는 무성음(voiceless)으로 분류할 수 있습니다. 유성음 유무는 파형(waveform)과 스펙트로그램 모두에서 볼 수 있지만 몇 가지 다른 모양이 있습니다.
    일부 소리의 경우, 생성된 소리는 유성음입니다. 이러한 소리의 예로는 모음(vowels), 비음(nasals) 및 approximants이 있습니다. 때때로 모음은 이 범주에서 제외되지만, 이들을 함께 sonorants이라고 부를 수 있습니다. sonorants에서 음성은 파형의 주기적 구조, 스펙트로그램의 수직 줄무늬 또는 스펙트럼에서 명확하게 정의된 harmonics로 나타납니다. 예를 들어 "스캔하다"의 파형을 보면 [a] 모음의 시작부터 [ɪ] 모음이 끝날 때까지 유성음이 존재함을 알 수 있습니다. 파형의 세부 사항은 각 phone에 따라 달라지지만, 이 세 가지 소리 전체에서 유성음의 존재가 지속적으로 분명하게 드러납니다.

    스펙트로그램과 스펙트럼에서도 유성음을 확인할 수 있습니다. 스펙트로그램에서 유성음은 다소 일정한 간격의 수직 줄무늬로 나타납니다. 이러한 줄무늬는 기본 주파수에 따라 서로 가까워지거나 멀어질 수 있습니다. 줄무늬가 가까울수록 F0가 높고, 줄무늬가 넓을수록 F0가 낮음을 나타냅니다.

    스펙트럼을 보면 voiced wave의 harmonic 구조를 볼 수 있습니다. 여기에도 F0이 표시되어 있습니다. F0이 낮으면 harmonics의 간격이 좁아집니다. F0이 높으면 harmonics가 더 멀리 퍼집니다.
    파열음(plosives) 및 마찰음(fricatives)과 같은 다른 소리는 유성음을 사용하거나 사용하지 않고 생성할 수 있습니다. 이러한 소리는 obstruents이라고 불리며 sonorants와는 다른 모양을 갖습니다. 여기에는 두 모음 사이의 유성음에 대한 광대역 스펙트로그램이 있습니다. 이 경우 스펙트로그램에서 유성음은 스펙트로그램 하단의 저주파수 범위에서 음영으로 나타납니다. 이를 voice bar라고 하며 성대(vocal folds)가 진동할 때 나타납니다.

    이제 음향(acoustic) 표현에 나타나는 조음 방식을 고려해 조음 방식에 대해 살펴보겠습니다. 파형과 스펙트로그램 모두에서 가장 쉽게 식별할 수 있는 파열음(plosive)부터 시작하겠습니다.
    여기에는 무성 파열음의 파형과 스펙트로그램이 있습니다. 모든 stops과 마찬가지로 성대(vocal tract)의 수축을 반영하는 폐쇄음(closure)과 수축이 풀리는 것을 반영하는 noise burst의 두 부분으로 구성됩니다.
    여기서 스펙트로그램에서 낮은 에너지 영역을 볼 수 있습니다. 이는 폐쇄(closure)를 나타내며 파형에서도 진폭이 낮거나 0인 영역으로 볼 수 있습니다. 여기서도 닫힘이 끝날 때 voice bar가 없기 때문에 무성음 stop임을 알 수 있습니다. 폐쇄가 해제되면 스펙트로그램에서 파형의 스파이크와 전체 주파수 범위에 걸쳐 수직 에너지 대역을 볼 수 있습니다.

    무성음 정지는 때때로 흡기(aspirated), 즉 폐쇄가 해제된 후 강한 공기 분출을 동반합니다. 이 흡기 방출은 파형과 스펙트로그램 모두에서 볼 수 있습니다. 흡기성 정지(asprated stop)에서 방출(release) 부분은 유성 또는 무성 파열음보다 더 길고 강한 경향이 있습니다. 방출 파열(release burst)에는 약간의 난류성 노이즈가 동반되는데, 이것이 바로 우리가 말하는 '흡기(aspriation)'입니다. 여기서도 정지 폐쇄 동안 파형이나 스펙트로그램에 활동이 거의 없고 흡기를 동반한 강한 파열 방출(burst release)을 볼 수 있습니다.
    마찰음은 마찰 또는 난류 기류로 인해 발생하는 소리입니다. 일반적으로 이러한 난류 기류는 고주파 노이즈를 생성합니다. 마찰음은 종종 매우 크거나 진폭이 높으며, 스펙트로그램에서 넓은 주파수 범위에 걸쳐 에너지가 분산됩니다.

    여기에서 무성 치순 마찰음[f] (voiceless labiodental fricative), 무성 치간 마찰음[θ] (voiceless interdental fricative), 무성 치조 마찰음 (voiceless alveolar fricative), 무성 치조후 마찰음[ʃ](voice postalveolar fricative) 모음 앞의 노이즈를 볼 수 있습니다. 각각의 경우에 마찰음을 나타내는 diffuse 노이즈가 주파수 범위에 걸쳐 퍼져 있는 것을 볼 수 있습니다. 그러나 모든 마찰음이 동일하지는 않다는 것도 알 수 있습니다. [s]와 [ʃ]의 노이즈 진폭은 [f]와 [θ]의 노이즈 진폭보다 훨씬 높습니다. 따라서 귀에 더 두드러지고 더 잘 들립니다. 유성 마찰음에서 고주파 노이즈는 때때로 덜 뚜렷하게 나타나며 스펙트로그램에서 줄무늬 또는 파형에서 주기성으로 유성음의 증거를 볼 수도 있습니다.

    비음은 특정 조음 위치에서 입을 다물고 있지만 공기가 통과하면서 동시에 비강에서 공명한다는 점에서 정지음(stops)과 유사하게 만들어지는 소리입니다. 음성 소리가 나면 성대(vocal fold) 진동을 나타내는 줄무늬가 비강에 나타납니다. 여기에서 스펙트로그램의 수직선이 발성을 나타내는 것을 볼 수 있습니다. 또한 비음은 주변 모음에 비해 스펙트로그램에서 에너지가 낮습니다. 여기에서는 세 가지 비음의 스펙트로그램을 볼 수 있습니다: 양순[m](bilabial), alveolar[n] 및 연구개[ŋ](veloar). 각각의 경우 비강(nasal)이 닫히기 시작하자마자 모음 뒤에서 진폭이 급격히 떨어지는 것을 볼 수 있습니다.

    Approximants은 음향적으로 모음과 매우 유사한 소리입니다. 스펙트로그램에서 보이는 유성음 및 포먼트와 함께 생성되지만 일반적으로 모음보다 진폭이 낮으며, 이는 스펙트로그램의 파형과 음영에서 볼 수 있습니다. 또한 Approximants에서 모음으로 연속적으로 전환되는 것으로도 알 수 있으며 이중 모음과 유사하게 보일 수 있습니다.

    여기에는 순모음 근사치[w](labiovelar approximant)의 예가 있는데, 이 포먼트는 매우 낮은 위치에서 시작하여 모음[ɛ]으로 가파르게 전환되는 것을 볼 수 있습니다. 근사치에서 모음으로 가파르게 상승하는 것은 매우 일반적이지만 때로는 transition이 더 점진적일 수 있습니다. 이에 대한 예는 오른쪽에 있는 'yell'이라는 단어에서 볼 수 있습니다. 여기에는 [i]와 같은 조음에서 [ɛ]와 같은 조음으로 부드럽게 전환되는 palatal approximant가 있습니다.
    치조 근사치(alveolar approximants) [l]과 [ɹ]는 스펙트로그램에서 식별하기 어려운 경우가 많습니다. 이들은 인접 모음보다 진폭이 낮고 대부분의 에너지가 스펙트럼에서 낮다는 특징이 있습니다. 즉, 낮은 주파수 범위에 속합니다. 어떤 경우에는 비음처럼 치조 측면 근사치 [l] (alveolar lateral approximate) 과 인접 모음 사이에 갑작스러운 경계가 있을 수 있지만, 항상 신뢰할 수 있는 것은 아닙니다. alveolar approximant [ɹ]에서 우리는 종종 approximant에서 모음으로 세 번째 포먼트가 가파르게 상승하는 것을 볼 수 있습니다.alveolar approximant [ɹ]가 단어의 끝에서 발생하면 모음의 포먼트 구조에 영향을 주지만 스펙트로그램에서 뚜렷한 세그먼트로 나타나지 않는 "r-coloring"이라는 것이 종종 나타납니다.

    음향 신호(acoustic signal)는 또한 정지(stop) 및 마찰음의 조음 위치에 대한 단서를 제공합니다. 파열음의 경우, release burst와 vowel formant transitions은 모두 stop closure의 위치를 나타냅니다. 여기에는 양순 치조(bilabial alveolar)와 연구개(velar) stop의 스펙트로그램이 있습니다. 각각의 경우 파열음 뒤에 같은 모음 [a]가 뒤따르며, stop closure의 결과로 포먼트 구조의 변화를 볼 수 있습니다. 양순 파열음에서 처음 세 개의 포먼트는 모두 모음 품질 자체에 대해 예상되는 것보다 낮은 주파수에서 시작됩니다. 이들은 정상 상태에 도달할 때까지 stop closure에서 상승합니다.

    여기 치조 정지(alveolar stop)에서는 두 번째와 세 번째 포먼트가 안정적으로 유지됩니다. 이것은 미묘하고 때때로 발견하기 어려울 수 있지만 bilabial stop 내 구조 변화입니다.
    velar stop은 종종 두 번째와 세 번째 포먼트가 함께 이동하는 포먼트 이동이 특징입니다. 두 번째 포먼트는 상당히 높고 세 번째 포먼트는 이를 맞추기 위해 아래로 이동할 수 있습니다. 이 포먼트 구조를 "velar pinch"라고 하며, 이 구조가 보이면 velar closure을 알 수 있습니다.
    또한 음향 정보를 바탕으로 마찰음에서 조음 위치를 구분할 수도 있습니다. 이를 위한 일반적인 방법은 마찰음이 주파수 범위에서 어디에 집중되어 있는지 파악하는 것입니다. 치조 마찰음(alveolar fricative)은 5~10만 헤르츠 사이에 에너지가 집중되어 있고 진폭이 매우 높은 경향이 있습니다. 치조 후 마찰음(post alveolar fricative) [ʃ]는 에너지가 3~5천 헤르츠 사이에 집중되는 경향이 있으며 진폭도 다소 높습니다. 이와 대조적으로 순순치 마찰음(labial dental fricative)은 에너지가 매우 약하거나 진폭이 낮으며 이 에너지는 3~4천 헤르츠의 중앙에 위치합니다. 치간 마찰음(interdental fricatie) [θ]도 마찬가지로 에너지가 약하지만 에너지 집중도는 약 8000헤르츠입니다. 또한 마찰음과 관련하여 모음 포먼트 전환을 볼 수 있지만, 이는 stops보다 신뢰성이 떨어질 수 있습니다.

    Consonants are a diverse set of speech sounds ranging from vowel-like approximants to complete closure of the vocal tract with silence. By utilizing the detail available to us in spectrographic displays of speech sounds, we are able to categorize and describe speech with far more accuracy than we could with waveforms alone. This video will present the acoustic characteristics of the parameters that define consonant sounds (voice, place, and manner).
    First we’ll begin with voicing. All speech sounds can all be categorized as voiced or voiceless. The presence or absence of voicing is visible in both the waveform and the spectrogram, though it has a few different appearances.
    For some sounds, the typical production of some sounds is voiced. Examples of these sounds are vowels, nasals, and approximants. Together we can refer to them as sonorants, although sometimes the vowels are left out of this category. In sonorants, voicing is apparent in the periodic structure of the waveform, vertical striations in the spectrogram, or as clearly defined harmonics in the spectrum. In the waveform of “scan it” for example, we can see that voicing is present from the start of the [a] vowel through the end of the [ɪ] vowel. The particulars of the waveform changes with each phone, but the presence of voicing is continuously evident throughout these three sonorant sounds.
    We can also see voicing in the spectrogram and spectrum. In the spectrogram, voicing is apparent as vertical striations at more or less regularly spaced intervals. These striations
    may be closer together or farther apart, depending on the fundamental frequency. Close striations indicates a higher F0, and wider striations indicates a lower F0.

    If we look at the spectrum, we can see the harmonic structure of the voiced wave. Here again we have an indication of F0. When F0 is low, the harmonics are closely spaced. If the F0 is high, the harmonics will be spread further apart.
    Other sounds, such as plosives and fricatives, may be produced either with voicing or without it. These sounds are called obstruents and have a different appearance from the sonorants. Here we have a broadband spectrogram, of a voiced sound between two vowels. In this case, voicing appears in the spectrogram as shading in the low frequency range at the bottom of the spectrogram. This is called the voice bar and is present when the vocal folds are vibrating.


    We’ll now move on to manners of articulation, considering their appearance in acoustic representations. We’ll start with plosives, which are perhaps the most straightforward to identify in both the waveform and the spectrogram.
    Here we have a waveform and spectrogram of a voiceless plosive. Like all stops, it is made up of two parts: a closure, reflecting the constriction of the vocal tract, and a noise burst reflecting release of that constriction.
    Here we can see a region of low energy in the spectrogram. This is an indication of closure and is also visible in the waveform as a region of low or zero amplitude. Here we can also see that this is a voiceless stop due to the lack of voice bar near the end of closure. At the release of the closure we can see a spike in the waveform and a vertical band of energy across the entire frequency range in the spectrogram.
    Voiced plosives are similar to voiceless in that they involve a closure of the vocal tract, however, we can see that they are voiced due to the presence of the voicebar during that closure, as well as. We also notice that the burst release tends to be less clearly visible in the spectrogram than it was in the voiceless stop.
    Voiceless stops are sometimes aspirated, that is, accompanied by a strong puff of air after the release of the closure. This aspirated release is visible in both the waveform and spectrogram. In aspirated stops, the release portion tends to be longer and stronger than in either voiced or voiceless plosives. The release burst is also accompanied by a bit of turbulent noise -- this is the “aspiration” that we speak of. Here again we see virtually no activity in the waveform or the spectrogram during the stop closure, and a strong burst release accompanied by aspiration.
    Fricatives are sounds that are produced with frication, or turbulent airflow. In general, this turbulent airflow generates high frequency noise. Fricatives are often very loud, or high amplitude, and their energy will be dispersed over a broad frequency range in the spectrogram.
    Here we can see voiceless labiodental fricative [f], voiceless interdental fricative [θ], voiceless alveolar fricative, and voiceless postalveolar fricative [ʃ] preceding vowels. In each case, we can see some diffuse noise spread across the frequency range, indicating frication. However we can also see that not all fricatives are the same. The amplitude of the noise in [s] and [ʃ] is much higher than that of [f] and [θ]. This makes them more salient to the ear and more easy to hear. In voiced fricatives the high frequency noise is sometimes less apparent and we can also see evidence of voicing as striations in the spectrogram or sometimes periodicity in the waveform.
    Nasals are sounds that are produced similar to stops in that the mouth is closed at some place of articulation but air is allowed to pass through and resonate in the nasal cavity at the same time. As voice sounds nasals will feature the striations indicative of vocal fold vibration. Here we can see the vertical lines in the spectrogram indicating voicing. Nasals will also have low energy in the spectrogram compared to the surrounding vowels. Here we see spectrograms of three nasals: bilabial [m] alveolar [n] and velar [ŋ]. In each case we can see that the amplitude drops off sharply after the vowel as soon as the nasal closure begins.
    Approximants are sounds that are acoustically very similar to vowels. They are produced with visible voicing and formants in the spectrogram however they typically have lower amplitude than vowels, which is visible in the waveform and in the shading of the spectrogram. They will also be apparent by their continuous transitions from approximant to vowel and may look similar to diphthongs.
    Here we have an example of a labiovelar approximant [w], and we can see that the formants start off in a very low position and then transition steeply into the vowel [ɛ]. This steep rise from the approximant into the vowel is quite typical, though sometimes the transition can be more gradual. An example of this is visible on the right where we see the word yell. Here we have a palatal approximant transitioning smoothly from an articulation quite like [i] to that of [ɛ].
    The alveolar approximants [l] and [ɹ] are often difficult to identify in a spectrogram. They will be characterized by lower amplitude than the adjacent vowels and most of their energy will be low in the spectrum. That is, in the low frequency range. In some cases there may be an abrupt boundary between the alveolar lateral approximate [l] and the adjacent vowels, much like a nasal, though this is not always reliable. In the alveolar approximant [ɹ] we often see a steep rise of the third formant out of the approximant into the vowel. When the alveolar approximant [ɹ] occurs at the end of a word, we often get something called “r-coloring” which affects the formant structure of the vowel but does not appear as a distinct segment in the spectrogram.
    The acoustic signal also gives us clues to the place of articulation of stops and fricatives. In plosives, both the release burst and the vowel format transitions will offer indications of the place of the stop closure. Here we have spectrograms of bilabial alveolar and velar stops. In each case the plosives are followed by the same vowel [a], and we can see changes in the formant structure as a result of the stop closure. In the bilabial plosive the first three formants all start at lower frequencies than would be expected for the vowel quality itself. They will rise out of the stop closure until they reach their steady state.
    In the alveolar stop here the second and third formants remain steady. This is a change in structure from the bilabial stop though it is subtle and sometimes may be difficult to spot.
    Velar stops are often characterized by format movement that brings the second and third formants together. The second format will be quite high and the third formant may move down to meet it. This formant structure is known as the “velar pinch” and is a dead giveaway for a velar closure if you see it.
    We can also distinguish place of articulation in fricatives based on the acoustic information. A common way to do this is to identify where the frication noise is concentrated in the frequency range. The alveolar fricative [s] tends to have energy concentrated between five and ten thousand hertz and have a very high amplitude. The post alveolar fricative [ʃ] will tend to have its energy concentrated between three and five thousand hertz and also have rather high amplitude. In contrast, the labial dental fricative has very weak energy or low amplitude and this energy is centered between three and four thousand hertz. The interdental fricative [θ] similarly has weak energy but its energy concentration is around 8000 hertz. We can also sometimes see vowel formant transitions in relation to fricatives though these may be less reliable than in stops.

    '음성' 카테고리의 다른 글

    Module 2 - Vowel Space  (0) 2023.08.16
    Module 2 - Voice Onset Time (VOT)  (0) 2023.08.16
    Module 2 - Acoustic characteristics of vowels  (0) 2023.08.16
    Module 2 - Spectrogram  (0) 2023.08.16
    Module 2 - Spectrum  (0) 2023.08.16

    댓글

Designed by Tistory.