Module 3 - Sound source
Speech Processing>Module 3>Digital Speech Signals>Videos>Sound source
https://speech.zone/courses/speech-processing/module-3-digital-speech-signals/videos-2/sound-source/
Sound source
speech.zone
우리는 이미 파형(waveform)을 통해 시간 영역(domain)에서 speech를 보았습니다.
하지만 그 speech는 어떻게 만들어질까요?
음, 기본 음원과 그 기본 음원을 수정할 수 있는 방법이 필요합니다.
예를 들어, 한 모음을 다른 모음과 다르게 들리게 수정할 수 있습니다.
여기서는 음원을 살펴보고 음성을 만들 수 있는 두 가지 가능한 소스를 살펴보겠습니다.
여기 누군가가 말하고 있습니다.
성대는 숨을 쉬고 음식을 먹을 때도 유용하지만 여기서는 말을 하는 것에 대해 이야기하고 있습니다.
그건 그냥 튜브(tube)일 뿐입니다.
우리의 목적상, 그것이 구부러져 있는 것은 중요하지 않습니다.
우리 몸에 딱 맞기 때문이죠.
이렇게 단순한 튜브라고 생각하면 됩니다.
그래서 여기 단순화된 성대(vocal tract)가 있습니다.
여기 위쪽은 입술이고 아래쪽은 폐입니다.
음원에 폐가 동력을 공급합니다.
폐에서 나오는 공기가 성대로 들어옵니다.
성대라는 특수한 해부학적 구조로 공기의 흐름을 차단할 수 있습니다.
저기 있네요.
폐에서 공기가 계속 흐르면 성대 아래의 압력이 높아집니다.
이 좁은 공간에 점점 더 많은 공기 분자가 밀집하게 됩니다.
같은 부피에 더 빽빽하게 채워진 분자는 압력의 증가를 의미합니다.
이것이 바로 압력입니다. 압력은 분자들이 서로와 용기에 가하는 힘입니다.
결국 압력이 막힌 곳을 뚫고 나오기에 충분해지면 성대가 터집니다.
아래에서 더 높은 압력의 공기가 위로 이동합니다.
따라서 더 높은 압력의 공기가 성대를 통해 터져 나오는 진동(pulse)이 발생합니다.
그러면 성대 아래의 압력이 풀리고 성대가 다시 닫힙니다.
이제 여기만 높은 기압의 공기가 있고 다른 모든 곳은 낮은 기압의 공기로 둘러싸인 작은 영역이 있는 상황이 생겼습니다.
이는 분명히 안정적인 상황이 아닙니다.
이 높은 기압의 공기는 주변 공기에 힘을 가하고 압력의 파동이 성대를 통해 위로 이동합니다.
이 압력의 파동이 음속으로 움직이고 있다는 점을 이해하는 것이 중요하며, 이는 폐에서 나오는 부드러운 공기 흐름인 숨을 내쉬는 것과는 상당히 다릅니다.
여러분은 음속(speed of sound)으로 숨을 내쉬지 않습니다!
호흡은 성대를 움직이게 하는 동력원일 뿐입니다.
성대의 공기 흐름은 압력파(pressure wave)의 전파 속도보다 훨씬 느립니다.
따라서 공기의 흐름은 무시하고 공기를 통해 움직이는 압력파만 생각하면 됩니다.
성대에서 방금 높은 압력의 맥박이 방출되었습니다.
이를 측정해 봅시다.
성대 바로 위에 마이크를 놓고 그곳의 압력을 측정할 수 있다고 상상해 보세요.
pulse가 빠져나가면서 압력이 증가하고, pulse가 멀어지면서 압력이 떨어지고, 다시 주변 압력으로 서서히 안정되는 모습을 볼 수 있습니다.
소리를 만들었습니다!
소리는 공기 압력의 변화입니다.
성문 pulse(glottal pulse)에 귀를 기울여 봅시다.
매우 짧을 것이므로 주의 깊게 들어보세요.
딸깍(click)거리는 소리입니다.
다시 해봅시다.
성문에서 생성되는 성문 맥박 소리입니다.
성문은 재미있는 곳입니다.
성문은 성대 사이의 틈새에 대한 해부학적 이름입니다.
물론 폐가 계속 공기를 밀어내면 압력이 다시 높아집니다.
짧은 시간이 지나면 성대가 다시 열리고 다시 맥박이 뛰게 됩니다.
공기가 폐에 의해 밀려나는 한 이러한 과정이 반복됩니다.
폐는 시스템의 동력원이라는 점을 기억하세요.
실제 신호는 반복되는 pulse 시퀀스입니다.
이제 이 pulse을 단독으로 재생하는 것이 아니라 초당 100회 재생하겠습니다.
이렇게 들립니다.
음, 말은 아니지만 시작입니다.
결국 다양한 것을 사용할 수있는 음성 생성 모델을 구축하려는 우리의 목적에 따라 실제 pulse의 모양은 그다지 중요하지 않은 것으로 밝혀졌습니다.
가능한 가장 단순한 pulse로 단순화해 보겠습니다.
여기 이 신호는 모든 곳이 0이고 순간적으로 최대 값까지 올라갔다가 다시 내려가는 신호입니다.
한번 들어봅시다.
다시 한 번 주의 깊게 들어보세요.
딸깍(click)하는 소리처럼 다른 맥박과 매우 유사하게 들립니다.
이러한 클릭을 빠르게 연속해서 재생할 수 있습니다.
초당 10회의 매우 느린 속도로 시작하겠습니다.
지각적으로는 여전히 개별 클릭의 연속에 불과하므로 이제 속도를 초당 40으로 높이겠습니다.
이제 개별 클릭을 구분할 수 없습니다.
연속적인 소리처럼 들리기 시작합니다.
초당 100회까지 올리면 확실히 계속 윙윙거리는 소리로 들립니다.
따라서 여기서는 음성 생성에 대해 이야기하고 있지만, 우리는 이미 음성 인식에 대해 흥미로운 것을 배웠습니다. 이러한 pulse의 속도가 충분히 빨라지면 더 이상 개별 클릭 소리가 들리지 않고 연속적인 소리로 통합된다는 것입니다.
이 pulse train 신호는 우리에게 중요한 구성 요소가 될 것입니다.
처음에는 speech를 이해하는 데만 사용될 것입니다.
이것이 현재 우리가 하고 있는 일입니다.
나중에 실제로 synthetic speech를 생성하기 위한 출발점으로 사용할 예정입니다.
다른 사운드 소스도 있습니다.
음성 다음으로 두 번째로 중요한 것만 다루겠습니다.
여기서도 폐에서 나오는 기류가 동력원입니다.
하지만 이번에는 성대의 가장 아래쪽에 있는 성대의 흐름을 완전히 차단하는 대신 성대의 어딘가에 있는 좁은 틈을 통해 공기의 흐름을 강제로 흐르게 할 것입니다.
이제 그 수축(constriction)을 만들어 봅시다.
공기는 폐에서 위로 올라오고 이 좁은 틈을 통해 강제로 통과합니다.
좁은 틈을 통해 공기를 강제로 통과시키면 공기는 난류가 됩니다.
공기의 흐름이 혼란스럽고 무작위로 변한다는 것은 기압이 혼란스럽고 무작위로 변한다는 것을 의미합니다.
그리고 소리는 압력 변화에 지나지 않으므로 소리가 발생한다는 뜻입니다!
다시 말하지만, 이 구조물 바로 뒤에 마이크를 놓고 그 혼란스럽고 난류적인 기류에 의해 생성된 신호를 녹음하면 다음과 같은 모양이 됩니다: 무작위적이고 식별할 수 있는 구조가 전혀 없습니다.
확실히 반복되는 패턴도 없습니다.
이 신호는 다음과 같이 들릴 것입니다.
노이즈입니다.
성대 어딘가에 좁은 구조물을 만들어 폐에서 공기를 밀어 넣어보는 건 어떨까요? 그렇게 하면 얼마나 다양한 소리를 낼 수 있을지 궁금합니다.
성대를 다른 곳에 수축시켜서 소리를 바꿀 수 있어요.
우선 몇 가지를 보여줄게요.
더 많은 소리를 낼 수 있을 거예요.
다음은 말하기에서 소리를 내는 두 가지 주요 소스입니다.
왼쪽은 음성입니다.
성대의 규칙적인 진동입니다.
오른쪽은 마찰음으로, 성대 어딘가의 좁은 수축 부위에서 난기류로 인해 발생하는 소리입니다.
소리를 내는 다른 방법도 몇 가지 있지만, 이 시점에서는 실제로 필요하지 않습니다.
이것만으로도 모든 음성 소리를 생성할 수 있는 음성 모델에 충분할 것입니다.
여기서 시간 영역의 모든 것을 보았습니다.
많은 파형을 플로팅했습니다.
지금까지 음원에 대해 이야기했는데, 이제 음성 파형이 때때로 반복되는 패턴을 갖는 이유를 알 수 있습니다.
그것은 바로 음원 자체가 반복되기 때문입니다.
우리는 이러한 신호를 '주기적'이라고 부르며, 파형에 반복되는 패턴이 있을 때마다 성대의 주기적인 진동인 발성 때문에 발생할 수 있다는 것을 알 수 있습니다.
발성이 있을 때마다 음정도 감지할 수 있습니다.
이를 음표(musical note) 또는 음색(tone)이라고 부를 수 있습니다.
피치는 화자의 성대 진동 속도에 의해 제어됩니다.
따라서 피치(pitch)를 사용하여 음성으로 메시지를 전달할 수 있습니다.
We've seen speech already in the time domain by looking at the waveform.
But how is that speech made?
Well, we need some basic sound source and some way to modify that basic sound source.
The modification, for example, might make one vowel sound different from another vowel sound.
Here we're just going to look at the source of sound, and we'll see two possible sources that can make speech.
Here's someone talking.
He has a vocal tract; that also happens to be useful for breathing and eating, but here we're talking about speaking.
That's just a tube.
For our purposes, it doesn't matter that that's curved.
That's just to fit in our body.
We can think of it as a simple tube, like this.
So here it is, a simplified vocal tract.
At the top here, the lips; at the bottom, the lungs.
The lungs are going to power our sound source.
Airflow from the lungs comes into the vocal tract.
We can block the flow of air with a special piece of our anatomy called the vocal folds.
There they are.
As air keeps flowing from the lungs, the pressure will increase below the vocal folds.
We will get more and more air molecules packed into this tight space.
More tightly packed molecules in the same volume means an increase in pressure.
That's what pressure is: it's the force molecules exert on each other and on their container.
Eventually, the pressure is enough to force its way through the blockage, and the vocal folds burst open.
The higher pressure air from below moves up.
So we get a pulse of higher pressure air bursting through the vocal folds.
That releases the pressure below the vocal folds and they will close again.
Now have a situation where there is a small region of higher pressure air just here, surrounded by lower pressure air everywhere else.
That's obviously not a stable situation.
This higher pressure air exerts a force on the neighbouring air and a wave of pressure moves up through the vocal tract.
It's important to understand that this wave of pressure is moving at the speed of sound, and that's quite different from the gentle air flow from your lungs: your breathing out.
You don't breathe out at the speed of sound!
Breathing is just the power source for the vocal folds.
The air flow in the vocal tract is much, much slower than the propagation of the pressure wave.
So we can neglect the airflow and just think about this pressure wave moving through air.
A pulse of high pressure has just been released by the vocal folds.
Let's make a measurement of that.
Imagine we could put a microphone just above the vocal folds and measure the pressure there.
The plot might look something like this: an increase in pressure as the pulse escapes, a dip as the pulse moves away, and then a gradual settling back to the ambient pressure.
We've created sound!
Sound is a variation in the pressure of air.
Let's listen to that one pulse - that glottal pulse.
Listen carefully because it's going to be very short.
Just sounds like a click.
Let's do that again.
That's the sound of a glottal pulse created in the glottis.
The glottis is a funny thing.
It's the anatomical name for the gap between the vocal folds.
Of course, if the lungs keep pushing air, the pressure will build up again.
After some short period of time, the vocal folds will burst open again and we'll get another pulse.
That will repeat for as long as the air is being pushed by the lungs.
Remember the lungs are the power source of the system
The actual signal will be a repeating sequence of pulses.
I'm going to play this pulse now, not in isolation, but I'm going to play it 100 times per second.
It sounds like this.
Well, it's not speech, but it's a start.
For our purposes, which eventually are going to be to build a model of speech production that we can use various things, the actual shape of the pulse turns out to be not very important.
Let's try simplifying that down to the simplest possible pulse.
That's this signal here, that is zero everywhere and goes up to a maximum value instantaneously and then back down again.
Let's listen to that.
Again, listen carefully.
It sounds pretty similar to the other pulse, just like a click.
We can play a rapid succession of such clicks.
Let's start with a very slow rate of just 10 per second.
Perceptually that's still just a sequence of individual clicks, so I'll increase the rate now to 40 per second.
I can't quite make out individual clicks now.
It's starting to sound like a continuous sound.
If we go up to 100 per second, it's definitely a continuous buzzing sound.
So, although we're talking about speech production here, we've learned something interesting about speech perception already: that once the rate of these pulses is high enough, we no longer hear individual clicks but we integrate that into a continuous sound.
This pulse train signal is going to be a key building block for us.
It's going to be initially just for understanding speech.
That's what we're doing at the moment.
We're going to use it later actually, as the starting point for generating synthetic speech.
There are other sources of sound.
We will just cover the second most important one, after voicing.
Again, here airflow from the lungs is the power source.
But this time, instead of completely blocking the flow at the vocal folds (which are at the bottom of the vocal tract) we'll force the airflow through a narrow gap somewhere in the vocal tract.
So let's make that constriction.
Air flows up from the lungs, and it's forced through this narrow gap.
When we force air through a narrow gap, it becomes turbulent.
The airflow becomes chaotic and random, and that means that the air pressure is varying chaotically and randomly.
And since sound is nothing more than pressure variation, that means we've generated sound!
So again, if we put a microphone just after that construction and recorded that signal created by that chaotic, turbulent airflow, it looks something like this: random and without any discernible structure.
Certainly no repeating pattern.
That signal would sound like this.
It's noise.
Why don't you try making a narrow construction somewhere in your vocal tract and push air through it from your lungs? I wonder how many different sounds you could make that way.
You can change the sound by putting the constriction in a different place.
I'll give you a few to start with.
I'm sure you can come with many more.
These then are the two principal sources of sound in speech.
On the left, voicing.
That's the regular vibration of the vocal folds.
On the right, frication, which is the sound caused by turbulent airflow at a narrow constriction somewhere in the vocal tract.
There are few other ways of making sound, but we don't really need them at this point.
These are going to be enough for a model of speech that will be able to generate any speech sound.
We saw everything in the time domain here.
We plotted lots of waveforms.
We've been talking about the sound source, and we now know why a speech waveform sometimes has a repeating pattern.
It's because the sound source itself was repeating.
We call such signals 'periodic', and you'll find that whenever there's a repeating pattern in the waveform, that can only be caused by voicing: the periodic vibration of the vocal folds.
Whenever there is voicing, you will also perceive a pitch.
Perhaps you could call that a musical note or a tone.
Pitch is controlled by the speaker's rate of vibration of the vocal folds.
So we could use pitch to help convey a message in speech.