ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Module 3 - Time domain
    음성 2023. 8. 24. 12:15

     Speech Processing>Module 3> Digital Speech Signals>Videos> Time domain

    https://speech.zone/courses/speech-processing/module-3-digital-speech-signals/videos-2/time-domain/

     

    Time domain

     

    speech.zone

     

    소리는 파동이며 매질(medium)을 타고 이동해야 합니다.
    여기서 매질은 공기입니다.
    따라서 이 공간에는 공기가 있습니다.
    소리는 압력 파동이므로 압력 파동은 이 매질을 통과할 것입니다.
    간단한 소리인 손뼉 소리를 만들어 봅시다.
    손뼉을 치면 손 사이에 공기가 갇히게 됩니다.
    그러면 공기가 압축되어 압력이 증가합니다.
    그런 다음 공기는 더 높은 압력의 공기 진동(pulse)으로 빠져나갑니다.
    이 고압의 공기가 매체를 통해 파동으로 전파되는 그림을 그릴 수 있습니다.
    빨간색 선은 더 높은 압력의 공기 영역을 나타냅니다.
    이것은 소리가 일정한 속도로 이동하는 물리적 공간을 통해 전파되는 소리의 첫 번째 표현입니다.
    공기 중에서 이 속도는 초당 약 340미터로, 1킬로미터를 이동하는 데 약 3초가 걸린다는 뜻입니다.
    하지만 음파가 공간을 통해 전파되다가 사라지는 이런 도표보다는 그 소리를 녹음하는 것이 훨씬 더 많은 정보를 제공합니다.
    공간에서 한 지점을 선택하고 그 지점에서 시간에 따른 압력 변화를 측정하면 됩니다.
    이 측정은 장치로 이루어지며 이 장치가 바로 마이크입니다.
    따라서 마이크를 사용하여 공간의 한 지점에서 압력 변화를 측정한 다음 시간에 대한 압력 변화를 그래프로 그려 보겠습니다.
    따라서 플롯에는 몇 가지 축이 필요합니다.
    여기서 가로축은 시간이 되고 세로축은 압력 변화의 진폭이 됩니다.
    플롯의 축에 측정되는 양과 단위를 모두 표시하는 것이 매우 중요합니다.
    가로축은 '시간'이므로 해당 수량인 시간(time)으로 레이블을 지정합니다.
    시간에는 단 하나의 단위만 있습니다.
    과학적 시간 단위는 초이며 '초'로만 표기됩니다.
    세로축에서는 압력 변화의 진폭을 측정할 것입니다.
    그래서 '진폭(amplitude)'이라는 수치를 넣었고 0은 주변 압력입니다.
    하지만 이 축에는 실제로 어떤 단위도 없습니다.
    마이크는 일반적으로 보정된 실험 기구가 아니기 때문입니다.
    마이크는 압력의 상대적인 변화를 측정하고 이를 압력 변화에 비례하는 전기 신호로 변환할 뿐입니다.
    따라서 0 진폭 지점을 표시할 뿐 일반적으로 단위를 지정하지 않습니다.

    이제 소리를 측정할 수 있습니다.
    음파가 마이크를 통과할 때 그 지점의 압력은 정상보다 높아졌다가 낮아졌다가 낮아지고 결국 주변 공기의 주변 압력으로 다시 안정화됩니다.
    마이크의 출력을 플로팅하고 마이크가 현재 녹음하고 있는 신호를 들어 보겠습니다.
    이 마이크의 출력을 가져와서 이 신호(이 전기 신호)를 이 플롯에 기록하겠습니다.
    방금 만든 플롯이 여기 있습니다.
    이 플롯을 파형이라고 하며, 이것이 실제로 유용한 첫 번째 사운드 표현입니다.
    플롯의 가로축이 시간이기 때문에 이 표현은 시간 영역에 있습니다.
    나중에 소리를 표현할 수 있는 다른 영역을 발견하고 다른 축을 사용하여 플롯할 것입니다.
    파형은 소리의 일부 속성을 조사하는 데 유용합니다.
    예를 들어, 다음은 종소리의 파형입니다.
    예를 들어 진폭이 시간이 지남에 따라 분명히 감소하고 있음을 알 수 있습니다.
    이것은 speech의 파형입니다: 'voice'.
    이 파형에서 측정할 수 있는 몇 가지 사항은 진폭이 시간이 지남에 따라 흥미로운 방식으로 변화하고 있다는 점과 이 단어에 지속 시간이 있다는 점입니다.
    스케일을 확대하면 좀 더 자세히 볼 수 있습니다.
    파형의 이 특정 부분에는 매우 흥미로운 일이 일어나고 있습니다.
    분명히 반복되는 패턴이 있는데, 이를 이해하는 것이 중요해 보입니다.
    이와는 대조적으로 이 파형의 다른 부분을 살펴봅시다.
    여기 이 부분입니다.
    여기는 아무리 확대해도 반복되는 패턴을 찾을 수 없습니다.
    이것은 덜 구조화되어 있고 좀 더 무작위적입니다.
    이 부분도 이해하는 것이 중요합니다.
    지금까지 마이크의 출력을 직접 플로팅하는 방법에 대해 이야기했습니다.
    마이크는 기본적으로 전기 신호, 즉 전압(voltage)을 생성합니다.
    이는 아날로그 신호로, 측정되는 압력에 비례합니다.
    하지만 실제로 우리는 모든 음성 처리를 컴퓨터로 할 것입니다.
    컴퓨터는 아날로그 신호를 저장할 수 없습니다. 컴퓨터는 디지털 장치이기 때문입니다.
    따라서 마이크의 아날로그 신호를 컴퓨터에서 저장하고 처리할 수 있는 디지털 신호로 표현하는 방법을 이해해야 합니다.
    우리는 이미 시간이 지남에 따라 소리가 달라진다는 것을 보았습니다.
    실제로 음성은 메시지를 전달하기 때문에 변해야 합니다.
    따라서 전체 발화가 아니라 짧은 시간 동안 신호의 일부만 분석해야 합니다.
    음성은 여러 가지 이유로 시간이 지남에 따라 달라지며, 이는 음성이 생성되는 방식에 의해 제어됩니다.
    따라서 음성 생성에 대해 살펴볼 필요가 있으며, 이를 위해 가장 먼저 이해해야 할 측면은 '음성을 만들 때 소리의 원래 소스는 무엇인가'입니다.

     

     

    Sound is a wave and it has to travel in a medium.
    Here the medium's air.
    So there's air in this space.
    Sound is a pressure wave, so a wave of pressure is going to travel through this medium.
    Let's make a simple sound: a hand clap.
    When we do that, our hands trap some air between them.
    That compresses the air: the pressure increases.
    Then it escapes as a pulse of higher pressure air.
    We can draw a picture of that high pressure air propagating as a wave through the medium.
    That red line is indicating a higher pressure region of air.
    So, this is our first representation of sound, its propagation through physical space where sound travels at a constant speed.
    In air, that speed is about 340 metres per second, which means it takes about 3 seconds to travel a kilometre.
    But rather than diagrams like this - of sound waves propagating through space and then disappearing - it's much more informative to make a record of that sound.
    We can do that by picking a single point in space and measuring the variation in pressure at that point over time.
    We make that measurement with a device and that device is a microphone.
    So let's use a microphone to measure the pressure variation at a single point in space and then plot that variation against time.
    So a plot needs some axes.
    Here, the horizontal axis will be time and the vertical axis will be the amplitude of the pressure variation.
    It's very important to label the axes of any plot with both the quantity being measured and its units.
    This axis is 'time', so we label it with that quantity: time.
    Time has only one unit.
    The scientific unit of time is the second and that's written with just 's'.
    On the vertical axis, we're going to measure the amplitude of the variation in pressure.
    So I've put the quantity 'amplitude' and 0 is the ambient pressure.
    But we don't actually have any units on this axis.
    That's simply because our microphone normally is not a calibrated scientific instrument.
    It just measures the relative variation in pressure and converts that into an electrical signal that is proportional to the pressure variation.
    So we just mark the 0 amplitude point but don't normally specify any units.
    Now we can make the measurement of our sound.
    As a sound wave passes the microphone, the pressure at that point rises to be higher than normal and then drops to be lower than normal, and eventually settles back to the ambient pressure of the surrounding air.
    Let's plot the output of the microphone and listen to the signal the microphone is now recording.
    We're going to take the output of this microphone and we're going to record this signal - this electrical signal - on this plot.
    Here's the plot we just made.
    The plot is called a waveform and this is our first actually useful representation of sound.
    This representation is in the time domain because the horizontal axis of the plot is time.
    Later, we'll discover other domains in which we can represent sound, and we'll plot those using different axes.
    The waveform is useful for examining some properties of sound.
    For example, here's a waveform of a bell sound.
    We can see that, for example, the amplitude is clearly decaying over time.
    This is a waveform of speech: 'voice'.
    It's the word 'voice' and some of the things we can measure from this waveform would be, again that the amplitude is varying over time in some interesting way, and that this word has some duration.
    We could enlarge the scale to see a little bit more detail.
    This particular part of the waveform has something quite interesting going on.
    It clearly has a repeating pattern; that looks like it's going to be be important to understand.
    But in contrast, let's look at some other part of this waveform.
    Maybe this part here.
    It doesn't matter how much you zoom in here, you won't find any repeating pattern.
    This is less structured: it's a bit more random.
    That's also going to be important to understand.
    So far, we've talked about directly plotting the output from a microphone.
    Microphones essentially produce an electrical signal: a voltage.
    That's an analogue signal: it's proportional to the pressure that's being measured.
    But actually we're going to do all of our speech processing with a computer.
    Computers can't store analogue signals: they are digital devices.
    We're going to need to understand how to represent an analogue signal from a microphone as a digital signal that we can store and process in a computer.
    We also already saw that sounds vary over time.
    In fact, speech has to vary, because it's carrying a message.
    So we'll need to analyse not whole utterances of speech, but just parts of the signal over short periods of time.
    Speech varies over time for many reasons, and that's controlled by how it's produced.
    So we need to look into speech production, and the first aspect of that that we need to understand is 'What is the original source of sound when we make speech?'

    '음성' 카테고리의 다른 글

    Module 3 - Periodic signal  (0) 2023.08.24
    Module 3 - Sound source  (0) 2023.08.24
    Module 2 - Vowel Space  (0) 2023.08.16
    Module 2 - Voice Onset Time (VOT)  (0) 2023.08.16
    Module 2 - Acoustic characteristics of consonants  (0) 2023.08.16

    댓글

Designed by Tistory.