ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Module 2 - Waveform
    음성 2023. 8. 16. 21:40

     Courses Speech Processing Module 2 – Acoustics of Consonants and Vowels

    https://speech.zone/courses/speech-processing/module-2-acoustics-of-consonants-and-vowels/videos-2/waveform/

     

    Waveform

     

    speech.zone

     

    이 동영상에서는 음성의 파형 표현에 대해 살펴볼 것입니다. 먼저 파동이 무엇인지 생각해 봅시다. 파동은 매질을 통해 이동하는 방해(disturbance)입니다. 이 매질은 군중 속의 사람부터 공기 중의 분자, 심지어 현악기의 박자에 이르기까지 무엇이든 될 수 있습니다. 파형은 이러한 방해를 표현한 것입니다. 
    예를 들어 천장에 용수철로 매달린 추가 있다고 상상해 보겠습니다. 추에는 펜이 부착되어 있고 추를 아래로 당겼다가 놓으면 추가 움직이게 됩니다. 그런 다음 종이를 잡아당겨 펜이 시간에 따른 용수철의 위아래 움직임을 추적하도록 할 수 있습니다. 
    그래프는 여기에 표시된 것과 같은 파형이 될 것입니다. 용수철의 예에서 파형은 공간에서 추의 물리적 변위를 나타냅니다. 그러나 소리에서 생성된 파형의 축은 속도, 기압 또는 입자의 움직임 등 다양한 것을 나타낼 수 있습니다. 
    이 동영상에서 살펴볼 모든 파형에는 x축에 시간이, y축에 진폭(amplitude)이 있습니다. 여기서 진폭은 이 그림에 표시된 것과 같은 기압(air pressure)의 변화를 나타냅니다. 음파의 진폭 또는 강도는 우리가 느끼는 소리 크기와 관련이 있습니다. 
    진폭은 데시벨 단위로 측정할 수 있지만 진폭은 주변 기압에 상대적이므로 서로 다른 두 녹음 파일을 직접 비교할 수 없다는 점을 기억하는 것이 중요합니다. 이 수치는 진폭을 제외하고는 서로 동일한 세 개의 사인파를 나타냅니다. 진폭을 보고할 때는 제로(0) 선에서 최대 또는 최소 편차가 가장 큰 지점까지 측정하여 해당 값을 보고합니다. 여기에는 진폭이 1인 파동, 진폭이 2인 파동, 진폭이 4인 세 번째 파동이 있습니다. 
    세 파동 모두 원점인 0에서 시작하여 같은 시점에 최대 진폭에 도달하는 것을 알 수 있습니다. 그런 다음 모두 동시에 0선을 넘어 진폭 최저점을 통과한 후 0으로 돌아갑니다. 0에서 최대로, 0에서 최소로, 다시 0으로 돌아오는 이 경로는 파동의 한 완전한 진동 주기를 나타냅니다.

    파동이 이 주기를 완료하는 데 걸리는 시간을 파동(wave)의 주기(cycle)라고 하며, 이를 통해 파동의 주파수(frequency)를 계산할 수 있습니다. 하지만 계산을 하기 전에, 그래프에서 세 가지 파동의 주기 길이가 동일하기 때문에 이 파동들은 모두 동일한 주파수를 가질 것이라는 결론을 내릴 수 있습니다. 간단한 파동의 주파수를 계산하려면 먼저 문자 T로 표시되는 주기의 길이를 측정합니다. 이 경우 T는 0.01초와 같습니다. 파동의 주파수는 주기의 역수 또는 1을 T로 나눈 값과 같습니다. 
    따라서 여기서 1을 0.01로 나눈 값은 100입니다. 주파수는 초당 주기를 나타내는 헤르츠라는 단위를 사용하여 보고합니다. 따라서 여기에 제시된 세 가지 파동은 모두 0.01초의 주기를 가지므로 모두 100헤르츠의 주파수를 갖습니다. 주파수는 음높이에 대한 우리의 인식과 관련이 있습니다. 일반적으로 큰 물체는 더 낮은 주파수에서 진동합니다. 여기에는 서로 다른 것보다 큰 두 개의 소리굽쇠와 각 소리굽쇠가 만들어내는 소리의 파형이 나와 있습니다. 그림의 총 시간 간격이 200밀리초인 경우 각 파동의 주파수는 얼마일까요? 이를 알아내려면 먼저 각 파동의 단일 주기의 길이를 결정해야 합니다. 
    이를 위해 대략적인 근사치로 전체 사이클 수를 계산합니다. 파란색 파동은 5주기를 완료하고 빨간색 파동은 2.5주기를 완료합니다. 이제 한 주기의 길이를 결정하려면 총 지속 시간을 방금 계산한 주기 수로 나눕니다. 따라서 파란색 물결의 경우 200밀리초를 5로 나누면 40이 되므로 한 사이클의 길이는 40밀리초입니다. 빨간색 물결의 한 사이클 길이는 200밀리초를 2.5로 나누면 80이 되므로 80밀리초입니다. 이제 F가 T에 1이라는 공식을 사용할 수 있지만 올바른 시간 단위를 사용하도록 주의해야 합니다. 지금은 밀리초 단위로 생각하고 있으며, 보고할 단위는 초당 사이클입니다. 40밀리초는 0.04초, 80밀리초는 0.08초입니다.
    수식에서 이러한 변환된 값을 사용하면 마지막에 변환할 필요가 없습니다. 이제 각 기간 길이를 하나로 나눕니다. 1을 0.04로 나누면 25이므로 파랑색 파동의 주파수는 25헤르츠입니다. 그리고 0.08로 나눈 것은 12.5이므로 적색파의 주파수는 12.5헤르츠입니다. 지금까지는 단순한 사인파만 살펴봤지만 대부분의 소리는 이보다 훨씬 더 복잡합니다. 그럼에도 불구하고 파형은 시간에 따른 파동의 진폭 변화를 보여줍니다.

     

     

     In this video we'll be considering the waveform representation of speech. To start, let's think about what a wave is. A wave is a disturbance which travels through a medium. This medium can be anything from people in a crowd to molecules in the air or even just a beat on a string. The waveform is a representation of this disturbance. 
    Imagine, for instance, we had a weight suspended from the ceiling on a spring. The weight has a marker attached to it and it is then set in motion by pulling down on the weight and releasing it. We could then pull a sheet of paper along so that the marker traces the up and down movement of the spring over time. 
    The graph that we would wind up with would be a waveform such as the one shown here. In the example of the spring, the waveform represents the physical displacement of the weight in space. But the axes of a waveform created from sound can represent many different things including velocity, air pressure or particle movement. 
    In this video, all of the waveforms that we will be looking at will have time on the x-axis and amplitude on the y-axis. The amplitude here refers to changes in air pressure such as those represented by this illustration. The amplitude or intensity of a sound wave is related to our perception of loudness. 
    Amplitude can be measured in decibels, but it is important to remember that amplitude is relative to the ambient air pressure and therefore cannot be directly compared between two different recordings. This figure represents three sine waves that are identical to one another apart from their amplitudes. When reporting amplitude, we measure from the zero line to the point of greatest deviation, either maximum or minimum, and report that value. So here we have a wave with an amplitude of one, another wave with an amplitude of two, and a third wave with an amplitude of four. 
    Notice how all three waves begin at the origin point, which is zero, and reach their peak amplitude at the same point in time. Then they all cross the zero line simultaneously, pass through their amplitude trough, and return to zero. This path from zero to maximum through zero to minimum, and back to zero, represents one complete oscillation cycle of the wave. 
    The amount of time that it takes for the wave to complete this cycle is known as its period, which we can choose to calculate the frequency of the wave. Before we do any math though, we can conclude from the present graph that all three of these waves will have the same frequency because their cycle lengths are also identical. To calculate the frequency of a simple wave, we first measure the length of the period, which is represented by the letter T. In this case, T equals 0.01 seconds. The frequency of the wave is equal to the inverse of the period, or one divided by T. 
    So here, one divided by 0.01 equals 100. We report the frequency using a unit called Hertz, which represents cycles per second. So all three of the waves presented here have a frequency of 100 Hertz, because they all have a cycle of 0.01 seconds. Frequency is related to our perception of pitch. Generally, larger objects will oscillate at lower frequencies. Here, we have a representation of two tuning forks, one larger than the other, and the waveform of the sound that each produces. If the total time interval pictured is 200 milliseconds, what is the frequency of each wave? To figure this out, first we have to determine the length of a single cycle of each wave. 
    To do that, count the number of complete cycles to a rough approximation. The blue wave completes five cycles, while the red wave completes 2.5 cycles. Now, to determine the length of one cycle, divide the total duration by the number of cycles that you just counted. So for the blue wave, the length of one cycle is 40 milliseconds, because 200 milliseconds divided by 5 equals 40. The length of one cycle in the red wave is 80 milliseconds, because 200 milliseconds divided by 2.5 equals 80. Now we can use the formula F equals 1 over T, but we need to take care to use the right unit of time. Right now, we're thinking in milliseconds, and the unit that we will report is in cycles per second. 40 milliseconds equals 0.04 seconds, and 80 milliseconds equals 0.08 seconds.
    By using these converted values in our formula, we won't have to convert at the end. So now we divide each of the period lengths into one. One divided by 0.04 is 25, so the frequency of the blue wave is 25 hertz. And one divided by 0.08 is 12.5, so the frequency of the red wave is 12.5 hertz. So far we've been looking only at simple sine waves, but most sounds are much more complex than that. Even so, the waveform still shows changes in the amplitude of a wave over time.

    '음성' 카테고리의 다른 글

    Module 2 - Spectrum  (0) 2023.08.16
    Module 2 - Types of waveform  (0) 2023.08.16
    Module 1 - Introduction to the IPA  (0) 2023.08.07
    Module 1 - Vowel articulation and description  (0) 2023.08.07
    Module 1 - Consonants  (0) 2023.08.07

    댓글

Designed by Tistory.