ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Module 3 - Pitch
    음성 2023. 8. 24. 13:52

    Speech Processing>Module 3> Digital Speech Signals>Videos>Pitch

    https://speech.zone/courses/speech-processing/module-3-digital-speech-signals/videos-2/pitch/

     

    Pitch

     

    speech.zone

     

    주기적 신호(periodic signals)는 음정(pitch)이라는 매우 중요한 지각 속성을 가지고 있습니다.
    즉, 주기적 신호는 음표(musical note), 즉 톤(tone)이 있는 것으로 인식됩니다.
    다음은 주기적인 신호 몇 가지입니다.
    이들은 모두 반복되는 패턴을 가지고 있습니다.
    따라서 우리는 주기적 신호를 보고 들을 때 인식할 수 있는 음정이 있을 것이라고 예측할 수 있습니다.
    앞서 보았던 단순화된 성문 파형(glottal waveform)이 있습니다. 음, 그다지 유쾌하지는 않지만 확실히 음정이 있습니다.
    여기 사인파(sine wave)가 있습니다. 이 역시 매우 순수하고 단순한 소리로, 음높이가 매우 명확하게 인식됩니다.
    마지막으로 모음의 짧은 클립입니다.
    다시 들려드리겠습니다.
    역시 명확한 음높이를 감지할 수 있습니다.
    음정(pitch)은 지각(perceptual) 현상입니다.
    우리는 F0(기본 주파수P)의 물리적 신호 특성인 주기성(periodicity)과 이 지각적 특성(perceptual property)인 음정 사이의 관계를 규명할 필요가 있습니다.
    사인파(sine wave)와 순수한 음색을 들어보겠습니다.
    220Hz에서 하나를 재생한 다음 440Hz에서 하나를 재생하겠습니다.
    여러분의 음악적 귀가 한 옥타브 정도는 알아들을 수 있기를 바랍니다.

    이 둘 사이에는 분명한 음악적 관계가 있습니다.
    두 번째 음은 첫 번째 음의 두 배 음정으로 인식됩니다.
    그럼 220Hz 더 올라가서 어떤 일이 일어나는지 봅시다.
    아니요, 그건 옥타브가 아닙니다!
    음악가가 아니어도 알 수 있는 사실입니다.
    그럼 다시 한 번 올라가 봅시다.
    440Hz보다 한 옥타브 위인 것 같습니다.
    그럼 옥타브를 들어봅시다.
    우리는 물리적 신호 속성인 F0과 지각 속성인 피치 사이의 관계가 선형적이지 않다는 정말 중요한 사실을 발견했습니다.
    동일한 간격의 음정 변화(옥타브)를 인지하려면 주파수에 고정된 양을 더하는 것이 아니라 주파수를 두 배로 늘려야 합니다.
    따라서 피치에 대한 F0 사이의 관계는 실제로 대수적(logarithmic)입니다.
    비선형적(non-linear)이죠.
    이러한 비선형성은 청각 시스템 전반의 훨씬 더 일반적인 속성의 한 측면입니다.
    일반적으로 비선형적입니다.
    나중에 이 지식을 활용할 수 있을 것입니다.
    따라서 메시지의 일부를 전달하기 때문에 음높이가 흥미로운 방식으로 변화하는 음성의 경우 F0의 로컬 값을 측정한 다음 시간에 따라 어떻게 변하는지를 그래프로 그려야 합니다.
    F0와 피치 사이에는 매우 간단한 관계가 있기 때문에 실제로 우리 분야에서는 이 두 용어를 같은 의미로 사용하는 경우가 많습니다.
    하지만 이는 엄밀히 말하면 옳지 않습니다!
    두 용어는 같은 것이 아닙니다.
    F0는 성대의 진동 속도인 물리적 특성입니다.
    화자의 성대에 접근할 수 있다면 이를 측정할 수 있습니다.
    또는 신호에서 자동으로 추정할 수도 있습니다.


    이 작업을 수행할 수 있는 소프트웨어가 있습니다.
    Praat라는 소프트웨어입니다.
    다른 소프트웨어도 같은 작업을 수행할 수 있습니다.
    이 소프트웨어는 F0를 측정해줍니다.
    사실 Praat는 F0를 피치(pitch)라고 부릅니다!
    하지만 소프트웨어가 화자의 성대에 접근할 수 없다는 점을 기억하는 것이 매우 중요합니다.
    일부 알고리즘을 사용하여 음성 신호에서 F0만 추정할 수 있습니다.
    이는 간단한 추정이 아니므로 F0 추정 알고리즘의 출력에 오류가 있을 수 있다는 점을 항상 염두에 두어야 합니다.
    이것은 진실이 아니라 추정치입니다.
    '불가능한 것은 없다'
    피치라는 용어는 사실 지각 현상에 관한 것입니다.
    음정(pitch)은 듣는 사람의 머릿속에만 존재하므로 음조에 대한 실험을 하려면 사람이 직접 음성을 들어야 합니다.
    F0에 대한 실험은 음성 신호에 대해 분석적으로 수행할 수 있습니다.
    따라서 스피커는 기본 주파수는 물론 자신이 생성하는 음성 소리의 지속 시간 및 진폭(amplitude)을 제어할 수 있습니다.
    화자는 이러한 모든 음향적 특성과 그 밖의 다른 특성을 사용하여 메시지의 일부를 청취자에게 전달할 수 있습니다.
    이때 '프로소디(prosody)'이라는 용어를 사용하여 음성 소리의 기본 주파수, 지속 시간, 진폭(때로는 음성 품질)을 총체적으로 지칭합니다.
    나중에 합성 음성을 생성할 때 자연스럽게 들리도록 하려면 적절한 prosody을 부여해야 합니다.

     

    Periodic signals have a very important perceptual property of pitch.
    That means that periodic signals are perceived as having a musical note: a tone.
    Here are some signals that are periodic.
    They all have a repeating pattern.
    And so we predict, just by looking at them, that when we listen to them, there will be a pitch to perceive.
    There's the simplified glottal waveform we've seen before.
    Well, not very pleasant, but it certainly has a pitch.
    Here's a sine wave: that's a very pure, simple sound, again, with a very clearly perceived pitch.
    Finally a short clip of a spoken vowel.
    I'll play that again.
    Again, a clear pitch can be perceived.
    Pitch is a perceptual phenomenon.
    We need to establish the relationship between the periodicity, a physical signal property of F0 (fundamental frequencyP and this perceptual property of pitch.
    Let's do that by listening to some sine wave, some pure tones.
    I'll play one at 220 Hz and then I'll play one at 440 Hz.
    Hopefully, you have a musical enough ear to here that's an octave.
    There's a clear musical relationship between the two.
    The second one is perceived as having twice the pitch of the first.
    So let's go up another 220 and see what happens.
    No, that's definitely not in octave!
    You don't need to be a musician to know that.
    So let's go up again.
    That sounds like it might be an octave above 440.
    So let's listen to octaves.
    We've discovered something really important: that the relationship between the physical signal property F0 and the perceptual property pitch is not linear.
    To perceive the same interval change in pitch - an octave - we don't need to add a fixed amount to the frequency: we need to double the frequency.
    So this relationship between F0 on pitch is actually logarithmic.
    It's non-linear.
    That non-linearity is one aspect of a much more general property of our auditory system as a whole.
    It is, in general, non-linear.
    We can probably make use of that knowledge later on.
    So for speech, where the pitch is varying in interesting ways because it might be carrying part of the message, we would need to measure the local value of F0 and then plot how that changes against time.
    Now, because there's a very simple relationship between F0 and pitch, you'll find the two terms actually used interchangeably in our field.
    But that's not technically correct!
    They are not the same thing.
    F0 is a physical property: it's the rate of vibration of the vocal folds.
    We could measure that if we had access to the speaker's vocal folds.
    Or we could estimate it automatically from a signal.
    Here's some software that will do that.
    It's called Praat.
    Other software can also do the same thing.
    It will make that measurement of F0 for you.
    In fact, Praat calls it pitch, even though it's estimating at F0!
    But it's very important to remember the software does not have access to the speaker's vocal folds.
    It can only estimate F0 from the speech signal, using some algorithm.
    That's a non-trivial estimation, so you must always be aware that there will be errors in the output of any F0 estimation algorithm.
    This is not truth: this is an estimate.
    'Nothing's impossible'
    The term pitch really then is about the perceptual phenomenon.
    It only exists in the mind of a listener, and so to do experiments about pitch would have to involve humans listening to speech.
    Experiments about F0 could be done on speech signals analytically.
    So speakers can control the fundamental frequency as well as the duration and the amplitude of the speech sounds they produce.
    They can use all of those acoustic properties - and others - to convey parts of the message to a listener.
    We use the term 'prosody' to refer to collectively the fundamental frequency, the duration, and the amplitude of speech sounds (sometimes also voice quality).
    Later, then, when we attempt to generate synthetic speech, we'll have to give it an appropriate prosody if we want it to sound natural.

     

    '음성' 카테고리의 다른 글

    Module 3 - Short-term analysis  (0) 2023.08.24
    Module 3 - Digital Signal  (0) 2023.08.24
    Module 3 - Periodic signal  (0) 2023.08.24
    Module 3 - Sound source  (0) 2023.08.24
    Module 3 - Time domain  (0) 2023.08.24

    댓글

Designed by Tistory.