Инструменты сайта


!

Весь материал настоящего раздела очень «сырой»: я только начал разбираться с тематикой.

Теория звуковых сигналов

Речевой тракт человека

Речь возникает благодаря возбуждению акустической трубы или речевого (вокального) тракта, который с одной стороны ограничен губами, а с другой — голосовой щелью.

Если рассматривать структуру речевого тракта как музыкального инструмента, то он состоит из трех основных частей:

  • генератора — дыхательной системы, состоящей из воздушного резервуара (легких), где запасается энергия избыточного давления, мускульной системы и выводного канала (трахеи) со специальным аппаратом (гортанью), где воздушная струя прерывается и модулируется;
  • вибраторов — голосовых связок;
  • резонаторов — разветвленной и перестраиваемой системы резонансных полостей сложной геометрической формы (глотки, ротовой и носовой полости), называемой артикуляционной системой.

Легкие, действуя как кузнечные меха, создают при выдохе необходимый для звукообразования поток воздуха. Модуляция воздушного потока (за счет вибраций голосовых связок) и создание подглоточного избыточного давления происходит в гортани. Гортань — это клапан, который находится на конце трахеи (узкой трубки, по которой воздух поднимается из легких). Форма гортани имеет большое значение для голоса ее владельца. Так, к примеру, для низких мужских голосов характерна крупная гортань, выступающая на поверхности шеи в виде кадыка. Верхнее отверстие гортани, так называемый вход в гортань образуется подвижным гортанным хрящём — надгортанником. При дыхании гортань свободна, а при глотании свободный край надгортанника наклоняется назад, закрывая отверстие гортани. Во время пения вход в гортань прикрывается надгортанником. Гортань весьма подвижна, в основном, в вертикальной плоскости.

Гортань ближе к середине сужается, и в самом узком месте располагаются голосовые связки, представляющие собой две горизонтальные складочки. Отверстие между ними называется голосовой щелью (размеры голосовой щели в открытом состоянии $ 2_{} $ см в длину и $ 1_{} $ см в ширину). Над голосовыми связками располагаются желудочки гортани, над каждым из которых находится складка, параллельная голосовым связкам. Верхние желудочковые складки называются ложными и состоят из рыхлой соединительной ткани, желёз и слабо развитых мышц. Железы в этих складочках обеспечивают увлажнение голосовых складок, что очень важно для певческого голоса. При звукообразовании голосовые складки соединяются или смыкаются, и щель закрывается. Именно голосовые складки и являются основным (но не единственным) источником голосообразования (вибратором). Связки могут изменять свою длину, толщину, и колебаться по частям, что приводит к модуляции потока воздуха выдыхаемого из легких (и придаёт голосу певца разнообразные окраски, богатство звука и подвижность). Такой процесс называется фонацией.

Перед началом речи голосовые складки должны быть сведены черпаловидными хрящами, что приводит к запиранию потока воздуха и возникновению избыточного подглоточного давления. Воздух, который выталкивается легкими из трахеи, накапливается в подскладочном пространстве, и начинает давить на них. Когда избыточное давление повышается до определенной величины, складки размыкаются и воздух устремляется в голосовую щель. В момент максимального открытия щели скорость потока воздуха становится максимальной. Увеличение скорости приводит к понижению давления в голосовой щели1). Из-за понижения давления, голосовые складки смыкаются. Этот процесс повторяется снова. Один цикл открытия-закрытия голосовых складок занимает по времени порядка $ 1/100 $ секунды ( $ = 0.1 $ мс), т.е. процесс периодичен с частотой $ 100 $ раз в секунду (точнее — от $ 80 $ до $ 220 $ циклов в секунду).

Способы смыкания складок при фонации могут быть разными. Например, если складки смыкаются не полностью, и между ними остается щель, то скорость потока воздуха не падает до нуля и в голосе слышен шум (придыхательный голос, шепот). Наоборот, если складки смыкаются слишком сильно (голос зажатый), это тоже меняет тембр и спектр голоса. Все перечисленный характеристики — основная частота колебания голосовых складок, форма голосовых импульсов, их амплитуда, спектральный состав — играют существенную роль при слуховом восприятии речи. Особую роль играет частота колебаний голосовых складок, она называется частотой основного тона (ОТ).

Осциллограмма короткого фрагмента голоса (звук $ [ a ] $). По вертикальной оси отложена амплитуда (в отсчетах), по горизонтальной — время (в секундах). Высокие по амплитуде пики обозначают время начала раскрывания голосовых складок. $ 8 $ циклов (периодов) на интервале $ [3.22, 3.32] $ с, т.е. $ 80 $ периодов в $ 1 $ с, следовательно, частота ОТ для данного диктора $ \approx 80 $ Гц.








В речевом потоке частота основного тона субъективно воспринимается как высота голоса, и ее изменение используется для изменения интонации логических ударений, а иногда и смысла слов (например, в китайском языке). Частота основного тона зависит от длины связок, их массы и натяжения. Приближенно эту связь можно представить, как для струны: чем длиннее и тяжелее складки (эти свойства — врожденные), тем более низкий тон имеет голос, чем складки короче и тоньше — тем голос выше.

Таким образом, при образовании звуков речи с помощью процесса фонации (т.е. колебания голосовых связок) формируется вокализованный звуковой сигнал, который затем трансформируется в речевом тракте, где он превращается из «сырого» материала в последовательность речевых акустических сигналов. Движения речевых органов сами по себе не порождают речевого сигнала. Колеблющийся поток воздуха, созданный источником, проходя по речевому тракту, преобразуется. При этом не порождаются новые акустические возмущения, а изменяются характеристики «входного» потока.

Помимо вокализованных, человек может издавать и шумовые звуки, подразделяемые на два типа: фрикативные (турбулентные) и взрывные (импульсные). Фрикативные звуки ([в],[ф],[з],[щ],[ж]) образуются при форсированном прохождении звука через сужения речевого тракта. Взрывные звуки ([р],[c],[т],[к]) образуются вследствие полного перекрытия речевого тракта, создания большого давления перед этим барьером и последующего резкого снятия препятствия.

В задаче распознавания речи основную роль играют вокализованные звуки; они и рассматриваются ниже.

Речевой тракт с точки зрения общей теории сигналов

П

Пример. Осциллограмма фразы

З

Прослушать

$ \qquad $ $ \qquad $ $ \qquad $ $ \qquad $ $ \qquad $ Один $ \qquad $ $ \qquad $ плюс $ \qquad $ $ \qquad $ $ \qquad $ два $ \qquad $ $ \qquad $ $ \qquad $ больше $ \qquad $ $ \qquad $ двух

Из осциллограммы типичного речевого сигнала, становится очевидным, что он нестационарен. Однако, если мы растянем временнýю шкалу:

то увидим, что характеристики сигнала, по существу, остаются постоянными на промежутке от $ 30 $ до $ 40 $ мс. Частоты речевого сигнала могут достигать $ 15\, 000 $ Гц и выше, но речь остается понятной и тогда, когда частоты сигнала не превосходят $ 3\, 000 $ Гц; последнее ограничение используется в коммерческих телефонных сетях. Стандартная частота дискретизации в цифровых телефонных системах равна $ 8000 $ отсчетов в секунду, т.е. на временной отрезок в $ 40 $ мс приходится $ 320 $ отсчетов.

Осциллограммы показывают, что речевой сигнал состоит из последовательности квазипериодических вокализованных участков, перемежающихся шумоподобными невокализованными отрезками. Таким образом, при достаточно малой длине окна свойства сигнала в нем практически не меняются.

В предыдущем пункте говорилось, что колеблющийся поток воздуха, созданный голосовыми связками, проходя по речевому тракту, подвергается преобразованиям. Эти пребразования заключаются в изменении акустических характеристик входного сигнала и происходят благодаря резонансным (частотно-избирательным, фильтрующим) свойствам воздуха, содержащегося в речевом тракте. Как и любая масса воздуха, заключенная в ограниченный объем, воздушный столб тракта является акустическим резонатором, т.е. колебательной системой, имеющей собственные частоты колебаний. Когда колебания, образованные источником, проходят через речевой тракт, некоторые частотные составляющие в спектре источника усиливаются, а другие — либо отстаются без изменения, либо существенно подавляются. Усиление получают те исходные составляющие, частоты которых близки к собственным частотам воздушного столба в тракте. Таким образом, речевой тракт действует как обычный акустический резонатор.

Обобщая изложенное с точки зрения общей теории сигналов, можно сделать вывод, что речевой тракт ведет себя как переменный фильтр — его отклик является разным для разных частот. Способность фильтра к переменности обеспечена тем, что частотный отклик может быть изменен изменением размеров и формы органов артикуляции, трансформирующими резонансные свойства речевого тракта. Однако при постоянной форме речевого сигнала, речевой тракт можно считать линейной стационарной системой, на вход которой подается квазипериодическая последовательность импульсов — вокализованный звуковой сигнал от голосовых связок (или же широкополосный шум в случае невокализованного звука). Если обозначить $ S(f) $ амплитудно-частотный спектр колебаний, создаваемых источником звука, а через $ T(f) $ — передаточную функцию резонаторной системы речевого тракта, то амплитудно-частотный спектр результирующих звуковых колебаний $ P(f) $ представляется формулой $$ P(f)=S(f)T(f) \ . $$ Частотная фильтрация заключается в том, что амплитуда каждой из частотных составляющих источника звука умножается на значение передаточной функции тракта на той же частоте.

Проведем спектральный анализ какого-нибудь простого сигнала.

П

Пример. Спектрограммы для звука [$ a_{} $]

З

Прослушать

Видим, что амплитуды, соответствующие некоторым значениям частот, максимально выражены по сравнению с окружающими. Проверим наличие этого эффекта для музыкального инструмента, который, в первом приближении, можно считать моделью речевого тракта.

П

Пример. Спектрограммы для звуков блок-флейты

Ре-диез второй октавы (открыто ближайшее к губам отверстие):

З

Прослушать

Ре первой октавы (открыто самое дальнее от губ отверстие):

З

Прослушать

Снова наблюдаем периодические (по шкале частот) усиления амплитуд; тонкие желтые прямые, доходящие до шкалы частот, отмечают середины этих усилений.

На рисунках $ f_0 $ означает частоту основного тона. Проявление резонанса системы наблюдается в выборочном усилении частот внутри спектра. Резонатор избирателен к частотам, т.е. когда в него попадает входной сигнал, резонатор будет передавать одни частоты лучше других, а некоторые — так вообще глушить.

В речевой акустике резонансные максимумы передаточной функции, обеспечивающие усиления амплитуд в спектральном представлении «выходного» звукового сигнала получили название формант. Они обозначаются символами $ F1,F2,F3,\ldots $, а соответствующие им частоты — $ F_1,F_2,F_3,\dots $; нумерация соответствует порядку следования формант по шкале частот

Звуковая волна, отраженная от открытого конца приходит к источнику звука в фазе или противофазе по отношению к первичной волне. Когда она приходит в фазе, отраженный звук усиливается за счет суммирования энергии. Когда фаза исходного и отраженного звуков не совпадает, уровень волны гаснет.

Передаточная функция может иметь много формант, но для генерации и различения звуков наиболее существенны две первые (и иногда дополнительно, третья и четвертая) наиболее низкие по частоте. Помимо частоты, форманта также характеризуется шириной2) — на приведенных выше спектрограммах видны не просто линии максимальной интенсивности, но различные по ширине полосы. Ширина форманты $ B_{} $ определяется диапазоном частот в окрестности частоты форманты, которые получают усиление примерно эквивалентное3) точному резонансному.

Форманта

Форманты определяется как спектральные пики (максимумы) амплитудного спектра голоса. Форманта также означает акустический резонанс, а в теории речи и фонетике — резонанс человеческого речевого тракта. Форманта часто измеряется как амплитудный пик частотного спектра звука, с использованием спектрограммы, хотя в гласных звуках произносимых в высокой основной частоте (как, к примеру, женский или детский голос), частота резонанса может располагаться в широкой полосе гармоник так что никакого пика не наблюдается.

Форманты представляют характерные отличия существенных частотных компонент человеческой речи и пения. По определению, информация, которая требуется человеку для различия гласных звуков может быть представлена чисто количественно частотной составляющей гласного звука. В ходе речи, это — характерные признаки, позволяющие слушателю распознать конкретный гласный звук. Большинство этих формант образуются как результат акустического резонанса, однако некоторые свистящие тона получаются из периодического коллапса эффекта Вентури зон низкого давления. Как правило первых двух формант оказывается достаточно для однозначности определения гласного звука. Так, первая форманта $ f_1 $ имеет более высокую частоту для открытого звука (такого, как [а]) и более низкую частоту для закрытого звука (такого как [и]):

вторая же форманта $ f_2 $ имеет более высокую частоту для звука переднего ряда (такого как [и]) и более низкую частоту для звука ряда заднего (такого как [у]). Гласные звуки почти всегда имеют четыре или более различимых формант; иногда их больше шести. Однако первые две форманты наиболее важны для определения качества звука.

Носовые звуки ([м],[н]) имеют дополнительную форманту в окрестности 2500 Гц. Звонкая [л] обычно имеет дополнительную форманту в окрестности 2500 Гц, в то время как английский звук [r] имеет отличительную особенность в очень низкой третьей форманте (существенно ниже 2000 Гц).

Взрывные ([р],[c], [т],[к]) (и, в некоторой степени, фрикативные — [в],[ф],[з],[щ],[ж]) изменяют положения формант в окружающих их гласных звуках. Губно-губные звуки (такие как [б] и [п]) вызывают понижение формант; заднеязычные (или велярные) звуки ([к] и [г]) почти всегда показывают сближение $ f_2 $ и $ f_3 $ в «велярном сжатии» до заднеязычного звука и их расхождение по прохождении звука.

Центры формант гласных
Гласная Звучание $ f_1 $ $ f_2 $
у u 320 Гц 800 Гц
o o 500 Гц 1000 Гц
$ a $ $ a $ 700 Гц 1150 Гц
а a 1000 Гц 1400 Гц
э $ \varepsilon $ 700 Гц 1800 Гц
е е 500 Гц 2300 Гц
и i 320 Гц 2500 Гц
Форманты гласных
Гласная Интервал для
главной форманты (Гц)
у 200-400
o 400-600
a 800-1200
e 400-600 и 2200-2600
и 200-400 и 3000-3500

Изучение частотного спектра профессиональных певцов, особенно мужчин, позволили установить явную форманту в окрестности 3000 Гц (между 2800 и 3400 Гц), отсутствующую в обычной речи и в спектре непрофессиональных певцов. Именно это увеличение энергии позволяет услышать певца, поющего с оркестром (максимум которого достигается на частотах в окрестности 500 Гц). Эта форманта активно развивается вокальными упражнениями и имеет источником речевой тракт, действующий как резонатор.

Источники

[1]. Фант Г. Акустическая теория речеобразования. М.Наука. 1964.

[2]. Оппенгейм А., Шафер Р. Цифровая обработка сигналов. М.Техносфера. 2009.

[3]. Статья Formant из Wikipedia.


!

Все приведенные в разделе иллюстрации получены с помощью комплекса «Икар Лаб II+», разработанного Центром речевых технологий.

1)
Cледствие закона Бернулли, известное как "эффект Вентури".
2)
Bandwidth (англ.) — полоса частот.
3)
По договоренности, считают $ \ge 70.7 $% от резонансного значения на частоте форманты.
signal/speech.txt · Последние изменения: 2022/12/02 12:38 — au