скачать рефераты

скачать рефераты

 
 
скачать рефераты скачать рефераты

Меню

Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов скачать рефераты

p align="left">Переменные во времени спектральные характеристики речевого сигнала с помощью звукового спектрографа могут быть высвечены в виде графика. Этот прибор позволяет получить двумерный график, называемый спектрограммой, на которой по вертикальной оси отложена частота, а по горизонтальной - время. Плотность зачернения графика пропорциональна энергии сигнала. Таким образом, резонансные частоты голосового тракта имеют вид затемненных областей на спектрограмме. Вокализованным областям сигнала соответствует появление четко выраженной периодичности временной зависимости, в то время как невокализованные интервалы выглядят почти сплошными [1].

1.3.2 Акустическая фонетика

Многие языки, в том числе и английский, можно описать набором отдельных звуков или фонем. Изучать фонему можно по-разному. Лингвисты, например, изучают отличительные характеристики фонем [1,2]. Четыре широких класса звуков образуют гласные, дифтонги, полугласные и согласные. Каждый из классов разбит на подклассы по способу и месту образования звука в голосовом тракте. Каждая фонема может быть отнесена к классу протяжных или кратковременных звуков. Протяжные звуки образуются при фиксированной (инвариантной ко времени) форме голосового тракта, который возбуждается соответствующим источником. К этому классу относятся гласные, фрикативные (вокализованные и невокализованные) носовые согласные. Остальные звуки (дифтонги, полугласные, аффрикаты и взрывные согласные) произносятся при изменяющейся форме голосового тракта. Они образуют класс кратковременных звуков.

Гласные. Гласные образуются при квазипериодическом возбуждении голосового тракта неизменной формы импульсами воздуха, возникающими вследствие колебания голосовых связок. Как будет показано ниже, зависимость площади поперечного сечения голосового тракта от координаты (расстояния) вдоль его продольной оси определяет резонансные частоты тракта (форманты) и характер произносимого звука. Эта зависимость называется функцией площади поперечного сечения. Функция площади поперечного сечения для каждой гласной зависит в первую очередь от положения языка; вместе с тем на характер звука оказывают влияние положения челюстей, губ и, в меньшей степени, небной занавески. Например, при произнесении звука |а|, голосовой тракт открыт в начале, а в его конце тело языка образует сужение. Наоборот, при произнесении звука |и|, язык образует сужение в начале голосового тракта и оставляет его открытым в конце. Таким образом, каждому гласному звуку может быть поставлена в соответствие форма голосового тракта (функция площади поперечного сечения), характерная для его произношения. Очевидно, что это соответствие неоднозначное, так как у разных дикторов голосовые тракты различны; Другим представлением гласного звука является его описание с помощью набора резонансных частот голосового тракта. Это описание также зависит от диктора. Петерсон и Барней [1] провели измерения формантных (резонансных) частот с помощью звукового спектрографа для гласных, произнесенных различными дикторами.

На спектрограммах четко выделяются различные резонансные области, характерные для каждой гласной. Акустические колебания, иллюстрируя периодичность вокализованных звуков, позволяют также путем анализа одного периода выявить грубые спектральные характеристики. Например, акустическое колебание звука |и| состоит из низкочастотного затухающего колебания, на которое накладывается относительно высокочастотная составляющая. Это соответствует низкой частоте первой форманты и высоким частотам второй и третьей формант. Два резонанса, расположенных на близких частотах, расширяют спектр колебания. Наоборот, в акустическом колебании гласной |у| энергия высокочастотных составляющих относительно мала, что соответствует низким частотам первой и второй формант. Подобный анализ может быть проведен для всех гласных.

Дифтонги. Дифтонгом называется участок речи, соответствующий одному слогу, который начинается с одной гласной и затем постепенно переходит в другую. На основе этого определения можно выделить следующие дифтонги: |эй|, |оу|, |ау|, |ой|, |ай|.

Дифтонги образуются путём плавного изменения формы голосового тракта.

Полугласные. Группу звуков, содержащих |в|, |й| описать довольно трудно. Эти звуки называются полугласными, гак как по своим свойствам они напоминают гласные звуки. Обычно их характеризуют плавным изменением функции площади поперечного сечения голосового тракта между смежными фонемами. Таким образом, акустические характеристики этих звуков существенно зависят от произносимого текста. Удобно рассматривать эти звуки как переходные, сходные с гласными. Их структура близка к структуре гласных и дифтонгов.

Носовые звуки (сонорные). Носовые согласные |м|, |н| и |л| образуются при голосовом возбуждении. В полости рта при этом возникает полная смычка. Небная занавеска опущена, поэтому поток воздуха проходит через носовую полость и излучается через ноздри. Полость рта, которая вначале закрыта, акустически соединена с гортанью. Таким образом, рот служит резонансной полостью, в которой задерживается часть энергии при определенных частотах воздушного потока. Эти резонансные частоты соответствуют антирезонансам или нулям передаточной функции тракта речеобразования [2]. Более того, для носовых согласных и гласных (т. е. гласных, расположенных перед носовыми согласными) характерны менее выраженные резонансы, чем для гласных. Расширение резонансных областей происходит из-за того, что внутренняя поверхность носового тракта напрягается и при этом носовая полость имеет большое отношение площади поверхности к площади поперечного сечения. Вследствие этого потери за счёт, теплопроводности и вязкости оказываются большими, чем обычно.

Три носовых согласных различаются местом расположения полной смычки. При произнесении звука |м| смычка образуется между губами, |н| - у внутренней стороны зубов.

Глухие фрикативные звуки (шипящие, свистящие). Глухие фрикативные звуки |ф|, |с|, |ш|, образуются путем возбуждения голосового тракта турбулентным воздушным потоком, возникающим в области смычки голосового тракта. Расположение смычки характеризует тип фрикативного звука. При произнесении звука |ф| смычка возникает около губ, |с| - в середине полости рта и |ш| - в конце полости рта. Таким образом, система образования глухих фрикативных звуков содержит источник шума, расположенный в области смычки, которая разделяет голосовой тракт на две полости. Звуковая волна излучается через губы т. е. через переднюю полость. Другая полость служит, как и в случае произнесения носовых звуков, для задерживания акустического потока, и таким образом в речеобразующем тракте возникают антирезонансы [1].

Звонкие фрикативные звуки. Звонкие фрикативные звуки |в|, |з| и |ж| являются прототипами глухих звуков |ф|, |с|, |п| и |ш| соответственно. Место расположения смычки для этих пар звуков совпадает. Однако звонкие фрикативные звуки отличаются от своих аналогов тем, что при их образовании участвуют два источника возбуждения. При образовании звонких звуков голосовые связки колеблются и, таким образом, один источник возбуждения находится в гортани. Однако, так как в голосовом тракте образуется смычка, поток воздуха в этой области становится турбулентным. Можно ожидать, что в спектре звонких фрикативных звуков будут две различные составляющие. Сходство структуры звонкого |в| и глухого |ф| также легко установить путем сравнения соответствующих спектрограмм. Аналогично можно сравнить и спектрограммы звуков |ш| и |ж|.

Звонкие взрывные согласные. Звонкие взрывные согласные |б|, |д| и |г| являются переходными непротяжными звуками. При их образовании голосовой тракт смыкается в какой-нибудь области полости рта. За смычкой воздух сжимается и затем внезапно высвобождается. При произнесении звука |б| смычка образуется между губами, |д| - с внутренней стороны зубов, |г| -вблизи небной занавески. В течение периода, когда голосовой тракт полностью закрыт, звуковые волны практически не излучаются через губы. Однако слабые низкочастотные колебания излучаются стенками горла (эту область иногда называют голосовымг затвором -- «voice bar»). Колебания возникают из-за того, что голосовые связки могут вибрировать даже тогда, когда голосовой тракт перекрыт.

Так как структура взрывных звуков изменчива, их свойства существенно зависят от последующего гласного [1]. В этой связи характер временных колебаний несёт мало сведений о свойствах этих согласных.

Глухие взрывные согласные. Глухие взрывные согласные |п|, |т| и |к| подобны своим звонким прототипам |б|, |д| и |г|, но имеют одно важное отличие. В течение периода полного смыкания голосового тракта голосовые связки не колеблются. После этого периода, когда воздух за смычкой высвобождается, в течение короткого промежутка времени потери на трение возрастают из-за внезапной турбулентности потока воздуха. Далее следует период придыхания (шумовой воздушный поток из голосовой щели возбуждает голосовой тракт). После этого возникает голосовое возбуждение.

Аффрикаты и звук |х|. Остальными согласными произношения являются аффрикаты |ч| и |дж| и фонема |х|. Глухая аффриката |ч| является динамичным звуком, который можно представить как сочетание взрывного |т| и фрикативного согласного |щ|. Звонкий звук |дж| можно представить как сочетание взрывного |д| и фрикативного звука |ж|. Наконец, фонема |х| образуется путем возбуждения голосового тракта турбулентным воздушным потоком, т. е. без участия голосовых связок, но при возникновении шумового потока в голосовой щели. Структура звука |х| не зависит от следующей за ним гласной. Поэтому голосовой тракт может перестраиваться для произнесения следующей гласной в процессе произнесения звука |х| [1].

1.3.3 Распространение звуков

Понятие звука почти совпадает с понятием колебаний. Звуковые волны возникают за счет колебаний. Они распространяются в воздухе или другой среде с помощью колебаний частиц этой среды. Следовательно, образование и распространение звуков в голосовом тракте подчиняется законам физики. В частности, основные законы сохранения массы, сохранения энергии, сохранения количества движения вместе с законами термодинамики и механики жидкостей применимы к сжимаемому воздушному потоку с низкой вязкостью, который является средой распространения звуков речи. Используя эти основные физические законы, можно составить систему дифференциальных уравнений в частных производных, описывающую движение воздуха в речеобразующей системе [1,2]. Составление и решение этих уравнений весьма затруднительны даже для простых предположений относительно формы голосового тракта и потерь энергии в речеобразующей системе. Полная акустическая теория должна учитывать следующие факторы:

изменение во времени формы голосового тракта;

потеря энергии на стенках голосового тракта за счет вязкого трения и теплопроводности;

мягкость стенок голосового тракта;

излучение звуковых волн через губы;

влияние носовой полости;

возбуждение голосового тракта.

Голосовой тракт можно представить в виде неоднородной трубы с переменной во времени площадью поперечного сечения. Для колебаний, длина волны которых превышает размеры голосового тракта (это обычно имеет место на частотах ниже 4000 Гц), можно допустить, что вдоль продольной оси трубы распространяется плоская волна. Дальнейшее упрощение состоит в предположении отсутствия потерь на вязкость и теплопроводность как внутри воздушного потока, так и на стенках трубы. На основе законов сохранения массы, количества движения и энергии с учетом перечисленных допущений Портнов показал, что звуковые волны, в трубе удовлетворяют следующим уравнениям

(1.56а)

(1.56б)

где р=р(х,t) - звуковое давление как функция х и t; u=u(х,t) - скорость воздушного потока (volume velocity) как функция х и t, с - плотность воздуха в трубе; с - скорость распространения звука; A=A(x,t) - «функция площади», т. е. площадь поперечного сечения в направлении, перпендикулярном продольной оси трубы, как функция расстояния вдоль этой оси и времени. Сходная система уравнений была получена Сондхи,

Замкнутое решение уравнений (1.36) получить невозможно даже для простых форм трубы. Однако могут быть получены численные решения. Полное решение дифференциальных уравнений предполагает заданными давление и скорость потока для значений х и t в области голосовой щели и около губ, т. е. для получения решения должны быть заданы граничные условия у обоих концов трубы. Со стороны губ граничные условия должны отображать эффект излучения, а со стороны голосовой щели - характер возбуждения.

Кроме граничных условий необходимо задать функцию площади A(x,t). Для протяжных звуков можно предположить, что A(x,t) не изменяется во времени. Однако это предположение неверно для непротяжных звуков. Подробные измерения A(x,t) весьма затруднительны и могут быть выполнены только для протяжных звуков. Одним из методов проведения таких измерений является рентгеновская киносъемка. Фант и Перкелл провели несколько таких экспериментов. Однако подобные измерения могут быть выполнены лишь в ограниченном объеме. Другим методом является вычисление формы голосового тракта по акустическим измерениям. Описав подобный метод, предполагающий возбуждение голосового тракта внешним источником. Оба метода являются полезными для получения сведений о динамике речеобразования. Тем не менее, они не могут быть применены для получения описания речевых сигналов, например, в задачах связи. В работе Атала описаны результаты прямого измерения A(x,t) по сигналу речи, произнесенной в нормальных условиях.

Точное решение уравнений (1.36) является весьма сложным, даже если значение A(x,t) точно известно. Вместе с тем для решения поставленной задачи нет необходимости в точном и общем решениях этих уравнении [1,2].

1.4 Обработка речевого сигнала во временной области

В основе большинства методов обработки речи лежит предположение о том, что свойства речевого сигнала с течением времени медленно изменяются; Это предположение приводит к методам кратковременного анализа, в которых сегменты речевого сигнала выделяются и обрабатываются так, как если бы они были короткими участками отдельных звуков с отличающимися свойствами. Процедура повторяется так часто, как это требуется. Сегменты, которые иногда называют интервалами, (кадрами) анализа обычно пересекаются. Результатом обработки на каждом интервале является число или совокупность чисел. Следовательно, подобная обработка приводит к новой, зависящей от времени последовательности, которая.может служить характеристикой речевого сигнала.

Большинство методов кратковременного анализа, в том числе и кратковременный Фурье-анализ, могут быть описаны выражением

(1.57)

Речевой сигнал (возможно, после ограничения частотного диапазона в линейном фильтре) подвергается преобразованию Т[·], линейному или нелинейному, которое может зависеть от некоторого управляющего параметра или их совокупности. Результирующая последовательность умножается затем на последовательность значений временного окна (весовой функции), расположенную во времени в соответствии с индексом п. Результаты затем суммируются по всем ненулевым значениям. Обычно, хотя и не всегда, последовательность значений временного окна имеет конечную протяженность. Значение Qn представляет собой, таким образом, «взвешенное» среднее значение последовательности Т [х (m)].

Простым примером, иллюстрирующим изложенное, может служить измерение кратковременной энергии сигнала. Полная энергия сигнала в дискретном времени определяется как

(1.58)

Вычисление этой величины не имеет особого смысла при обработке речевых сигналов, поскольку она не содержит информации о свойствах сигнала, изменяющихся во времени. Кратковременная энергия определяется выражением

(1.59)

Таким образом, кратковременная энергия в момент n есть просто сумма квадратов N отсчетов от n-N-1 до n. Из (1.37) видно, что в (1.39) Т [*] есть просто операция возведения в квадрат, а

(1.60)

Вычисление кратковременной энергии, иллюстрирует рис. 1.6 Окно «скользит» вдоль последовательности квадратов значений сигнала, в общем случае вдоль последовательности Т[х(m)], ограничивая длительность интервала, используемого в вычислениях.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11