скачать рефераты

скачать рефераты

 
 
скачать рефераты скачать рефераты

Меню

Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов скачать рефераты

p align="left">Дискретное преобразование Фурье широко используется при вычислении корреляционных функций, спектров и при реализации цифровых фильтров, а также часто используется и при обработке речевых сигналов [1-5].

1.1.4 Спектральный анализ

Спектральный анализ - это метод обработки сигналов, который позволяет выявить частотный состав сигнала. Поскольку анализируемые сигналы во многих случаях имеют случайный характер, то важную роль в спектральном анализе играют методы математической статистики. Частотный состав сигналов определяют путем вычисления оценок спектральной плотности мощности (СПМ). Задачами вычисления СПМ являются обнаружение гармонических составляющих в анализируемом сигнале и оценивание их параметров. Для решения указанных задач требуется соответственно высокая разрешающая способность по частоте и высокая статистическая точность оценивания параметров. Эти два требования противоречивы. Аргументы в пользу выбора высокого разрешения или высокой точности оценки СПМ зависят от того, что интересует исследователя: устойчивые оценки в пределах всего диапазона частот или высокая степень обнаруживаемости периодических составляющих.

Все методы цифрового спектрального анализа можно разделить, на две группы [6-7]: классические методы, базирующиеся на использовании преобразований Фурье, и методы параметрического моделирования, в которых выбирается некоторая линейная модель формирующего фильтра и оцениваются его параметры. К первой группе относят корреляционный и периодограммные методы. Ко второй группе относят методы оценивания СПМ на основе авторегрессии скользящего среднего и др.

Периодограммный метод обеспечивает вычисление оценки СПМ непосредственно по числовой последовательности х[0], формируемой путем дискретизации стационарного эргодического случайного процесса x(t). Периодограммная оценка СПМ равна [6-7]

(1.18)

Выражение (1.18) соответствует возможности вычисления СПМ с помощью преобразования Фурье непосредственно по реализации исходного сигнала.

Вычисленная с помощью (1.18) оценка СПМ является несостоятельной, т.е. с увеличением N она не улучшается. Для получения состоятельной оценки ее необходимо сглаживать. Кроме этого, при выполнении преобразования Фурье последовательности х[0] конечной длины /V происходит «размывание» спектра, которое также оказывает влияние на состоятельность оценки СПМ.

Ограничение последовательности х[0] конечным числом значений равносильно умножению исходной бесконечной последовательности х0 [0] на другую последовательность

(1.19)

которую называют прямоугольным окном. Тогда можно записать

(1.20)

Преобразование Фурье последовательности х[0] равно свертке преобразований Фурье последовательности х0 [0] и прямоугольного окна w[0]

(1.21)

Рисунок 1.2 - Размывание спектра: (а - исходная бесконечная последовательность; б - модуль преобразования Фурье от х0 [0]; в - последовательность х0 [0], умноженная на прямоугольное окно; г - модуль преобразования Фурье последовательности х[0])

При выборе оконных функций используются следующие параметры: ширина основного лепестка, максимальный уровень боковых лепестков, скорость спадания уровня боковых лепестков [6,7,10].

Здесь ширина основного лепестка определена на уровне 3 дБ ниже его максимума и измерена в единицах разрешения преобразования Фурье, т.е. 2р/N, где N - длина окна.

Для повышения состоятельности оценки (1.18) выполняют её сглаживание. Имеется несколько методов сглаживания: Даньелла, Бартлетта, Уэлча [6,7].

Метод Даньелла основан на осреднении значений СПМ в пределах смежных спектральных частот.

В соответствии с методом Бартлетта состоятельность оценки СПМ повышают усреднением оценок СПМ коротких реализаций, полученных из

одной реализации длиной N отсчетов. Пусть дана реализация длиной N отсчетов. Она разбивается на ns неперекрывающихся сегментов, длиной Ns=N/s отсчетов. Для каждого сегмента по формуле (1.18) вычисляется выборочная оценка СПМ. Сглаженная оценка СПМ получается путем усреднения по всем n, сегментам

(1.30)

Если последовательность х[n] представляет нормальный стационарный эргодический процесс, то сглаженная оценка имеет дисперсию обратно пропорциональную числу сегментов n.

Спектральное разрешение оценки задается приближенным равенством

(1.31)

В методе Уэлча подход Бартлетта применяется к перекрывающимся сигментам исходной последовательности х[n], и каждый сегмент взвешивается с помощью оконной функции для уменьшения смещения оценок из-за эффекта «просачивания» энергии в боковые лепестки. Цель перекрытия сегментов - увеличить число усредняемых участков при фиксированной длине последовательности и тем самым повысить точность оценок СПМ. Метод Уэлча - один из самых распространенных периодограммных методов [6,7].

Обозначим через величину сдвига между сегментами, которая должна удовлетворять условию , где - максимальное имя корреляции анализируемого процесса. При выполнении этого условия получим p=int[(N-Ns)/+l]слабо коррелированных сегментов. Отсчеты каждого сегмента взвешиваются окном w[n]

(1.32)

Выборочное значение СПМ сегмента р оценивается по формуле

(1.33)

где

(1.34)

(1.35)

Сглаженная оценка периодограммы Уэлча вычисляется по формуле

(1.36)

Введение перекрытия сегментов в методе Уэлча позволяет уменьшить изменчивость оценки СПМ, Так же как и в методе Бартлетта, дисперсия оценки СПМ по методу Уэлча обратно пропорциональна числу сегментов, но благодаря большему числу сегментов, значение дисперсии будет меньше.

1.2 Основы цифровой фильтрации

Цифровой фильтр представляет собой систему с постоянными параметрами (инвариантную к сдвигу), работающую в дискретном времени. Напомним, что для таких систем сигнал на входе и выходе связан дискретной сверткой (1.5). Соответствующее соотношение между z-преобразованиями имеет вид

(1.37)

Прямое z-преобразование отклика на единичный импульс H(z) называется передаточной функцией системы. Преобразование Фурье отклика на единичный импульс называется частотной характеристикой. Обычно представляет собой комплексную функцию со, которую можно записать в виде

(1.38)

или через модуль и фазу

(1.39)

Инвариантная к сдвигу линейная система называется физически реализуемой, если h(n)=0 при n<0. Линейная система устойчива, если для любой ограниченной по уровню входной последовательности выходная последовательность также ограничена. Необходимым и достаточным условием устойчивости линейной системы с постоянными параметрами является

(1.40)

Это условие аналогично (1.10) и оказывается достаточным для существования .

Сигналы на входе и выходе линейных инвариантных к сдвигу систем, таких, например, как фильтры, связаны дискретной сверткой (1.5) и кроме того, разностным уравнением

(1.41)

Вычисляя z-преобразование от обеих частей, можно получить

(1.42)

Сравнивая (1.41) и (1.42), полезно отметить следующее. Если задано разностное уравнение вида (1.41), то H(z) можно получить непосредственной подстановкой коэффициентов при входном сигнале в числитель передаточной функции к соответствующим степеням z-1, а коэффициенты при выходном сигнале - в знаменатель к соответствующим степеням z-1.

Передаточная функция в общем случае является дробно рациональной. Таким образом, она определяется положением нулей и полюсов на z-плоскости. Это означает, что H(z) можно представить в виде

(1.43)

При рассмотрении z-преобразования отмечалось, что физически реализуемые системы имеют область сходимости вида |z|>R1. Если система, кроме того, еще и устойчива, то R1 должно быть меньше единицы, таким образом единичная окружность входит в область сходимости. Иначе говоря, для устойчивой системы все полюсы H(z) должны лежать внутри единичной окружности.

Достаточно определить два типа линейных систем с постоянными параметрами. Это системы с конечной импульсной характеристикой (КИХ) и системы с бесконечной импульсной характеристикой (БИХ). Эти два класса обладают отличными друг от друга свойствами, которые будут рассмотрены ниже.

Если все коэффициенты аk. в уравнении (1.22) равны нулю, то разностное уравнение принимает вид

(1.44)

Сравнивая (1.44) с (1.56), можно отметить, что

(1.45)

Системы с КИХ обладают рядом важных свойств. Передаточная функция H(z) таких систем представляет собой полином по степеням z-1 и, таким образом, не имеет ненулевых полюсов, а содержит только нули. Системы с КИХ могут обладать строго линейной фазо-частотной характеристикой (ФЧХ). Если h(n) удовлетворяет условию

(1.46)

то

(1.47)

где - действительная или чисто мнимая величина в зависимости от знака в (1.48).

Возможность получения строго линейной ФЧХ является очень важным обстоятельством применительно к речевым сигналам в тех случаях, когда требуется сохранить взаимное расположение элементов сигнала. Это свойство систем с КИХ существенно облегчает решение задачи их проектирования, поскольку все внимание можно уделять лишь аппроксимации амплитудно-частотной характеристики (АЧХ). За это достоинство фильтра с линейной ФЧХ, приходится расплачиваться необходимостью аппроксимации протяженной импульсной реакции в случае фильтров с крутыми АЧХ. Хорошо разработаны три метода проектирования КИХ-фильтров с линейными ФЧХ: взвешивания, частотной выборки и проектирования оптимальных фильтров с минимаксной ошибкой [1-3]. Второй и третий методы являются оптимизационными и используют итеративный (в отличие от замкнутой формы) подход для определения коэффициентов фильтра. Несмотря на простоту метода взвешивания, широкое применение нашли все три метода. Это обусловлено завершенностью глубоких исследований оптимальных КИХ-фильтров а, кроме того, наличием подробно описанных программ, позволяющих пользователю легко рассчитать любой фильтр [1,2,11].

При рассмотрении вопросов реализации цифровых фильтров полезно изображать их в виде схем. Разностное уравнение (1.25) изображено на рис. 1.4. Подобные схемы, называемые структурными, описывают в графической форме те операции, которые необходимо проделать над входной последовательностью для получения сигнала на выходе.

Для фильтра после подстановки (1.49) в(1.51) и выполнения интегрирования получается

(1.52)

Импульсная характеристика (1.32) определена при любых целых значениях к и является бесконечной, поэтому ограничивают значения k. Пусть |k|?К, где К=(N-1)/2 для фильтров с нечётными значениями N и К=N/2 для фильтров с чётными значениями N. Тогда конечная импульсная характеристика, соответствующая (1.52), записывается в виде

(1.53)

Импульсная характеристика (1.53) является некаузальной, так как имеет ненулевые значения при k<0. Чтоб получить каузальную характеристику, необходимо задержать на К тактов, т.е.

(1.54)

Синтезированный таким образом фильтр будет иметь значительные пульсации вблизи частоты среза. Указанные пульсации представляют эффект Гиббса, проявляющийся вблизи точек разрыва заданной частотной характеристики. Эффект Гиббса обусловлен ограничением длительности бесконечной импульсной характеристики .

Конечная импульсная характеристика , получаемая из , может быть также представлена в виде

(1.55)

где w[k] - прямоугольное весовое окно длиной N отсчётов. Умножение заданной импульсной характеристики на прямоугольное окно приводит к искажению частотной характеристики синтезируемого фильтра. Частотная характеристика, соответствующая (1.55), будет равна свёртке заданной частотной характеристики прямоугольного окна. Таким образом, эффект Гиббса связан с пульсирующим поведением частотной характеристики прямоугольного весового окна.

Для уменьшения отрицательного влияния эффекта Гиббса применяют весовые окна, отличные от прямоугольного. Здесь имеет место аналогия со спектральным анализом, когда для уменьшения утечки энергии в боковые лепестки применяют оконные функции. С целью обеспечения линейности фильтра низких частот указанные оконные функции должны быть симметричными w[k]=w[N-k-1] и определены для значений k, лежащих диапазоне 0?k?N-1 [6].

1.3 Особенности акустической фонетики и её учёт при обработке речевых сигналов

1.3.1 Механизм речеобразования

Речь состоит из последовательности звуков. Звуки и переходы между ними служат символическим представлением информации. Порядок следования звуков (символов) определяется правилами языка. Изучение этих правил и их роли в общении между людьми составляет предмет лингвистики, анализ и классификация самих звуков речи -- предмет фонетики. При обработке речевых сигналов с целью повышения их информативного содержания либо для выделения содержащейся в сигнале информации полезно располагать как можно большим количеством сведений о структуре сигнала, например, о способе кодирования информации в сигнале [1].

Голосовой тракт начинается с прохода между голосовыми связками,называемого голосовой щелью, и заканчивается у губ. Голосовой тракт, таким образом, состоит из гортани (от пищевода до рта) и рта, или ротовой полости. У взрослого мужчины общая длина голосового тракта составляет примерно 17 см. Площадь поперечного сечения голосового тракта, которая определяется положением языка, губ, челюстей и небной занавески, может изменяться от нуля (тракт полностью перекрыт) до примерно 29 см2. Носовая полость начинается у нёбной занавески и заканчивается ноздрями. При опущенной небной занавеске носовая полость акустически соединена с голосовым трактом и участвует в образовании носовых звуков речи. На рис. 1.4 показано подробное схематическое изображение речеобразующей системы. Для полноты в диаграмму включены и такие органы, как легкие, бронхи и трахея, расположенные ниже гортани. Совокупность этих органов и служит источником энергии для образования речи. Речь представляет собой акустическую волну, которая вначале излучается этой системой при выталкивании воздуха из легких и затем преобразуется в голосовом тракте. Основные особенности колебания легко объяснить на основе подробного анализа механизма образования речи. Звуки речи могут быть разделены на три четко выраженные группы по типу возбуждения. Вокализованные звуки образуются проталкиванием воздуха через голосовую щель, при котором периодически напрягаются и расслабляются голосовые связки и возникает квазипериодическая последовательность импульсов потока воздуха, возбуждающая голосовой, тракт.

Рисунок 1.4 - Схема речеобразующих органов человека [1,13]

Фрикативные или невокализованные звуки генерируются при сужении голосового тракта в каком-либо месте (обычно в конце рта) и проталкивании воздуха через суженное место со скоростью, достаточно высокой для образования турбулентного воздушного потока. Таким образом, формируется источник широкополосного шума, возбуждающего голосовой тракт.

При произнесении взрывных звуков голосовой тракт полностью закрывается (обычно в начале голосового тракта). За этой смычкой возникает повышенное сжатие воздуха. Затем воздух внезапно высвобождается. Область малого уровня соответствует периоду полного закрытия голосового тракта. Голосовой тракт и носовая полость показаны на рис. 1.4 в виде труб с переменной по продольной оси площадью поперечного сечения. При прохождении звуковых волн через эти трубы их частотный спектр изменяется в соответствии с частотной избирательностью трубы. Этот эффект похож на резонансные явления, происходящие в трубах органов и духовых музыкальных инструментов. При описании речеобразования резонансные частоты трубы голосового тракта называют формантными частотами или просто формантами. Формантные частоты зависят от конфигурации и размеров голосового тракта: произвольная форма тракта может быть описана набором формантных частот. Различные звуки образуются путем изменения формы голосового тракта. Таким образом, спектральные свойства речевого сигнала изменяются во времени в соответствии с изменением формы голосового тракта.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11