Большая База Данных Рефератов - Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов

Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов

p align="left"> (2.1a)

(2.1б)

где L - линейный оператор. Принцип суперпозиции устанавливает, что если сигнал на входе является линейной комбинацией элементарных сигналов, то и сигнал на выходе будет представлен в виде линейной комбинации соответствующих сигналов.

Прямым следствием принципа суперпозиции является тот факт, что сигнал на выходе линейной системы может быть представлен в виде дискретной свертки

(2.2)

Символ « * » здесь и далее означает свертку в дискретном времени. По аналогии с принципом суперпозиции для обычных линейных систем определим класс систем, удовлетворяющих обобщенному принципу суперпозиции, в котором сложение заменяется сверткой (легко показать, что свертка обладает такими же алгебраическими свойствами, как и сложение [1]), т. е.

(2.3)

В общем случае возможно сформулировать и уравнение, аналогичное (2.16), в котором выражено свойство скалярного умножения [2]. Системы, обладающие свойством (2.3), названы гомоморфными относительно свертки системами. Эта терминология объясняется тем [3], что данные преобразования оказываются гомоморфными преобразованиями линейного векторного пространства. При изображении таких систем операцию свертки представляют в явном виде на входе и выходе системы. Гомоморфный фильтр является гомоморфной системой, обладающей тем свойством, что одна компонента (выделяемая) проходит через эту систему без изменений, а другая - устраняется. В соотношении (2.3), например, если x1(n) - нежелательная компонента, то необходимо потребовать, чтобы выход, соответствующий x1(n), представлял собой единичный отсчет, в то время как выход, соответствующий х2(n), близко совпадал бы с х2(n). Это полностью аналогично ситуации в линейных системах, где ставится задача выделения сигнала из смеси его с аддитивным шумом.

Важным аспектом теории гомоморфных систем является то, что любая из них может быть представлена в виде каскадного соединения трех гомоморфных систем. Первый блок преобразует компоненты на входе, представленные в виде свертки, в аддитивную сумму на выходе. Второй блок -обычная линейная система, удовлетворяющая принципам суперпозиции в соответствии с (2.1). Третий блок является обратным первому, т. е. преобразует сигналы, представленные в виде суммы, в сигналы, представленные в виде свертки. Важность такого канонического представления заключается в том, что разработка гомоморфной системы сводится к разработке линейной системы. Блок*[], называемый характеристическим блоком гомоморфной относительно свертки системы, фиксирован при каноническом представлении. Очевидно, что обратное преобразование также фиксировано. Характеристическая система для гомоморфной обратной свертки подчиняется обобщенному принципу суперпозиции, в котором операция на входе - свертка, а на выходе - обычное сложение. Свойства характеристической системы определяются выражением

(2.4)

Аналогично обратная характеристическая система удовлетворяет соотношению

(2.5)

Математическое описание характеристической системы определяется требованиями к выходному сигналу. Если на входе имеется сигнал свертки, то

(2.6)

и z-преобразование входного сигнала имеет вид

(2.7)

Из (2.4) очевидно, что z-преобразование сигнала на выходе системы должно представлять собой сумму z-преобразований компонент. Таким образом, в частотной области характеристическая система для свертки должна обладать следующим свойством: если на входе имеется произведение компонент, то на выходе должна возникнуть их сумма.

С учетом возможности вычисления комплексного логарифма, обратное преобразование комплексного логарифма преобразования Фурье входного сигнала, являющееся выходом характеристической системы для свертки, имеет вид

(2.8)

Выход характеристической системы назван «комплексным кепстром» Термин «кепстр» используется для величины

(2.9)

Все системы этого класса отличаются только линейной частью. Выбор линейной системы определяется свойствами входного сигнала.

Следовательно, для правильного построения линейной системы необходимо прежде всего определить вид и структуру сигнала на выходе характеристической системы, т. е. рассмотреть свойства комплексного кепстра для типичных входных сигналов.

Для определения свойств комплексного кепстра достаточно рассмотреть случай рационального z-преобразования. Наиболее общая форма преобразования имеет вид

(2.10)

где модули величин ак, bk, ck и dk меньше единицы. Таким образом, сомножители (1-akz-1) и (1-ckz-1) соответствуют нолям и полюсам внутри единичной окружности, a (1-bkz) и (1-dkz) - нолям и полюсам вне единичной окружности. Параметр zr означает соответствующую задержку во временной области. Комплексный логарифм X(z) имеет вид

. (2.11)

Когда (7.13) вычисляется на единичной окружности, легко видеть, что член вносит вклад только в минимальную часть комплексного логарифма. Поскольку этот член несет информацию только о взаимном расположении во временной области, то при вычислении комплексного кепстра он обычно опускается [2]. Таким образом, при обсуждении свойств комплексного кепстра далее этот член не рассматривается. Используя то обстоятельство, что логарифм можно разложить в степенной ряд, относительно несложно показать, что комплексый кепстр имеет вид

(2.12)

Уравнения (2.12) позволяют выявить ряд важных свойств комплексного кепстра. Прежде всего, комплексный кепстр в общем случае отличен от ноля и бесконечен как для положительных, так и для отрицательных значений n, даже если х(n) удовлетворяет принципу причинности, устойчив и имеет конечную протяженность. Далее видно, что комплексный кепстр является затухающей последовательностью, ограниченной сверху

(2.13)

где б - максимальное абсолютное значение величин а,k bk, сk и dk, в -постоянный сомножитель.

Если Х(z) не содержит нулей и полюсов вне единичной окружности (т.е. bk = dk=0),то

(2.14)

Такие сигналы называются минимально-фазовыми [1]. Общий результат для последовательности (2.14) состоит в том, что такая последовательность полностью определяется действительной частью преобразования Фурье. Таким образом, для минимально-фазовых систем комплексный кепстр определяется лишь логарифмом модуля преобразования Фурье. Это можно легко показать, если вспомнить, что действительная часть преобразования Фурье представляет собой преобразование Фурье от четной части последовательности, т. е. если - преобразование Фурье кепстра, то

(2.15)

Используя (2.14) и (2.15) легко показать, что

(2.16)

Таким образом, для минимально-фазовых последовательностей комплексный кепстр можно получить путем вычисления кепстра и последующего использования (2.16). Другой важный результат для минимально-фазовых систем заключается в: том, что комплексный, кепстр можно вычислить рекуррентно по входному сигналу [1, 2, 5]. Рекуррентная формула имеет вид

(2.17)

Аналогичные результаты можно получить и тогда, когда Х(г) не содержит полюсов и нулей, лежащих внутри единичной окружности. Такие сигналы называют максимально-фазовыми. Для этого случая, как это видно из (2.12),

(2.18)

Совместное использование (2.14) и (2.15) даёт

(2.19)

Как и в случае минимально-фазовых последовательностей, здесь также можно получить рекуррентное соотношение для кепстра

(2.20)

2.2 Кодирование речи на основе линейного предсказания

Линейное предсказание является одним из наиболее эффективных методов анализа речевого сигнала. Этот метод - доминирующий при оценке таких основных параметров речевого сигнала как период основного тона, форманты, спектр, функция площади речевого тракта, а также при сокращённом представлении речи с целью её низкоскоростной передачи и экономного хранения. Важность метода обусловлена высокой точностью получаемых оценок и относительной простотой вычислений.

Линейное предсказание - это метод анализа, основанный на цифровой фильтрации оцифрованной речи, при которой текущий отсчет сигнала может быть «предсказан» (например, при автоматическом синтезе речи) линейной комбинацией прошлых значений выходной последовательности и настоящих, а также прошлых значений входной последовательности. Понятие «линейная комбинация» означает сумму произведений известных дискретных отсчетов сигнала (входных и выходных), умноженных на соответствующие коэффициенты линейного предсказания для предсказания (определения) неизвестного выходного отсчета. При линейном предсказании основная задача анализа речи - найти коэффициенты этой линейной комбинации, которые дают минимальную ошибку предсказания на участке анализа сигнала.

Модель сигнала, наиболее часто используемая при линейном предсказании, сводится к получению неизвестного отсчета х(n) без учета предыдущих входных воздействий на выходе некоторой системы

(2.21)

(2.22)

где р - число коэффициентов, используемых в модели; k - коэффициенты линейного предсказания; G - коэффициент усиления, определяющий вклад в линейную комбинацию входного отсчета; u(n) - текущий входной отсчет.

Задача анализа оцифрованной речи сводится к определению коэффициентов k и G этой модели. Метод определения величин, используемых при расчетах, называется методом наименьших квадратов. Чтобы понять его суть, пойдем на некоторые упрощения в представлении текущего выходного отсчета. Будем считать, что входное воздействие на вход системы, моделирующей формирование речевых сигналов, ненаблюдаемо, что справедливо для ряда прикладных задач. Тогда на интервале анализа текущие отсчеты речевого сигнала приближенно опишутся линейной комбинацией предыдущих значений.

х(n) = а1х(n -1) + а2х(n - 2) +... + аkх(n - k) +... + арх(n -р) = (2.23)

где х(n-1),...,х(n-р) - предыдущие значения речевого сигнала. Получаемая при этом ошибка предсказания ер называется иногда остатком предсказания и равняется

(2.24)

Коэффициенты линейного предсказания а вычисляются из условия минимума среднеквадратичного значения ошибки на интервале анализа. На этом интервале полная среднеквадратичная ошибка складывается для каждого отсчета сигнала, представленного линейной комбинацией р предыдущих значений сигнала

(2.25)

Здесь n - номер предыдущего отсчета сигнала на анализируемом интервале; k - номер предыдущего отсчета сигнала при построении линейной комбинации, представляющей текущий отсчет.

(2.26)

Коэффициенты линейного предсказания, минимизирующие полную ошибку предсказания Е, находятся после того, как выражение для полной ошибки продифференцировать по всем коэффициентам (полная ошибка предсказания может рассматриваться как функция параметров аk) и приравнять нулю все частные производные.

Частными производными называются производные сложной функции по одной из переменных с учетом того, что остальные переменные при таком дифференцировании считаются константами.

Результатом дифференцирования по а, является система из линейных уравнений с неизвестными коэффициентами линейного предсказания, минимизирующими ошибку линейного предсказания на отрезке анализа

сигнала, где коэффициенты k считаются постоянными.

Основной принцип метода линейного предсказания состоит в том, что текущий отсчет речевого сигнала можно аппроксимировать линейной комбинацией предшествующих отсчетов. Коэффициенты предсказания при этом определяются однозначно минимизацией среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями (на конечном интервале). Коэффициенты предсказания - это весовые коэффициенты, используемые в линейной комбинации.

Основные положения метода линейного предсказания хорошо согласуются с моделью речеобразования, где показано, что речевой сигнал можно представить в виде сигнала на выходе линейной системы с переменными во времени параметрами, возбуждаемой квазипериодическими импульсами (в пределах вокализованного сегмента) или случайным шумом (на невокализованном сегменте). Метод линейного предсказания позволяет точно и надежно оценить параметры этой линейной системы с переменными коэффициентами.

Идеи и методы линейного предсказания довольно давно обсуждаются в технической литературе. Эти идеи используются в теориях автоматического управления и информации, где их называют методами оценивания систем, или металлами идентификации систем. Под термином «идентификация» понимаются методы линейного предсказания (ЛП), основанные на оценивании параметров, однозначно описывающих систему при условии, что ее передаточная функция является полюсной. Применительно к обработке речевых сигналов методы линейного предсказания означают ряд сходных формулировок задачи моделирования речевого сигнала [1,2]. Эти формулировки часто отличаются в исходных предпосылках. Иногда они сводятся, к различным методам вычисления, используемым для оценки коэффициентов предсказания. Так, применительно к речевым сигналам существуют следующие методы вычисления (часто равноценные); ковариационный [3], автокорреляционный [1, 2, 9], лестничного фильтра [11, 12].

обратной фильтрации [1], оценки спектра [12], максимального правдоподобия [4, 6] и скалярного произведения [1].

Целесообразность использования линейного предсказания обусловлена высокой точностью описания речевого сигнала с помощью модели.

Модель речеобразования в дискретном времени представляется в форме, наиболее удобной для решения задач линейного предсказания. В этом случае общий спектр, обусловленный излучением, речевым трактом и возбуждением, описывается с помощью линейной системы с переменными параметрами и передаточной функцией

(2.27)

Эта система возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, модель имеет, следующие параметры: классификатор вокализованных и невокализованных звуков, период основного тона для вокализованных сегментов, коэффициент усиления G и коэффициенты {аk} цифрового фильтра. Все эти параметры, разумеется, медленно изменяются во времени.

Определение периода основного тона и классификация тон/шум могут быть осуществлены на основе использования ряда методов, в том числе с помощью рассматриваемых ниже методов линейного предсказания. Для вокализованных звуков хорошо подходит модель, содержащая только полюса в своей передаточной функции (чисто полюсная), но для носовых и фрикативных звуков требуется учитывать и нули. Если порядок р модели достаточно велик, то полюсная модель позволяет получить достаточно точное описание почти для всех звуков речи. Главное достоинство этой модели заключается в том, что как параметр G так и коэффициенты можно оценить непосредственно с использованием очень эффективных с вычислительной точки зрения алгоритмов.

Отсчет речевого сигнала s(n) связан е сигналом возбуждения u(n) простым разностным уравнением

(2.28)

Линейный предсказатель с коэффициентами аk определяется как система, на выходе которой имеем

(2.29)

Системная функция предсказателя р-го порядка представляет собой полином вида

(2.30)

Погрешность предсказания определяется как

(2.31)

Из (2.31) видно, что погрешность предсказания представляет собой сигнал на выходе системы с передаточной функцией

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11

Меню

Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов