WWW.PDF.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Разные материалы
 

Pages:   || 2 |

«МОДЕЛЬ, ЧИСЛЕННАЯ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ ОЦЕНИВАНИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО СИГНАЛА С ПОМОЩЬЮ СИНГУЛЯРНОГО СПЕКТРАЛЬНОГО АНАЛИЗА ...»

-- [ Страница 1 ] --

ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ

УДК [004.934:519.614:004.42]

На правах рукописи

ВОЛЬФ ДАНИЯР АЛЕКСАНДРОВИЧ

МОДЕЛЬ, ЧИСЛЕННАЯ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ

ОЦЕНИВАНИЯ ЧАСТОТЫ ОСНОВНОГО ТОНА РЕЧЕВОГО

СИГНАЛА С ПОМОЩЬЮ СИНГУЛЯРНОГО

СПЕКТРАЛЬНОГО АНАЛИЗА

Специальность 05.13.18 – «Математическое моделирование, численные методы и комплексы программ»

ДИССЕРТАЦИЯ

на соискание учёной степени кандидата технических наук

Научный руководитель:

доктор технических наук, профессор Мещеряков Роман Валерьевич Т О М СК 2 0 1 5 СОДЕРЖАНИЕ ВВЕДЕНИЕ

ГЛАВА 1. Обзор существующих методов и алгоритмов оценивания частоты основного тона речи.

Обзор моделей вокализированного сегмента речевого сигнала. Постановка задачи

1.1. Анализ состояния проблемы оценки частоты основного тона речи....... 13 1.1.1. Методы оценки частоты основного тона речи

Обзор отечественных алгоритмов оценивания ЧОТ

1.1.2.

Обзор зарубежных алгоритмов оценивания ЧОТ



1.1.3.

Оценка существующих алгоритмов оценивания ЧОТ

1.1.4.

1.2. Модели вокализированного сегмента речевого сигнала

1.2.1. Волновая модель Келли-Локбаума

Модель речевого тракта на основе уравнения Вебстера................ 37 1.2.2.

Гармоническая модель вокализированного сегмента речи............ 38 1.2.3.

1.3. Сингулярная модель вокализированного сегмента речи

1.3.1. Прямая задача

Обратная задача

1.3.2.

1.4. Постановка задачи и требования к сингулярному оцениванию частоты основного тона речи

1.5. Выводы по главе

ГЛАВА 2. Модель и численная реализация сингулярного оценивания частоты основного тона речевого сигнала.

Оценка методов и алгоритмов сингулярного спектрального анализа речи

2.2. Построение концептуальной модели сингулярного оценивания мгновенной частоты основного тона речи

2.2.1. Общий вид модели сингулярного оценивания ЧОТ

Анализ модели общего вида

2.2.2.

Переход к частному случаю

2.2.3.

2.3. Построение математической модели сингулярного оценивания мгновенной частоты основного тона речевого сигнала

2.3.1. Численная реализация модели

Математическая модель сингулярного оценивания частоты 2.3.2.

основного тона

2.4. Сингулярный спектральный анализ речевого сигнала

2.4.1. Решение проблемы собственных чисел в задачах анализа речи.... 63 Преобразования Хаусхолдера с ротацией Гивенса

2.4.2.

Метод Ланцоша для аппроксимации края сингулярного спектра. 75 2.4.3.

2.5. Выводы по главе

ГЛАВА 3. Комплекс алгоритмов для программной реализации сингулярного оценивания частоты основного тона речи

3.1. Реализация генератора сингулярного спектра речевого сигнала............ 79 3.1.1. Синтез генератора сингулярного спектра речи

Процедура Ганкелизации фонемного ряда

3.1.2.

Алгоритмизация метода Ланцоша для задачи аппроксимации края 3.1.3.

сингулярного спектра речи

Алгоритмизация QR-RQ цепочки для отыскания собственных пар 3.1.4.

Ритца

Реконструкция квазигармонического сингулярного спектра речи 94 3.1.5.

Компоновка генератора сингулярного спектра речи

3.1.6.

3.2. Реализация средства выбора квазигармонической составляющей......... 99 3.1.1. Синтез селектора

Алгоритмизация измерителя частоты временного спектра........... 99 3.2.2.

Процедура выбора наилучшего кандидата с ЧОТ

3.2.3.

Процедура уточнения значения ЧОТ

3.2.4.

Компоновка селектора

3.2.5.

3.3. Алгоритм сингулярного оценивания частоты основного тона.............. 104

3.4. Выводы по главе

ГЛАВА 4. Программная реализация сингулярного оценивания частоты основного тона речевого сигнала.

Экспериментальные исследования с моделью

4.1. Программная реализации сингулярного оценивания ЧОТ

4.1.1. Структура программного комплекса

Программная реализация алгоритмов на уровне методов............ 108 4.1.2.

Общий вид работы программного комплекса

4.1.3.

4.2. Экспериментальные исследования с моделью

4.2.1. Оценка временных характеристик сингулярного оценивания ЧОТ речи

Оценка адекватности модели сингулярного оценивания ЧОТ.... 114 4.2.2.

Оценка достоверности модели сингулярного оценивания ЧОТ.. 117 4.2.3.

4.3. Выводы по главе

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

Приложение А. Свидетельство о государственной регистрации программы для ЭВМ

Приложение Б. Акт о внедрении в Томском НИИ онкологии

Приложение В. Протокол испытания сингулярного измерителя частоты основного тона речевого сигнала

Приложение Г. Акт о внедрении в МКУ «Единая дежурно-диспетчерская служба Сургутского района»

Приложение Д. Акт о внедрении в учебный процесс (ТУСУР)

ВВЕДЕНИЕ Из всего живого только человека Создатель наградил даром речи [1], благодаря чему ему удалось столь значительно развить свои интеллектуальные способности и, по мнению многих философов, стать человеку человеком. Можно предположить, что нечто подобное происходит на наших глазах и с компьютером, интенсивно овладевающим широким спектром речевых технологий от работы со звуковыми файлами до синтеза, распознавания и понимания речи [2].

Создание систем распознавания речи, вокодерной телефонии, идентификации диктора по голосу связано с необходимостью выделения первичных признаков речевого сигнала в условиях реальной речевой обстановки [3]. Важнейшим параметром речевого сигнала является основной тон, содержащий информацию об интонационной структуре произнесения, индивидуальности голоса диктора и его эмоциональном состоянии, возрастных и патологических изменениях голосового аппарата [4, 5]. Данная научная работа направленна на решение проблемы оценивания частоты основного тона (ЧОТ) речевого сигнала. Задача определения ЧОТ речи, включая распределение амплитуд, периодов и начальных фаз гармоник, образующих сложный полигармонический сигнал, относится к классу сложных.

Существующие системы оценивания ЧОТ не позволяют проводить анализ речевой информации с учетом особенностей речеобразования и речевосприятия, связанных с анатомией и физиологией человека, так как методы анализа, лежащие в их основе, ограничены периодической (стационарной) моделью речевого сигнала, которая подразумевает точное повторение периода и амплитуды основного тона и не допускает их изменения на протяжении окна анализа. В свою очередь, это влияет на точность результатов оценивания ЧОТ. В данной научной работе предлагается модель речевого сигнала на основе сингулярного спектрального анализа (далее - сингулярная модель), которая позволяет рассматривать речеобразующий тракт как систему акустических резонаторов, в которой параметрами выступают собственные значения и собственные векторы, содержащие информацию о структуре речевого сигнала с учетом нестационарных амплитуд, периодов и фаз гармоник, входящих в его состав. Данное свойство обусловлено тем, что пространство собственных векторов образует нестационарный базис, в который проецируется речевой сигнал.

В медицинских приложениях речевых технологий повышение точности вычислений является актуальной задачей. Однако повышение точности вычисления ЧОТ приводит к увеличению вычислительной сложности. Разработанная новая модель оценивания частоты основного тона на основе сингулярного спектрального анализа (далее - сингулярное оценивание ЧОТ) позволяет сократить временную обработку речевого сигнала за счет аппроксимации края сингулярного спектра, выделяя главные компоненты, образующие речевой сигнал для случая неизвестных априорных распределений амплитуд, периодов и начальных фаз гармоник.

В качестве математического инструмента для исследования речевых сигналов выбран аппарат сингулярного спектрального анализа (ССА «Гусеница»), разработанного и обоснованного в конце XX века сотрудниками СанктПетербургского государственного университета [6, 7].





В современной зарубежной литературе описан широкий класс методов, алгоритмически и идейно близких к методу «Гусеница», в основном метод известен как Singular Spectrum Analysis (SSA) [8-10]. Метод основан на анализе главных компонент и позволяет исследовать стационарные и не стационарные временные ряды.

Связь между классическими методами анализа стационарных временных рядов и методом главных компонент рассматривается в работах Бриллинджера [11]. Например, в работе Bagshaw [12] утверждается, что методы, работающие во временной области, обладают наименьшей ошибкой, по сравнению с другими методами (частотными), принятия решения о присутствии голоса в речи (voicing decision error rate) – не более 17%. Кроме того, в работе [13] показано, что такие методы являются наиболее робастными в отношении принятия решения о вокализованном или невокализованном сегменте речи в условиях шума (voiced-unvoiced decision), искажений и побочных помех в сигнале.

Проблематикой эффективного оценивания ЧОТ речевого сигнала занимались такие ученые как Г. Фант, Дж. Фланаган, М.А. Сапожков, В.Н. Сорокин, В.И. Галунов, Б.М. Лобанов, Т.К. Винцюк, Л.В. Златоустова, А.В. Аграновский, Н.Г. Загоруйко, Ю.А. Косарев, А.Л. Ронжин, М.В. Хитров, С.Л. Коваль, В.Г.

Михайлов, В.П. Бондаренко, М.Б. Столбов, др. Поэтому настоящая научная работа посвящена решению проблемы оценивания частоты основного тона, так как разработка новых методов оценивания ЧОТ речи является актуальной задачей.

Цель исследования Целью исследования является уменьшение вычислительной сложности алгоритмов анализа речевого сигнала при оценивании частоты основного тона с учетом особенностей речеобразования и речевосприятия, связанных с анатомией и физиологией человека для случая неизвестных априорных распределений амплитуд, периодов, начальных фаз гармоник.

Для достижения поставленной цели в данной научной работе решается задача разработки модели оценивания частоты основного тона речевого сигнала, которая позволяет:

— уменьшить вычислительную сложность алгоритмов анализа речевого сигнала;

— учитывать особенности речеобразования и речевосприятия, связанных с анатомией и физиологией человека для случая неизвестных априорных распределений амплитуд, периодов, начальных фаз гармоник, а также численная и программная реализация модели.

Методика исследования Для решения задач, сформулированных в данной научной работе, использовались методы системного анализа, сингулярного спектрального анализа, цифровой обработки сигналов, математической статистики, фонетики, психоакустики.

Степень достоверности результатов работы Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата, адекватностью и достоверностью модели, установленной путем сравнения реакции модели и известных аналогов на тестовые сигналы, большим количеством экспериментальных данных, подтверждающих теоретические результаты, а также внедрением разработанного комплекса алгоритмов в практику.

Научная новизна

Научную новизну настоящей работы определяют:

1. Модель оценивания частоты основного тона, основанная на сингулярном спектральном анализе, в отличие от классических моделей позволяет уменьшить вычислительную сложность алгоритмов анализа речевого сигнала.

2. Численный метод расчета частоты основного тона, использующий метод главных компонент для анализа временных рядов, в отличие от известных в литературе численных методов, учитывает особенности генерации речевого сигнала человеком и элементы психоакустики.

3. Комплекс алгоритмов, позволяющий разрабатывать программы, обеспечивающие меньшее количество ошибок оценивания частоты основного тона за счет использования сингулярной модели вокализированного сегмента речи, учитывающей нестационарные параметры основного тона с помощью собственных чисел.

Практическая значимость работы

Разработанные модель и алгоритмы позволят:

1) разрабатывать программное обеспечение для детального анализа параметров основного тона речевого сигнала в режиме реального времени;

2) формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи.

Положения, выносимые на защиту

1. Использование модели сингулярного оценивания частоты основного тона позволяет уменьшить вычислительную сложность алгоритмов анализа речевого сигнала на 37% путем аппроксимации края сингулярного спектра.

2. Численный метод расчета частоты основного тона, использующий метод главных компонент, позволяет проводить анализ речевого сигнала человека с погрешностью не более 0,2%.

3. Комплекс алгоритмов сингулярного оценивания частоты основного тона позволяет разрабатывать программы, обеспечивающие меньшее количество ошибок оценивания частоты основного тона за счет использования сингулярной модели вокализированного сегмента речи, учитывающей нестационарные параметры основного тона с помощью собственных чисел.

Апробация работы По материалам диссертации опубликовано 16 работ, из них 5 статей в журналах, входящих в перечень рецензируемых научных журналов и изданий, 11 публикаций в материалах международных и всероссийских научных конференциях.

Внедрение результатов Разработанные модель и алгоритмы сингулярного оценивания частоты основного тона речи используются:

— в комплексе программ реабилитации пациентов после полной или частичной потери звучной речи в результате ларингоэктомии (Свидетельство о государственной регистрации программы для ЭВМ № 2015618857 – "Программа речевой реабилитации больных после резекции гортани"). Данный комплекс программ используется в кабинете логопеда отделения опухолей органов головы и шеи в Федеральном государственном бюджетном научном учреждении «Томский научно-исследовательский институт онкологии»;

— в качестве одного из модулей вокодера системы записи телефонных разговоров муниципального казенного учреждения «Единой дежурнодиспетчерской службы Сургутского района» – органа повседневного управления Сургутского районного звена территориальной подсистемы РСЧС (МКУ «ЕДДС Сургутского района»);

— в учебном процессе при выполнении научно-исследовательской работы студентами кафедры комплексной информационной безопасности электронно-вычислительных систем Томского государственного университета систем управления и радиоэлектроники (КИБЭВС) в части проведения группового обучения студентов кафедры КИБЭВС (Проект ФВС ГПО.5711305 -01 81 01 ПЗ «Сегментация речевых сигналов с применением быстрых численных методов») для подготовки специалистов по специальности 10.05.03 – Информационная безопасность автоматизированных систем, и 21.02.02 – Проектирование и технология электронно-вычислительных средств. Эффективная программная реализация алгоритмов сингулярного спектрального анализа речи позволила повысить скорость и объемы вычислительных экспериментов, проводимых в рамках базовой части государственного задания ТУСУР – проект № 3657 (2015г.) на базе лаборатории речевых технологий Центра технологий безопасности ТУСУР.

Личное участие автора в получении результатов Основные научные результаты получены лично автором. Постановка изложенных в диссертации задач сделана совместно с научным руководителем аспиранта профессором Мещеряковым Р.В. На основе проведенного анализа возможности снижения вычислительной сложности существующих алгоритмов оценивания частоты основного тона, автором были разработаны новые эффективные численные методы и алгоритмы, реализованные в виде комплекса программ. Автор применяет сингулярную модель вокализированного сегмента речевого сигнала с помощью которой разрабатывает модель, алгоритмы и программную реализацию сингулярного оценивания частоты основного тона речи.

C 2012 г. автор занимается решением прикладных задач анализа и синтеза речевых сигналов с помощью математического аппарата сингулярного спектрального анализа.

Теоретическая ценность научной работы.

Теоретическая ценность работы заключается в развитии теории математического моделирования процессов речеобразования и речевосприятия, численных расчетах обработки речевых сигналов с использованием сингулярного спектрального анализа.

Обоснование структуры работы В первой главе проводится анализ состояния проблемы оценки частоты основного тона речи, в котором рассматриваются существующие методы оценивания частоты основного тона речи с последующим обзором наиболее популярных алгоритмов RAPT, YIN, AC-P, AC-S, ANAL, CC, CEP, ESRPD, SHS, SHR, TEMPO, SWIPE'. Для получения собственных результатов проводится постановка эксперимента по оцениванию эффективности измерения частоты основного тона известными алгоритмами. В эксперименте рассматривается процент грубых ошибок (gross pitch errors - GPE), допускаемых в процессе оценивания ЧОТ речи. В качестве исходного материала для проведения акустического анализа выбираются базы данных: Disordered Voice Database (DVD); Keele Pitch Database (KPD); Paul Bagshaw’s Database (PBD). Далее рассматриваются различные модели вокализированного сегмента речевого сигнала. На основе гармонической модели осуществляется переход к сингулярной модели вокализированного сегмента речи, в которой рассматривается прямая и обратная задача. Осуществляется постановка главной задачи, где формулируются требования к модели сингулярного оценивания частоты основного тона речи.

Во второй главе осуществляется эвристическое построение концептуальной модели сингулярного оценивания частоты основного тона речи. Далее осуществляется переход к численному представлению модели. Рассматривается сингулярный спектральный анализ речевого сигнала, в котором прорабатывается вопрос о быстром численном методе спектрального разложения речи, далее проводятся оценки численных методов.

В третьей главе рассматривается реализация алгоритмов сингулярного оценивания частоты основного тона речевого сигнала в составе:

– генератора сингулярного спектра речевого сигнала;

– процедуры выбора квазигармонической составляющей, соответствующей частоте основного тона речи из спектра квазигармоник фонемного ряда.

В заключительной части главы полученные алгоритмы компонуются в главный алгоритм сингулярного оценивания частоты основного тона речевого сигнала.

В четвертой главе представлена программная реализация разработанной модели и алгоритмов. Приведена структура программного комплекса сингулярного оценивания частоты основного тона речи. Далее проводятся экспериментальные исследования с моделью, в которых даются оценки адекватности и достоверности модели. Обосновывается возможность применения комплекса в исследованиях, направленных на получение параметров основного тона речевого сигнала в режиме реального времени. Проводятся экспериментальные исследования с моделью, в результате которого даются оценки адекватности и достоверности.

ГЛАВА 1. Обзор существующих методов и алгоритмов оценивания частоты основного тона речи.

Обзор моделей вокализированного сегмента речевого сигнала. Постановка задачи В главе проводится анализ состояния проблемы оценивания частоты основного тона речевого сигнала. Рассматриваются существующие методы оценивания частоты основного тона речи, осуществляется обзор наиболее популярных алгоритмов и проводится их оценка. Далее рассматриваются модели вокализированного сегмента речевого сигнала, где на основе гармонической модели осуществляется переход к сингулярной модели вокализированного сегмента речи. Осуществляется постановка главной задачи, в которой выдвинуты требования к модели сингулярного оценивания частоты основного тона речи.

Анализ состояния проблемы оценки частоты основного тона речи 1.1.

–  –  –

Известно, что участки вокализированной речи человека характеризуются энергией периодических колебаний голосовых складок. Голосовой источник может быть представлен в виде пульсирующего воздушного потока, где частота (период) повторения импульсов голосового источника носит название частоты (периода) основного тона. Основной тон (ОТ), являясь одним из основных параметров речевого сигнала, в существенной мере определяет структуру речевого сообщения [14]. Интонационный контур высказывания есть траектория изменения мелодии частоты ОТ. Просодика высказывания, одной из составляющих которой служит интонация, есть существенное отличие акустического сигнала речи от письменной речи. Частота (период) ОТ переносит существенное количество информации, содержащейся в речевом сигнале. Выделение частоты ОТ, с точки зрения представленной в нем информации, представляет самостоятельный интерес [14]. При этом необходимо определять, как относительно медленные изменения (мелодия) траектории частоты ОТ, так и быстрые ее изменения, моменты включения и отключения голосового источника. С другой стороны, и при построении систем анализа, синтеза, распознавания и сжатия речи, необходимо измерять частоту ОТ, которую используют как один из основных признаков, необходимых для описания речевого сигнала.

При работе с реальным речевым сигналом оцениватель ЧОТ должен [14]:

1) быть шумозащищенным;

2) быть нечувствителен к линейным и нелинейным искажениям;

3) обеспечивать высокую точность оценивания частоты ОТ;

4) сохранять точность при больших пределах изменения частоты ОТ, при смене диктора, при смене условий передачи, при наличии микровариаций ЧОТ;

5) работать на сигнале непрерывной речи;

6) иметь адекватный детектор вокализации;

7) работать в реальном масштабе времени.

Для извлечения максимального количества информации, содержащейся в контуре сигнала ОТ, следует предъявить следующее дополнительное требование к системам выделения ЧОТ: оцениватель ЧОТ должен оценивать мгновенные значения периода (частоты) ОТ.

Основные методы оценивания ЧОТ речевого сигнала можно рассматривать в следующей классификации [15]:

1. Методы, основанные на амплитудной селекции (амплитудные методы).

2. Корреляционные методы.

3. Методы, основанные на частотной селекции (спектральные методы):

— оконное преобразование Фурье;

— вейвлет-преобразования.

4. Методы, основанные на кепстральном анализе.

5. Методы на основе линейного предсказания.

Из данной классификации можно выделить два типа подходов: спектральные и временные. Спектральные обычно основаны на извлечении спектральных пиков. Временные используют, как правило, корреляционный подход. В последнее время было предложено несколько методов, которые по характеристикам превосходят традиционные. Какие-то методы обладают большей точностью, а какие-то большей устойчивостью к шумам. Рассмотрим принципы работы наиболее популярных методов из классификатора.

В методах, основанных на амплитудной селекции вычисляется расстояние между глобальными максимумами результаты которого можно принять за период ОТ. Необходимость подавления локальных ложных максимумов является проблемой алгоритмов амплитудной селекции [15, 16, 17]. Для решения данной проблемы обычно повышается порог срабатывания в схеме поиска максимумов. Однако при этом увеличивается вероятность пропуска истинного максимума. Пропуск и потеря максимума может привести к существенным искажениям звука в процессе синтезирования. Добавление второго канала амплитудной селекции, выделяющей положение минимумов речевого сигнала, увеличивает надежность определения периода ОТ. Тем не менее даже при относительно небольшом уровне шумов проявляются неустойчивость метода и существенное снижение точности определения ОТ. Достоинством данного метода является простота в реализации.

В основе корреляционных методов определения периода ОТ речевого сигнала заложены принципы оценки среднего значения периода пульсаций квазипериодической корреляционной функции [15, 18]. В частном случае вычисляется первый глобальный максимум корреляционной функции [15, 19]. Частота основного тона f0 рассчитывается в виде соотношения fd f0, N p 1 где fd – частота дискретизации;

N p1 – среднее число отсчетов корреляционной функции, через которое повторяются пульсации [20];

p – число глобальных максимумов корреляционной функции взятых для усредненной оценки N p1.

Для поиска первого глобального максимума применяется следующий подход. Пусть речевой сигнал представлен в виде последовательности отсчетов Si, i=1,2,…, тогда для вокализированных звуков можно считать, что временной вид речевого колебания почти точно повторяется на каждом очередном периоде ОТ S n S nT, где T – период ОТ, выраженный в числе отсчетов.

В качестве оценки периода ОТ T=1/f0 выбирается значение, минимизирующее целевую функцию, которая определяется как сумма квадратов разностей между отсчетами сигнала (n+i) и отсчетами сигнала (n-k+i), смещенными на некоторое число отсчетов [15, 19]. Т.е. в момент времени n выбирается значение k, минимизирующее функцию N L( n, k ) ( S n i S n k i ) 2.

i 1

–  –  –

Данный подход обеспечивает существенно более высокую достоверность определения периода ОТ по сравнению с методами амплитудной селекции. При этом следует отметить значительную вычислительную сложность данного подхода. Корреляционные методы оценивания периода ОТ имеют общий недостаток, заключающийся в неустойчивой работе в случае, когда речевой сигнал модулирован по амплитуде. Энергия реальной, эмоционально окрашенной речи изменяется даже на квазистационарных участках, соответствующих одной фонеме. Так, например, в стандарте G.723 (регламентирующий способ сжатия речевого сигнала для видеоконференций) целевая функция модифицируется как N L( n, k ) ( S n i k S n k i ) 2, i 1 где параметр k имеет смысл коэффициента усиления. Для сдвига k оптимальное значение k вычисляется по формуле N

–  –  –

Данный подход позволяет получить достаточно точную оценку ОТ, которая плавно меняется во времени в соответствии с изменением речи.

Спектральный метод оценивания основан на том, что при вокализованном возбуждении речевого тракта в спектре сигнала присутствуют пики на частотах, кратных частоте ОТ. Если построить дискретное преобразование Фурье с достаточно малым шагом дискретизации по частоте, то можно попытаться в качестве оценки частоты ОТ использовать частоту, соответствующую максимальному значению энергии спектра. Поиск максимума обычно производится в интервале {70-80} – {350-500} Гц. Однако часто возникает ситуация, когда в указанной полосе лежит и вторая гармоника ОТ, иногда даже с большей энергией. В этом случае она будет ошибочно принята за оценку ОТ. Решение данной проблемы описано в [21]. Поэтому ищут не максимум спектра Xn(k), а некоторую функцию уплотнения спектра.

R Pn (k ) X n (kr), r 1 где индекс n указывает на то, что и спектр Xn(k) и функция Pn(k) вычислены в момент времени n. Учитывая то, что логарифм монотонно возрастает в области допустимых значений, целевая функция принимает вид ~ R Pn (k ) ln( Pn (k )) ln( X n (kr) ).

2 r 1 Эта функция представляет собой сумму R сжатых по частоте в r раз логарифмов спектра мощности. Суть идеи состоит в том, что для истинной частоты основного тона вторая гармоника второго слагаемого сложится с первой гармоникой первого слагаемого и усилит ее. Аналогично для третьего слагаемого и т.

д. В результате для вокализованного звука будет иметь место ярко выраженный ~ пик функции Pn (k ) на частоте ОТ. Для невокализованного звука суммирование будет иметь хаотический характер.

В общем случае оценка значений спектра является несостоятельной и может иметь большие погрешности. Для уменьшения ошибки оценки спектральных составляющих, например, нормированной спектральной плотности мощности, применяют методику спектральных окон. Выбор спектрального окна (весовой функции) при анализе определяется в результате компромисса между разрешающими способностями по частоте и во времени [15, 17, 21, 22].

Однако применение нелинейного преобразования спектра и окон может вносить большие смещения, что существенно снижает точность оценки.

Метод оценки ЧОТ на основе вейвлет преобразования относительно новый и развивающийся метод, базирующийся на применении непрерывного или дискретного вейвлет анализа. Положительная сторона данного метода для генерированного эталонного четырехгармонического сигнала относительная погрешность оценки ЧОТ и формантных частот не превышала 0,38% [15, 23].

Недостатком данного метода является:

— необходимость корректировки окна преобразования под каждую оцениваемую частоту;

— большие вычислительные затраты (особенно для систем реального времени).

Кепстральный метод оценивания ЧОТ состоит в вычислении и анализе кепстра – обратного преобразования Фурье комплексного логарифма спектра мощности речевого сигнала [21, 24-27]. Для увеличения скорости вычисления ЧОТ в данном методе преобразование Фурье выполняют с помощью алгоритма быстрого преобразования [28]. Длительность анализируемого речевого кадра не должна превышать длительности, по крайней мере, двух-трех наиболее длинных для данной фонограммы периодов основного тона и быть кратной степени двух, что составляет обычно 512 отсчетов для низких мужских голосов и 256 для женских и высоких мужских голосов (при частоте дискретизации, равной 10кГц). В то же время, чем больше окно, тем дольше вычисляется основной тон и тем хуже отслеживаются быстрые изменения частоты ОТ. Для снятия эффекта наложения частот используют окно Xанна [29]. Наличие выраженного максимума в кепстре в диапазоне от 2мс до 20мс очень точно указывает на то, что данный кадр является вокализованным, а положение максимума определяет период анализируемого сигнала. Алгоритм вычисления периода основного тона кепстральным методом заключается в следующем. Длина кадра, анализируемого с помощью кепстра, обычно равна 512 отсчетам для мужских голосов и 256 для женских голосов. Сдвиг от кадра к кадру обычно задают равным 1/16-1/4 длины кадра анализа. Для оптимизации выделения ОТ, особенно на зашумленных или хриплых сигналах, можно задать значения границ полосы частот спектра, по которой вычисляют кепстр сигнала и на его основе - значение периода ОТ. Для каждого анализируемого кадра полученный кепстр исследуется с целью отыскания пика в области возможных значений ОТ. Если пик в кепстре превышает порог, то кадр классифицируется как вокализованный, а положение пика дает оценку периода основного тона [30].

Однако алгоритмы использующие данный метод имеют ряд существенных недостатков:

— необходимость применения дополнительной методики вычисления порога для оценки периода ОТ в области возможных значений;

— невозможность работы в реальном масштабе времени;

— необходимость применения временных окон и операций сглаживания;

— низкая точность оценки при сильной узкополосности гармоники основного тона [21].

Алгоритмы оценки ЧОТ основанные на методе линейного предсказания, используют принцип обратной фильтрации (обратный линейный фильтр). В основе данного метода используется приближенная модель речеобразования, в которой отсчет речевого сигнала sn связан с некоторым сигналом возбуждения un разностным уравнением p sn k snk Gun, k 1

–  –  –

где A(z) – является обратным фильтром для отношения G Hz, Az которое возбуждается импульсной последовательностью для вокализованных звуков речи и шумом для невокализованных. Таким образом, основная задача анализа на основе линейного предсказания сводится к непосредственному вычислению параметров k по речевому сигналу с целью получения хороших оценок его спектральных свойств путем использования данного отношения выше. При приближении частоты повторения в обратном фильтре к частоте ОТ происходит все более и более сильное выравнивание спектра. Таким образом, трудность заключается в постоянном расчете спектра речевого сигнала при подстройке частоты повторения в обратном фильтре A(z). Метод дает достаточно удовлетворительные оценки, пока спектр выравнивается достаточно хорошо, однако появляется новая задача определения степени равномерности спектра после обратной фильтрации, а при частотах ОТ выше 200Гц данный метод оценки приводит к плохим результатам [19].

Подводя итог относительно рассмотренных методов заключим, что корреляционная функция является Фурье-преобразованием энергетического спектра, и положения ее пиков соответствуют расстояниям между равномерно расположенными гармониками спектра. В кепстральном анализе в место энергетического спектра используется логарифм амплитудного спектра. Таким образом, уменьшается влияние высокоамплитудных участков спектра. Это особенно важно для области частот первой форманты, которая часто отрицательно влияет на качество работы корреляционного анализа. Схожие эффекты "спектральной очистки" могут быть получены с помощью обратной фильтрации с предсказанием или центрального клиппирования [21], либо с помощью разделения сигнала на несколько частотных полос, и вычислением корреляционной функции в каждой полосе с последующей нормировкой и суммированием [31]. Использование моделей слуха на основе корреляционных методов на сегодняшний день является одним из самых популярных подходов к объяснению восприятия основного тона [32, 33].

На основе представленных методов оценивания ЧОТ разработано достаточно много алгоритмов как отечественных, так и зарубежных аналогов. Ниже рассмотрим наиболее популярные алгоритмы и попробуем сформулировать некоторую оценку.

Обзор отечественных алгоритмов оценивания ЧОТ 1.1.2.

Известны различные способы оценивания ЧОТ. Некоторые из них используются в современной технике, предназначенной для импульсного кодирования телефонных переговоров. Технология выделения ЧОТ обычно сопровождается процессом фильтрации с частотно-зависимым затуханием и фазовой коррекцией в полосе пропускания. Фильтровые методы выделения основного тона, используемые в отечественной аппаратуре, вносят значительные замедления для выделяемого сигнала основного тона, искажают истинную величину периода основного тона в динамике речи.

Так, например, известен способ оценивания частоты основного тона [34], основанный на преобразовании речевых колебаний в импульсную последовательность. Каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход). Используется свойство, что на периоде основного тона последовательности межимпульсных интервалов повторяются.

Однако данный способ обладает существенным недостатком, который связан с пропусками интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит благодаря тому, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными.

Известен также способ оценивания ЧОТ с помощью узкополосного фильтра [35], следящего за изменением частоты первой гармоники речевого сигнала, причем ширина полосы итерационно подстраивается под среднюю частоту основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря обратной связи. Данный способ проявляет хорошую работоспособность при условии, что фильтр подстраивается под диктора в течение нескольких минут. Однако способ не пригоден для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд.

Известен также способ оценивания частоты основного тона с использованием трехканального метода обработки речевого сигнала [36]. В первом канале проводится амплитудная селекция по схеме Голда, во втором канале используется аппроксимация первой гармоники основного тона экспоненциальной функцией, и в третьем канале проводится вычисление корреляционной функции по схеме Медана. Считается, что частота основного тона найдена, если разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину. Недостаток данного способа проявляется в невозможности обнаружения речи на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума, а также невозможность формирования вектора признаков сигналов для систем распознавания речи, идентификации дикторов и идентификации языка, устойчивого к изменению статистических свойств шума, на фоне которого проводится распознавание или идентификация.

Также известна система оценивания ЧОТ, представленная в патенте [37].

В ее состав входят последовательно соединенные блок вычисления спектра Фурье, интегратор, вычислитель значений определителя автокорреляционной матрицы, блок проверки синхронности и блок аппроксимации подпоследовательностей квадратичной функцией, а также выделитель ОТ по схеме Голда и блок выделения ОТ с полосовым фильтром, включенные между выходом указанного вычислителя и соответствующими входами блока проверки синхронности. Принцип действия данной системы основан на разложении речевого сигнала в последовательность спектров Фурье, нахождении абсолютного максимума, вычислении среднего значения аргумента последовательности полученных максимумов, оценке средней ЧОТ исследуемого речевого сигнала, амплитудной селекции сигналов, вычислении значений определителя автокорреляционной матрицы и фильтрации этих значений. Недостатком данного способа является низкая точность, которая связана с сильной зависимостью схемы в целом от точности каждого алгоритма, входящего в его состав, например, в данном изобретении используется блок дискретного преобразования Фурье, который не лишен проблем, связанных с эффектом Гиббса и ложными результатами при анализе не стационарных временных рядов. А амплитудная селекция экстремальных значений по методу Голда требует для выделения ОТ громоздкой технической реализации для обработки ряда статистических параметров, особенно для систем реального времени.

Обзор зарубежных алгоритмов оценивания ЧОТ 1.1.3.

В настоящее время популярны следующие алгоритмы: RAPT [38], YIN [39], SWIPE' [40], SHS [41] и т.д.

Рассмотрим известные из них:

Robust Algorithm for Pitch Tracking (RAPT) – широко распространенный алгоритм с хорошо изученными преимуществами и недостатками, имеет относительно низкую алгоритмическую задержку, низкую вычислительную сложность и обеспечивает хорошую устойчивость к ошибкам в условиях зашумленности. Практические эксперименты показывают, что RAPT в большинстве случаев более других алгоритмов устойчив к влиянию частотных модуляций ОТ. В основе данного алгоритма используется нормированная кросскорреляционная функция (НККФ) в качестве основной функции генерации кандидатов ЧОТ речи. Также имеется подсистема динамического программирования для уточнения оценки ЧОТ. Функция НККФ позволяет оценить степень периодичности сигнала в зависимости от задержки сигнала в отсчетах.

В RAPT предполагается, что анализируемый речевой сигнал обладает следующими характерными свойствами [38, 42]:

— для невокализованной речи значения НККФ (за исключением нулевой задержки) значительно ниже единицы;

— при переходе от невокализованного фрейма к вокализованному, амплитуда сигнала увеличивается, и, наоборот, при переходе от вокализованного к невокализованному уменьшается;

— когда имеется несколько локальных максимумов НККФ близких к единице, то выбирается тот, который соответствует наименьшему периоду;

— кратковременный спектр вокализованных и невокализованных фреймов речи обычно существенно различны;

— максимумы НККФ смежных фреймов расположены близко друг к другу, поскольку ЧОТ изменяется медленно;

— изменение состояния вокализованности происходит редко;

— ЧОТ иногда может резко увеличиться или уменьшиться;

— локальный максимум НККФ, соответствующий действительному периоду ОТ речи (кроме нулевой задержки), является наибольшим и близким к единице.

Функция НККФ i;k (для задержки k и анализируемого кадра i) для входного сигнала определяется как:

–  –  –

где S – входной сигнал;

n – число отсчетов в каждом окне анализа;

w – шаг окна анализа.

Вычисление функции НККФ достаточно затратная операция, поэтому в RAPT сначала осуществляется анализ кадров с пониженной частотой дискретизации.

Основные шаги алгоритма осуществляются по следующему принципу [38, 42]:

1. Создаются две версии анализируемого фрагмента речи: одна с исходной частотой дискретизации, другая с пониженной.

2. Вычисляется НККФ для всех фреймов речевого сигнала с пониженной частотой дискретизации и всех задержек из допустимого диапазона периода ОТ.

3. Осуществляется поиск и сохранение локальных максимумов полученных значений НККФ.

4. Вычисляется НККФ для всех фреймов сигнала с исходной частотой дискретизации в окрестностях локальных максимумов, найденных на предыдущем шаге.

5. Выполняется поиск и сохранение локальных максимумов полученных значений НККФ с высоким разрешением дискретизации.

6. Каждый из найденных максимумов является кандидатом периода ОТ для соответствующего речевого фрейма.

7. С помощью динамического программирования осуществляется поиск контура ЧОТ найденных кандидатов периода [43].

Для сравнительных оценок оригинальная версия алгоритма RAPT реализован в пакете Voicebox [44].

YIN pitch tracker алгоритм [39], использующий функцию "разности" (ФР), полученную на основе функции автокорреляции. ФР используется в генераторе кандидатов ЧОТ в связке с определенным числом шагов оптимизации.

Оценивание ЧОТ данным алгоритмом осуществляется по следующему принципу:

1. В момент, когда автокорреляционная функция стремится максимизировать результат произведения между формой волны и отложенным ее дубликатом, ФР сводит к минимуму разницу между формой волны и отложенным ее дубликатом. Иными словами, предполагается, что разница между периодическим сигналом xt периода T и его смещенной во времени версией xt+T равна нулю, т. е.

<

–  –  –

Такое допущение становится верным после возведения в квадрат и усреднение переменных на интервале анализа. Период ОТ можно вычислить, если найти в анализируемом интервале значение величины, в результате ФР, dt () j1 ( x j x j )2 W будет равна нулю. Т.е. в случае идеального периодичного сигнала эта функция имеет нули на смещениях, кратных периоду, а в случае неидеальной периодичности близка к нулю.

2. На основе функции разности проводится нормирование накопленного среднего значения. Накопленное среднее значение нормализует функцию разности, чтобы обеспечить квазипериодичность ОТ, таким образом алгоритм YIN нормируется по среднему накопленному значению и устанавливает величину 1 для = 0 как если 0 d't () d t () / [(1 / ) j 1 d t ( j )] иначе.

Данная функция опускается ниже единицы только когда значение dt() меньше среднего значения dt() на интервале от 1 до. Функция не имеет "провала" на нулевом смещении, а ложные минимумы, порождаемые первой формантой, выражены слабее. За счет введения d’t() уменьшается число завышенных оценок ЧОТ и снимается ограничение на максимальную искомую частоту.

3. На последнем этапе оценивается абсолютный порог, проводится параболическая интерполяция и поиск локальных значений – эти три последних шага обеспечивают замену абсолютного порога на наименьшую величину, которая принималась ранее. Параболическая интерполяция используется для корректирования местоположения пика и поиска начальных маркеров ЧОТ для дальнейшего уточнения расчетов. Данный алгоритм является одним из наиболее точных технологий оценивания ЧОТ, но для сигналов с хорошим отношением сигнал-шум.

Sawtooth Waveform Inspired Pitch Estimator (SWIPE') – это алгоритм вычисления ЧОТ на основе корреляции речевого сигнала с пилообразным импульсом (SWIPE), был разработан Камачо и Харрисом (Camacho A., Harris J.G.) [40]. Основой послужил существующий алгоритм SWIPE. Принцип работы данного алгоритма заключается в измерении среднего расстояния между спадами и пиками в спектре в гармонических колебаниях ОТ (Average Peak-toValley Distance - APVD). Например, если сигнал является периодическим с ЧОТ f0, то его спектр должен содержать пики на кратных частотах f0 и впадины между ними. Если каждый пик находится в окружении двух впадин, то среднее расстояние от пика до впадины для k-го пика определяется как (APVD) k - 1 1 k - 1 d k ( f 0 ) [| X (kf 0 ) | - | X f 0 |] - [| X (kf 0 ) | - | X f 0 |] 2 2 2 1 k - 1 k - 1 [| X (kf 0 ) | - [| X f0 | | X f 0 |], 2 2 2 где X – набор данных с речевыми отсчетами;

k – кратность (k-й пик).

Далее каждое конкретное значение dk(f0) усредняется для первых n пиков (APVD) в соответствии с выражением 1n Dn ( f 0 ) d k ( f 0 ) n k 1 1 k - 1 k - 1 [| X (kf 0 ) | - [| X f0 | | X f 0 |].

2 2 2 На базе данного алгоритма разработана его продвинутая модификация – SWIPE', усовершенствованная в 2007-м году Артуром Камачо [45]. Оригинальная реализация данного алгоритма осуществлена для среды Matlab в качестве функции pitchStrengthOneCandidate. На сегодняшний день SWIPE' является практически лидером существующих алгоритмов оценивания ЧОТ. Грубые оценки ЧОТ для данного алгоритма показывают нулевой результат при соотношении сигнал-шум 5-25dB, в условиях модуляции ОТ в пределах 2Гц/мс.

AC-P алгоритм [46], вычисляющий автокорреляцию сигнала c дальнейшим делением на автокорреляцию окна анализируемого речевого сигнала. Далее в подсистеме постобработки, осуществляется отбор кандидатов ЧОТ. Алгоритм реализован в качестве функции ac в программе Praat [47];

AC-S алгоритм, основанный на автокорреляции сигнала кубической формы. Алгоритм реализован в системе SFS (Speech Filing System) [48] в качестве функции fxac [49];

ANAL алгоритм [50], использующий автокорреляционную функцию и динамическое программирование [43] для отбора кандидатов ЧОТ. Алгоритм реализован в системе SFS [48] в качестве функции fxanal [51];

CC алгоритм [52], использующий кросскорреляционные методы для оценки ЧОТ речи и подсистему постобработки для отбора кандидатов ЧОТ.

Алгоритм реализован в качестве функции cc в программе Praat [47];

CEP алгоритм, основанный на вычисление кепстра речевого сигнала.

Алгоритм реализован в системе SFS [48] в качестве функции fxcep [53];

ESRPD алгоритм [54, 55], использующий нормированную кросскорреляционную функцию и систему постобработки для отбора кандидатов ЧОТ.

Алгоритм реализован в системе FSFS (Festival Speech Filing System) в качестве функции pda [56];

SHS алгоритм [41], использующий принцип субгармонического суммирования. Алгоритм реализован в качестве функции shs в программе Praat [47];

SHR алгоритм [57], использующий принцип субгармонического отношения к гармоническому. Алгоритм реализован в Matlab как “Pitch Determination Algorithm” в виде функции shrp;

TEMPO [58] алгоритм, использующий систему различных фильтров для отыскания квазигармоники с ЧОТ. Алгоритм реализован в высококачественном вокодере STRAIGHT в качестве функции exstraightsource.

Данные алгоритмы можно рассматривать как некоторое обобщение (рис.

1.1) [42, 59-61]: 1 – модуль предобработки или приведения сигнала к требуемым характеристикам, 2 – генератор кандидатов действительного искомого периода ОТ, 3 – модуль постобработки или выбора наилучшего кандидата с последующим уточнением значения ЧОТ. Как можно заметить, в подавляющем числе рассматриваемых алгоритмов используется корреляционный аппарат, который обычно реализован в генераторе кандидатов ОТ (рис. 1.1). Основные принципы оценивания ЧОТ, известных алгоритмов, можно рассматривать по следующей схеме (рис. 1.2) [45]:

1) разбиение речевого сигнала на окна;

2) оценивание присутствующего спектра в окнах (оконным преобразованием Фурье (short-time Fourier transform - STFT), корреляцией (Correlation), вейвлет преобразованием (wavelet transform) и т.д.);

3) агрегация спектра (для каждого полученного кандидата ЧОТ, вычисляется интеграл (integral transform -IT));

4) выбор кандидат ЧОТ с наибольшим рейтингом агрегации.

–  –  –

Рассмотрим процент грубых ошибок (gross pitch errors - GPE), появляющихся в процессе оценивания частоты основного тона, для известных алгоритмов RAPT, YIN, AC-P, AC-S, ANAL, CC, CEP, ESRPD, SHS, SHR, TEMPO, SWIPE'. В данном случае, величина GPE показывает отношение количества анализируемых фреймов с отклонением полученной оценки ЧОТ более чем на ±20% от настоящего значения ЧОТ к общему числу вокализированных фреймов [42] N GPE GPE(%) 100, NV где NGPE – число фреймов с отклонением полученной оценки более чем на ±20% от настоящего значения основного тона;

NV – общее число вокализированных фреймов.

На первый взгляд 20%-я погрешность кажется слишком большой, но, учитывая, что большинство ошибок, допущенных алгоритмами при оценивании

ЧОТ, варьируются в пределах октавы, то выбор такой погрешности можно считать разумным [42, 45]. В качестве исходного материала использовались следующие речевые базы данных:

— Disordered Voice Database - DVD [62], база содержит 657 несортированных (как мужских, так и женских) образцов вокализированных сегментов речи;

— Keele Pitch Database - KPD [63], база содержит около 8 минут речи, произнесенной пятью мужчинами и пятью женщинами. Контрольные оценочные значения частоты основного тона получены с помощью ларинографа;

— Paul Bagshaw’s Database - PBD [64], база содержит около 8 минут речи, произнесенные одним мужчиной и одной женщиной. Контрольные оценки ЧОТ получены с помощью ларинографа.

Доступ к известным алгоритмам осуществлялся с помощью программного обеспечения SFS, Praat, Straight, Aubio, Festival (FSFS), SPE [44, 45, 47, 48, 56], (табл. 1.1). Если принять, что реализация всех алгоритмов выполнена в соответствии с их оригинальным описанием [38-58], то при использовании идентичных входных данных (речевых фрагментов из выбранных баз) и единого аппаратного обеспечения (ПК на базе Intel i5 3.1GHz) можно считать, что сравнение алгоритмов проводились в идентичных условиях. Результаты вычисления GPE для каждого алгоритма и речевой базы отражены в таблице среднего процента грубых ошибок для натуральной речи (табл. 4.6). Чем меньше среднее значение в таблице (табл. 4.6), тем лучше алгоритм. Результаты оценивания GPE для каждого алгоритма и базы данных показывают, что наиболее устойчивым к грубым ошибкам алгоритмом является SWIPE', а менее устойчивым алгоритм AC-S (рис. 1.3). В целом можно заключить, что популярность перечисленных алгоритмов обусловлена хорошей функциональностью и низким процентом грубых ошибок, в среднем 5%.

–  –  –

Тем не менее, недостатком рассматриваемого класса алгоритмов является их зависимость от точности нахождения пиков. Наличие пиков и их амплитуда зависят от длины и вида окна анализа, а также от типа звука, что довольно часто приводит к ошибкам. Более того, точность зависит от значения частоты основного тона и от частоты дискретизации [65]. Поэтому для алгоритмов, которые показывают наилучшие результаты (рис. 1.3), рассматривалась оценка GPE для вокализированных сигналов, полученных синтетически с заранее известным периодом ОТ (табл. 4.5). В данном тестировании ОТ уже не принимается в качестве стационарной величины, т.к. скорость изменения ЧОТ изменяется от 0 до 2 Гц/мс, а его значение варьируется в пределах от 100 до 350Гц. Частота дискретизации исходного сигнала соответствует 44.1 кГц. К чистому тональному сигналу добавляется белый шум различной интенсивности. Интенсивность шума определяется соотношением гармоника/шум (HNR) [42]. Помимо оценки GPE рассматривалась оценка MFPE, показывающая средний процент мелких ошибок, появляющихся при оценивании ЧОТ без учета грубых ошибок | F 0 true (n) F 0 est (n) | 1 NFPE MFPE(%) 100, F 0 true (n) N FPE n1 где NFPE – число вокализированных фреймов без грубых ошибок;

F0true(n) – действительные значения ЧОТ;

F0est(n) – оценочные значения ЧОТ.

Результаты тестирования показали, что при достаточно небольших изменениях в тональности увеличивается как процент грубых, так и средний процент мелких ошибок оценивания ЧОТ (рис. 1.4). Заключается, что такое ограничение обусловлено периодической (стационарной) моделью речевого сигнала, лежащей в их основе, которая подразумевает точное повторение периода и амплитуды основного тона и не допускает их изменения на протяжении окна анализа [65]. Следовательно, это доказывает, что при появлении модуляций в основном тоне, точность оценивания ЧОТ у известных алгоритмов существенно снижается (рис. 1.4). Таким образом, появляется мотивация для разработки нового подхода к оцениванию ЧОТ.

–  –  –

1.2.1. Волновая модель Келли-Локбаума Очень важным свойством речеобразующего тракта являются резонансы, которые образуются как в духовом музыкальном инструменте, т.е. как резонирующие стоячие волны в воздушной трубе. Если труба имеет постоянную форму по всей длине, один конец ее закрыт, а другой открыт, стоячие волны будут появляться так, что изменение давления будет минимальным в закрытом конце и наибольшим в открытом [66-77,19]. Если длину трубы обозначить как l, тогда длины волн распределятся следующим образом [19, 74, 77]:

4l, l, l, l,...

Длина речевого тракта в среднем равна 17 см, и скорость распространения звука (обозначенная как c) принимается 340 м/с.

Резонансные частоты могут быть вычислены с помощью основного уравнения движения волны c=f, таким образом, частота f будет равна [69, 74]:

1 340m / s 3 340m / s 5 340m / s,... 500Hz,1500Hz,2500Hz,...

,, 4lm 4lm 4lm Человеческий речевой тракт не является трубой постоянного сечения, но, тем не менее, в гласных звуках появляются, грубо говоря, по одной форманте на каждый 1 кГц, как и в случае однородной трубы. Только частоты формант не являются гармоническими, а распределяются согласно форме речевого тракта.

Нахождение частот формант, основанное на форме речевого тракта, не имеет общего аналитического решения. Соответствие модели речевого тракта реальному тоже находится под вопросом. Существует несколько фактов, которые необходимо учесть при построении точной модели речеобразования, такие как переменная структура звуков, время и изменение размера речевого тракта, назализация, излучение губ (т.е. распространение звуковой волны в окружающую среду), различные потери энергии, завихрения и т.д. Фактически формантная теория распространения звука с учетом всех перечисленных особенностей не существует. Тем не менее, многое из речеобразования может быть исследовано с помощью упрощенных аналоговых моделей. Полезным приближением является представление модели в виде нескольких соединенных однородных труб [78, 79] (рис.

1.5):

<

–  –  –

1.2.2. Модель речевого тракта на основе уравнения Вебстера Модель основана на пространственно-временном (spatio-temporal) методе непосредственного решения конечных дифференциальных уравнений, полученных из уравнения Вебстера [19, 81-85].

Речевой аппарат человека в виде ротового и носового параллельных каналов образует единую акустическую систему, возбуждаемую периодическими колебаниями голосовых связок либо турбулентным шумом.

Распространение акустических волн в такой системе описывается уравнением Вебстера [19, 70, 81-85]:

p 1 2 p 1 d S ( x) 2, x c t 2 S ( x) dx где S(x) – функция площади сечения голосового тракта вдоль оси x распространения волн;

p – давление;

c – скорость звука;

t – время.

Уравнение Вебстера позволяет представить речевой тракт в виде системы рупоров, что более точно соответствует реальному речевому тракту, чем система цилиндров [79]. Количество вычислительных операций при этом значительно возрастает. Уравнение в основном решается аналитически и имеет очень сложное численное решение с большим количеством вычислительных операций [19, 79, 81-85] и отсутствием связи с частотой. Не учитываются потери, связанные с податливостью стенок цилиндрического участка.

1.2.3. Гармоническая модель вокализированного сегмента речи

Рассмотрим модель вокализованного сегмента речевого сигнала (вокализированной речи) применительно к задачам анализа и синтеза речи. Входной сигнал x(t) поступает от голосовых складок (природный квазигармонический генератор – генеративная система), проходит через N-е количество параллельно соединенных резонаторов (характеризующих форму речевого тракта), в следствие чего, на выходе формируется определенный произносимый вокализованный речевой сегмент y(t). Таким образом, математическую модель вокализованной речи можно описать в виде суммы некоторого набора амплитудных, фазовых и частотных параметров, формируемых в результате прохождения полигармонического колебания через резонансную систему [76] N 1 t

S (t ) I n (t ) sin((n 1) 0 ()d n ), n 0 0

где n=0, 1, 2… – номер гармоники ОТ;

In – амплитуды гармоник;

0 – частота ОТ (рад/сек);

n – начальная фаза гармоник;

S(t) – конечный продукт генеративной и резонансной системы.

Для выделения генеративной и резонансной составляющей имеет место быть интерес решения обратной задачи над выходным конечным продуктом S(t) [86, 87]. Научным интересом решения такой задачи может послужить построение импульсных характеристик резонансной системы для распознавания или дальнейшего синтезирования речи диктора и т.д.

Сингулярная модель вокализированного сегмента речи 1.3.

–  –  –

Теперь пусть для некоторой последовательности i=0,1,… собственные числа i, ui, xi – эмпирически найденные величины, образуют совокупность параметров для образования звуков речи, тогда для произведения A i i u i [x i ]T, i=0,…, (1.5)

–  –  –

примем в качестве сингулярной модели вокализированной речи (рис. 1.8, рис.

1.9) для решения задачи оценивания ЧОТ речи. Система (1.6) наглядным образом показывает, что принимаемая сингулярная модель вокализированного сегмента речевого сигнала позволяет анализировать (рассматривать) речевой сигнал, в котором неизвестны амплитуды, периоды и начальные фазы всех гармоник. Если речеобразующий тракт рассматривать как систему акустических резонаторов, тогда каждая i-я тройка чисел (i, ui, xi), как отдельный параметр i-го резонатора, содержит информацию об индивидуальном акустическом различии, так как пространство собственных векторов x образует нестационарных базис, в который проецируется A. Таким образом, при iL модель (1.6) позволяет учитывать особенность речевосприятия через (1.3), а речеобразования через (1.4).

<

–  –  –

Рис. 1.9. Вокализированный сегмент [е] и его сингулярная модель Постановка задачи и требования к сингулярному оцениванию 1.4.

частоты основного тона речи Определим главную решаемую задачу. Пусть имеется следующая совокупность систематизированных действий – {Этап 1. Разложение исходного речевого сигнала в спектр квазигармонических компонент (решение задачи 1);

Этап 2. Выбор квазигармонической составляющей, соответствующей основному тону речи, и расчет ее основных параметров (решение задачи 2)}, которые нацелены на решение задачи оценивания частоты основного тона речевого сигнала, тогда совокупность данных действий будем называть решением главной задачи.

Специфика систематизированных действий, включающая применение аппарата сингулярного спектрального анализа для решения задачи 1, позволяет переопределить термин главной задачи на сингулярное спектральное оценивание частоты основного тона речи (Singular Estimation Pitch Tracking - SEPT).

Если математическую интерпретацию главной решаемой задачи можно определить, как "Из временного ряда SN, выделить квазигармоническую составляющую T0N с частотой F0 [fmin F0 fmax], кратной обертоновым составляющим ряда SN", то сингулярное оценивание частоты основного тона речи можно определить в следующем общем виде (рис.

1.10):

1) входные данные SN – дискретный ряд вокализированной речи длины N с выборкой Fd кГц;

2) выходные данные: T0N – временной ряд основного тона, F0 – средняя частота ряда T0N (частота основного тона), Amp – средняя амплитуда ряда T0N.

Рис. 1.10. Обобщенный вид сингулярного оценивания ЧОТ речи

–  –  –

Проведен обзор существующих методов оценивания частоты основного тона речи. Выявлена общая проблематика в существующих методах. Для дальнейшего создания нового подхода оценивания ЧОТ рассмотрены модели вокализированного речевого сегмента. Предложен тезис о сингулярной модели вокализированной речи. Сформулированы требования к сингулярному оцениванию ЧОТ речи.

Цель, выделенная для главы как: "Обзор существующих методов оценивания частоты основного тона речи, обзор моделей вокализированного сегмента речевого сигнала и постановка задачи", достигнута по следующим разделам:

1. Проведен анализ состояния проблемы оценивания ЧОТ речи:

— рассмотрены основные методы оценивания ЧОТ речи;

— дан обзор отечественных алгоритмов оценивания ЧОТ;

— дан обзор зарубежных алгоритмов оценивания ЧОТ;

— проведена оценка существующих алгоритмов.

2. Рассмотрены модели вокализированной речи:

— волновая модель Келли-Локбаума;

— модель на основе уравнений Вебстера;

— гармоническая модель.

3. В качестве новой модели предлагается сингулярная модель вокализированной речи:

— рассмотрена прямая задача;

— рассмотрена обратная задача.

4. Осуществлена постановка главной задачи, в которой выдвинуты требования к модели сингулярного оценивания ЧОТ.

ГЛАВА 2. Модель и численная реализация сингулярного оценивания частоты основного тона речевого сигнала.

Оценка методов и алгоритмов сингулярного спектрального анализа речи Исходя из сингулярной модели вокализированной речи, рассмотренной в главе 1, в настоящей главе осуществляется эвристическое построение концептуальной модели сингулярного оценивания частоты основного тона речи. Далее осуществляется переход к численной реализации модели. Рассматривается сингулярный спектральный анализ речевого сигнала, в котором прорабатывается вопрос о быстром методе спектрального разложения речи, далее проводится оценка численных методов. Под процессом оценивания будем понимать совокупность взаимосвязанных действий, которые при сингулярном оценивании преобразуют входной речевой сигнал в выходы рассогласования для получения степени соответствия. Под моделированием будем понимать процесс создания некоторого мысленного объекта, воспроизводящего выше определенный процесс с помощью логических построений и математических выкладок (математическая модель).

Построение концептуальной модели сингулярного оценивания 2.2.

мгновенной частоты основного тона речи

–  –  –

Пусть главная решаемая задача имеет следующий параметрический вид (T 0 N, F 0, Amp ) SEPT( S N ), (2.1) тогда, исходя из сведений о сингулярной модели вокализированной речи (1.6), сформулируем некоторое эвристическое описание модели сингулярного оценивания частоты основного тона. Акустический сигнал (речевой) в виде фонемного ряда SN поступает на вход системы, обеспечивающей процесс разделения в элементарный спектр временных рядов (спектр квазигармоник), генерируемых каждым резонатором речевого тракта. На выходе такой системы соответственно многомерный массив данных равностоящих значений TL,N, состоящий из квазигармонического спектра (главных компонент). Данный процесс разложения можно формализовать как функцию сингулярного спектрального анализа (разложения на главные компоненты) L TL,N SSA(S N ), S N Ti,N, L N. (2.2) i 1 Рассмотренный процесс эквивалентен классическому процессу генерации кандидатов искомого периода ОТ (рис. 1.1). Однако в отличии от классических подходов в данном случае происходит генерация заранее известных функций с ЧОТ (генератор сингулярных кандидатов частоты основного тона речи (генератор сингулярного спектра)). Далее квазигармонический спектр, содержащийся в TL,N, поступает на вход избирательной системы (селектор), где осуществляется выбор квазигармоники соответствующей действительному кандидату основного тона.

На выходе избирательной системы соответственно набор параметров:

амплитуда сигнала (Amp), ЧОТ (F0) и квазигармоника с ЧОТ (трек - T0). Выбор квазигармоники с ЧОТ формализуем в виде некоторой обобщенной функции выбора (T 0, F 0, Amp) SELECTOR(TL,N ). (2.3) Аналогично процессу, протекающему в модуле постобработки типовых оценщиков (рис. 1.1), в селекторе (2.3) протекает процесс решающего правила выбора наилучшего кандидата с последующим уточнением значения частоты основного тона речи. После объединения (2.2) и (2.3) получаем некоторый обобщенный параметрический вид концептуального описания проектируемой модели сингулярного оценивания ЧОТ в следующей системе (рис. 2.1) TL,N SSA( S N );

(T 0, F 0, Amp ) SELECTOR( TL,N ).

(2.4)

–  –  –

Проведем детальный анализ (декомпозицию) общей схемы концептуальной модели сингулярного измерителя ЧОТ (2.4). Как было рассмотрено выше, акустический сигнал в виде дискретного фонемного ряда SN поступает на вход генератора сингулярного спектра (ГСС). На выходе ГСС соответственно квазигармонический спектр TL,N (в виде главных компонент), который поступает на вход системы выбора спектральной составляющей, соответствующей частоте основного тона речи. Сперва квазигармонический спектр TL,N сохраняется в блоке управления матрицей временного спектра (УМВС), где далее с первого выхода УМВС поступает в блок измерения частоты временного спектра (ИЧВС). В блоке ИЧВС, путем измерения обратной величины среднего периода по максимумам (в иных случаях подсчитывается число переходов через нуль), решается задача измерения частот квазигармонического спектра (главных компонент), содержащегося в массиве данных TL,N. Параллельно в ИЧВС осуществляется уменьшение плотности (размерности) квазигармонического спектра TL,N с L до величины ML (т.е. количество L главных компонент в ряде TL,N разрежается до размерности M). Таким образом, обеспечивается сужение границ поиска квазигармонического сигнала, соответствующего ЧОТ f 0 [ f min, f max ], где f0 – частота основного тона речи;

fmin, fmax – минимальная и максимальная граница существования частоты основного тона.

На выходе блока ИЧВС соответственно множество частот (частотный ряд) f m in { f1, f 3, f j,..., f M } f m ax, (2.5) которое поступает на вход блока выбора номера компоненты с частотой основного тона речи (ВНКЧОТ), причем индекс множества остается прежним т.к. по данному индексу осуществляется выбор компоненты с ЧОТ речи из массива данных TL,N, т.е.

если Ti,N{i=1,2,..L; i I}, а f min { f1, f 3, f j,..., f M } f max, то J I.

Из полученного множества частот {f1, f3, fj,.., fM} в блоке ВНКЧОТ осуществляется выбор частоты основного тона речи и определяется соответствующий ему индекс j из множества J I, равный номеру компоненты с частотой основного тона (НКЧОТ). Выбор частоты основного тона речи в блоке ВНКЧОТ определяется критерием наименьшей кратной частотной величины основного тона, f 0 {min( f j ),2min( f j ),,Mmin( f j )},

–  –  –

Соответственно на выходе блока ВНКЧОТ индекс, соответствующий номеру компоненты с ЧОТ, который поступает на второй вход блока УМВС, где осуществляется выбор (активация) строки со спектральной составляющей, соответствующей квазигармоническому сигналу с ЧОТ Ti=нкчот,N.

На выходе УМВС сигнал с ЧОТ Ti=нкчот,N, который одновременно поступает на выход системы и на вход блока вычисления частоты и амплитуды основного тона (ВЧА). В блоке ВЧА вычисляются максимальные значения ряда Ti=нкчот,N и подсчитывается количество (m-1) обратных величин равных периодам умещающихся в данном ряде. Далее подсчитывается средняя величина ЧОТ F0 и амплитуда Amp. Результаты значений F0 и Amp поступают на выход системы. Исходя из эвристического описания рассмотрим базовую схему модели сингулярного оценивания

ЧОТ (рис. 2.2):

1. В составе следующих блоков:

1 – блок генерации сингулярного спектра (ГСС), в котором протекает процесс сингулярного спектрального анализа речевого сигнала;

2 – блок управления матрицей временного спектра (УМВС), в котором сохраняются результаты сингулярного анализа речевого сигнала в виде спектральных составляющих (спектр временных рядов в виде квазигармоник);

3 – блок измерения частоты временного спектра (ИЧВС) с отбором спектральных составляющих, которые удовлетворяют условию диапазона, в котором существует ЧОТ речи;

4 – блок выбора номера компоненты с частотой основного тона речи (ВНКЧОТ), в котором решается задача выбора номера компоненты соответствующей частоте основного тона (ВНКЧОТ) по правилу наименьшей кратной величины ЧОТ;

5 – блок вычисления частоты и амплитуды основного тона речи (ВЧА), в котором решается задача вычисления средней величины ЧОТ F0 и амплитуды Amp.

2. В составе следующих сигналов:

N – длина анализируемого кадра;

L – количество спектральных компонент;

SN – дискретный речевой сигнал;

TL,N – временной спектр (сингулярный спектр речевого сигнала);

fi – частота;

i – номер компоненты с частотой основного тона речи;

Ti=нкчот,N – компонента с частотой основного тона речи;

F0 – частота основного тона речи;

Amp – амплитуда.

–  –  –

i=нкчот Рис. 2.2.

Базовая схема модели сингулярного оценивания мгновенной частоты основного тона речевого сигнала на уровне блоков:

1) Состав блоков: 1 – блок генератора сингулярного спектра (ГСС); 2 – блок управления матрицей временного спектра (УМВС); 3 – блок измерения частоты временного спектра (ИЧВС); 4 – блок выбора номера компоненты с частотой основного тона речи (ВНКЧОТ); 5 – блок вычисления частоты и амплитуды основного тона речи (ВЧА).

2) Состав сигналов: N – длина анализируемого кадра; L – количество спектральных компонент; SN – дискретный речевой сигнал; TL,N – временной спектр (сингулярный спектр речевого сигнала); fi – частота; i – номер компоненты с частотой основного тона речи; Ti=нкчот,N – компонента с частотой основного тона речи; F0 – частота основного тона речи; Amp – амплитуда.

Переход к частному случаю 2.2.3.

Базовую модель сингулярного оценивания ЧОТ речевого сигнала можно свести к решению известного класса математических задач. Так, например, в блоке ИЧВС задачу измерения частот квазигармонических сигналов, содержащихся в TL,N, можно решить с помощью быстрого преобразования Фурье, вейвлет (wavelet) анализа, посредством классификации на основе скрытых Марковских моделей или классификации на основе метода опорных векторов и т.д. Приведем базовую концептуальную модель сингулярного оценивания ЧОТ к частному случаю [100].

Пусть квазигармонический спектр TL,N совместно с исходным фонемным рядом SN поступает на вход избирательной системы (рис 2.3), тогда (2.3) и (2.4) перепишутся как:

(T 0, F 0, Amp) SELECTOR(TL,N, S N ) ; (2.7)

–  –  –

Пусть в блоке ИЧВС задача измерения частотной характеристики элементов квазигармонического спектра TL,N решается с помощью быстрого преобразования Фурье fi max(FFT(Ti,N )), f min f i f max, i 1, M, (2.9) где fi – частотный ряд, тогда согласно базовой схеме (рис. 2.2) на выходе ИЧВС (2.5) соответственно частотный ряд (2.9) длины M, который поступает на вход блока ВНКЧОТ, в котором по правилу (2.6) выбирается НКЧОТ. Допустим, что на выходе ВНКЧОТ вместо НКЧОТ частота основного тона речи f 0 f j нкчот f j {min( f j ),2min( f j ),,Mmin( f j )},. j 1, M, (2.10)

–  –  –

Рис. 2.4. Схема модуля селектора сингулярного оценивания ЧОТ: УМВС – блок управления матрицей временного спектра; ИЧВС – блок измерения частоты временного спектра; ВЧОТ – блок выбора ЧОТ; FIR – блок фильтрации; ИЧОТ

– блок измерения ЧОТ; ИА – блок измерения амплитуды

–  –  –

— дискретного преобразования Фурье;

— операции математической свертки.

Построение математической модели сингулярного оценивания 2.3.

мгновенной частоты основного тона речевого сигнала

–  –  –

Для получения спектра временных рядов Tin, над матрицами Xn проведем обратную процедуру к Ганкелизации с усреднением по побочным диагоналям (1.3), где полученный многомерный ряд Tin состоит из спектра временных рядов, представляющих собой квазигармонические функции. Обобщая изложенные математические выкладки, получаем описание процесса, протекающего в модуле сингулярного спектрального анализатора (2.2) в следующей системе

–  –  –

Система на основе выражений (2.17) – (2.25) – это численное решение для (2.7). Таким образом, подстановка системы, полученной на базе (2.17) – (2.25), и системы (2.16) в систему (2.8) дает численный вид модели сингулярного оценивания частоты основного тона речевого сигнала

–  –  –

Для дальнейшей программной реализации генератора сингулярного спектра (ГСС) важно понимать, что предварительно необходимо проработать вопрос поиска быстрого численного решения полной проблемы собственных чисел [103] за заданное время на микропроцессорах встроенных в бытовые ЭВМ для получения матричного разложения A=UDV T, (2.27) где A – исходная траекторная (Ганкелева) матрица;

U и VT – левая и правая матрицы поворота соответственно, состоящие из левых и правых собственных векторов;

D – диагональная матрица, состоящая из собственных чисел траекторной матрицы A, расположенных в порядке убывания на главной диагонали.

В первую очередь интересует несложный для реализации класс методов, решающий собственную проблему матриц порядка 128128 за время, соответствующее режимам реального времени [103]. Такой порядок матрицы соответствует фонемному ряду равного 256 отсчетам, что соответствует данным, полученным в результате дискретизации временного кадра в 32мс с частотой 8192Гц. Под режимом реального времени будем понимать время сингулярного спектрального анализа меньшее чем сам кадр анализа. Так как в основе модели сингулярного оценивания ЧОТ речи предложен принцип сингулярного спектрального анализа, в задачу которого входит сингулярное разложение матриц (2.27), проведем отбор наиболее подходящего метода сингулярного разложения (2.27), удовлетворяющего условиям работы в задачах реального времени.

Результаты тестирования программы по диагонализации колебательного гамильтониана протяженной молекулярной среды в режиме параллельных вычислений, проведенного Дементьевым В.А. из Института геохимии и аналитической химии им. В.И. Вернадского РАН, г. Москвы на суперкомпьютере МВСдля матриц размерностью 6464 составило 15 сек с точностью до четвертого знака [104]. Еще десять лет назад решение полной проблемы собственных значений на ЭВМ решалась за достаточно длительное время.

Низкая популярность использования аппарата сингулярного спектрального анализа в качестве реализаций приложений анализа речевой информации в режиме реального времени обуславливалась сложностью вычислительных операций сингулярного разложения на ЭВМ матриц больших размерностей [88, 105]. Практическая реализация показывает [103], что несмотря на свою простоту хорошо известные классические методы решения полной проблемы собственных чисел, такие как метод Леверье-Фаддеева, метод Крылова, метод Данилевского [106-108] для матриц размерностью 6464, уже на этапе вычисления коэффициентов характеристического полинома появлялись вычислительные проблемы на ЭВМ. Связано это с тем, что методы решения полной проблемы собственных чисел, зависят от решения характеристического полинома, а также нахождением его характеристических коэффициентов. В результате появляется проблема больших чисел (степеней) уже на этапе реализации. В свою очередь у итерационных методов, например, таких как метод вращения Якоби [109], присутствуют проблемы медленной сходимости диагональных элементов к собственным значениям [110] (таблица 2.3). Достаточно популярные методы, основанные на QR, QL, LR [111] алгоритмах, в чистом виде (т.е. без каких-либо современных модификаций, ускоряющих сходимость) не лишены своих недостатков. Например, в процессе получения собственных векторов посредством QR–RQ (QL–LQ) цепочек присутствуют матричные произведения, следовательно, для матриц размерностью 128128 – это вызывает некоторую вычислительную сложность (таблица 2.3). Однако с появлением современных вычислительных систем и новых алгоритмов нахождения собственных чисел ситуация кардинально меняется в лучшую сторону, и уже сегодня малые матрицы (малыми будем считать матрицы размерностью до 10241024) больших проблем не вызывают. Также рассмотрен класс итерационных методов решения частичной проблемы собственных чисел [112-123]. Например, достаточно несложной в реализации является итерационная группа методов, основанная на методе бисекции [124-126]. Дальнейшие исследования метода бисекции показали, что данная группа методов эффективна в параллельной многопоточной реализации [127, 128] и требует соответствующего отдельного рассмотрения для соответствующих параллельных устройств. Простым и менее примечательным оказался степенной метод [10, 129, 130], т.к. в результате вычислений находится собственная пара чисел, соответствующая собственному значению с максимальным спектральным радиусом. Тем не менее, несмотря на ограниченность степенного метода, обобщая работы [131-141], в работе [142] рассматривается спектральная теорема для решения частичной проблемы собственных чисел степенным методом в задачах сингулярного спектрального анализа речи. Следствие, вытекающее из доказательства спектральной теоремы в [142] позволило разработать методику, с помощью которой возможно решать проблему собственных чисел степенным методом за требуемые временные характеристики в задачах анализа речевой информации (PSWD алгоритм). Однако, увеличение объемов обработки речевой информации требует применения более прогрессивных методов сингулярного спектрального анализа.

Преобразования Хаусхолдера с ротацией Гивенса 2.4.2.

В работе Тони Ф. Чана (Tony F. Chan) [9] предлагается следующий принцип получения сингулярного разложения (2.27). Исходная матрица A с помощью преобразований Хаусхолдера (A.S. Householder) [111] приводится к верхнему бидиагональному виду B. Далее посредством матричного вращения Гивенса (W. Givens rotations) [111] матрица B доводится до диагонального вида D.

В общем виде разложение (2.27) можно достичь за счет следующих операций:

1. Бидиагонализация матрицы A для получения матричного разложения A=HBQ T, (2.28) где B – верхняя бидиагональная матрица;

H – левая унитарная матрица перехода;

Q – правая унитарная матрица перехода.

2. Диагонализация бидиагональной матрицы B для получения матричного разложения B=PDKT, (2.29) где D – верхне-диагональная матрица, P и K – левая и правая унитарная матрица поворота от разложения верхне-бидиагональной матрицы B.

3. Подстановка (2.29) в (2.28) для получения разложения A=HPDK T Q T. (2.30) После приравнивания U=HP, VT=KTQT получают (2.27). Очевидно, что (2.30) – это обобщенная форма сингулярного разложения матрицы А в развернутом виде A=[H1H 2…H N ][PN…P2 P1 ]D [K1K 2…K N ]T [Q1Q 2…Q N-1 ]T, (2.31) где U=[H1H2…HN][PN…P1P2] – левая сингулярная матрица поворота (перехода) с левыми собственными векторами;

V=[K1K2…KN][Q1Q2…QN-1] – правая сингулярная матрица поворота с правыми собственными векторами.

Разложение (2.31) – это тоже самое, что и разложение (2.27). Отметим, что получение сингулярных матриц поворота U и V в виде прямого матричного умножения [H1H2…HN][PN…P1P2] и [K1K2…KN][Q1Q2…QN-1] даже на современных вычислительных машинах составляет основную проблему для быстрого сингулярного разложения (2.27) (табл. 2.3).

Данную проблему можно решить посредством следующих операций:

1. Бидиагонализация матрицы A:

1.1. С помощью отражений Хаусхолдера (Alston S. Householder) [12] исходная матрица A приводится к виду (2.28).

1.2. Элементарные матрицы Хаусхолдера H1H2…HN-1 и Q1Q2…QN-1 аккумулируются в правых и левых сингулярных матрицах перехода H и Q. Заранее отметим, что аккумулирование элементарных матриц обеспечивается в соответствии с системой (2.41), т.к. явные матричные умножения осуществляются за достаточно долгое время (таблица 2.3, колонка 6). Для сокращения числа матричных операций достаточно аккумулировать только одну матрицу перехода Q, тогда матрица H в (2.28) выразится в качестве неизвестной Н=AQB -1. (2.32) В (2.32) вычисление обратной матрицы B-1 основано на LU разложении [111] с учетом того, что матрица бидиагональная.

2. Диагонализация матрицы B:

2.1. С помощью правых и левых матричных вращений Гивенса (W. Givens rotations) бидиагональная матрица B приводится к диагональному виду. Так, например, для вложенных друг в друга последовательностей k=1,…,N и

i=1,…,N можно провести следующие матричные операции:

k+1 B kN(i+1 ),i+1B kNi,i+1 B N(i+1 ),i= ;

B Ni,i +B Ni,i+1 k k

–  –  –

Рис. 2.11. Временная зависимость сингулярного спектрального разложения (в секундах) от размерности матриц: 1 – QR-RQ алгоритм с явными матричными умножениями (а); 2 – метод вращения Якоби (Jacobi1) алгоритм с явными матричными умножениями (а); 3 – процедура dgesdd из Intel Lapack(б); 4 – алгоритм WSVD (б).

Метод Ланцоша для аппроксимации края сингулярного спектра 2.4.3.

Ранее было задано условие, что время сингулярного спектрального анализа не должно превышать время анализируемого кадра. Экспериментальные данные показывают (таблица 2.3, таблица 2.4), что ни один из рассмотренных методов не удовлетворяет условию времени анализа речи, соответствующего режимам реального времени. Однако известно, что речь человека кроме основного тона содержит порядка 50-и гармоник [145]. В конечном счете, для нашего слухового аппарата важны не более 12-15 обертонов. Считается, что 4-5 гармоник достаточно для того, чтобы синтезированная речь имела практически приемлемое качество звучания. Таким образом, для временного кадра в 32мс (256 отсчетов при 8кГц), задача сингулярного спектрального анализа речи уже решается для первых 24-30 гармоник, а это уже матрицы размерностью 12824отсчетов. Получается, что необходимо решить задачу аппроксимации края сингулярного спектра, решив частичную проблему собственных чисел.

–  –  –

Для решения (обычно частичной) задачи собственных чисел симметричных матриц в главе 13 книги Парлетта [131] описан алгоритм Ланцоша (С.

Lanczos). Данный алгоритм теоретически (в точной арифметике) способен привести полную симметричную матрицу к трехдиагональному виду, если некоторое число шагов Ланцоша m совпадает с числом n [131, 146]. Такая задача решается проектированием матрицы A из (1.1) на некоторое m-мерное подпространство Крылова (A.N. Krylov) [131, 147] m Q1AQ m, m 1,2,...,n, (2.42) m где А – исходная Ганкелева матрица;

– трехдиагональная матрица, полученная в результате процесса Ланцоша;

Q – матрица, состоящая из векторов Ланцоша.

Заметим, что при m=n свойство Ганкелевой матрицы A в подпространстве Крылова задает симметричный вид матрице, поэтому матрицу – будем понимать, как трехдиагональную симметричную матрицу (cм. параграф 12.6 [131]). Далее решается спектральная задача для трехдиагональной матрицы, это дает собственные значения исходной матрицы A. Умножив матрицу векторов Ланцоша Q (базисных векторов подпространства Крылова) на собственные векторы трехдиагональной матрицы, получим собственные векторы исходной матрицы A. В случае когда mn получим не точный спектр исходной матрицы, а некоторые приближения к каким-то собственным парам. Другими словами, метод Ланцоша строит аппроксимацию Рэлея (L. Rayleigh) – Ритца (W.

Ritz) [131, 148] на подпространстве Крылова, и, в отличие от выше приведенного степенного (power) метода, не требует явного формирования многочленов, т.к. в данном случае многочлены представлены трехчленными рекуррентными соотношениями (т.е. нет никакой «индукции по номеру собственного числа»).

Применение метода Ланцоша для больших матриц – это большой плюс, и это подтверждается оценками Каниэля (S. Kaniel) и Саада (Y. Saad) для края спектра в разделе 12.4 книги Парлетта [131] при решении частичной проблемы.

Также в соответствии с [131] в программной реализации учитывается минимизация машинных ошибок округления, которая обеспечивается поддержкой ортогональности векторов Ланцоша, т.к. в процессе сходимости они теряют свою ортогональность. Для отыскания матричной пары Ритца (U, D) предлагается использовать QR алгоритм [149] на основе ротаций Гивенса (W. Givens) [111], где U = QY – матрица, состоящая из векторов Ритца;

Y – матрица, состоящая из собственных векторов матрицы ;

D – диагональная матрица, состоящая из собственных значений матрицы в порядке возрастания.

Применение QR алгоритма на основе ротаций Гивенса для симметричного случая матрицы позволяет аккумулировать данные в матрице Y, не прибегая к матричным умножениям в явном виде (2.40). Таким образом, применение алгоритма Ланцоша в любом из рассмотренных алгоритмов позволяет получить заметное ускорение поиска собственных чисел в технологии сингулярного оценивания ЧОТ (таблица 2.5). Временные оценки (таблица 2.5) показывают, что время матричного разложения (2.27) удовлетворяет условию времени анализа.

Таблица 2.5.

Временные характеристики различных методов сингулярного спектрального разложения матриц с использованием процессора Intel(R) i5

2.8ГГц Кадр Размер- Jacobi1 QR Jacobi2 PSVD Lapack WSVD LQR № (сек) ность svd svd svd svd svd svd svd матрицы (сек) (сек) (сек) (сек) (сек) (сек) (сек) 1 0.015 3064 0,601 0,281 0,005 0,004 0,001 0,001 0,001 2 0.031 30128 0,603 0,284 0,008 0,007 0,004 0,004 0,003 3 0.062 30256 0,611 0,29 0,012 0,013 0,008 0,010 0,09 4 0.125 30512 0,641 0,32 0,044 0,044 0,040 0,039 0,041 5 0.250 301024 0,737 0,418 0,142 0,141 0,137 0,138 0,139

Выводы по главе2.5.

На основе сингулярной модели вокализированной речи осуществлено эвристическое построение концептуальной модели сингулярного оценивания ЧОТ речи. Представлена численная реализация модели. Рассмотрен сингулярный спектральный анализ речевого сигнала, в котором прорабатывался вопрос о быстром численном методе спектрального разложения речи. Проведена оценка численных методов сингулярного спектрального разложения в задачах анализа речи.

Цель, выделенная для главы как: "моделирование и численная реализация сингулярного оценивания частоты основного тона, а также оценка методов сингулярного спектрального анализа речи", достигнута по следующим разделам:

1. Построена концептуальная модель сингулярного оценивания мгновенной частоты основного тона речи:

— рассмотрен общий вид модели сингулярного оценивания частоты основного тона речи;

— проведен анализ модели общего вида;

— осуществлен переход к частному случаю.

2. Построена математическая модель сингулярного оценивания мгновенной частоты основного тона речевого сигнала:

— осуществлена численная реализация модели;

— представлена математическая модель сингулярного оценивания частоты основного тона в численном виде.

3. Рассмотрена задача сингулярного спектрального анализа речевого сигнала:

— рассмотрены существующие методы;

— обозначена проблема нахождения собственных чисел в задачах анализа речи.

4. Формализована задача сингулярного спектрального анализа речи:

— рассмотрены преобразования Хаусхолдера и ротация Гивенса для решения проблемы собственных чисел. Построен алгоритм сингулярного спектрального разложения траекторных матриц. Проведено сравнение с аналогами, обозначена общая проблема;

— рассмотрен метод Ланцоша для аппроксимации края сингулярного спектра речевого сигнала. Решена задача сингулярного спектрального разложения речевого сигнала для режима реального времени.

ГЛАВА 3. Комплекс алгоритмов для программной реализации сингулярного оценивания частоты основного тона речи В главе рассматривается комплекс алгоритмов, позволяющий осуществить программную реализацию генератора сингулярного спектра речевого сигнала и средства выбора квазигармонической составляющей, соответствующей частоте основного тона речи.

Реализация генератора сингулярного спектра речевого сигнала 3.1.

–  –  –

Исходя из численной реализации сингулярного оценивания частоты основного тона речи, разработан комплекс алгоритмов для программной реализации генератора сингулярного спектра речи (2.26.1) в следующем порядке:

1) для получения траекторной матрицы A проведена алгоритмизация процесса Ганкелизации (1.1) фонемного ряда SN;

2) для получения разложения (2.42) проведена алгоритмизация метода Ланцоша для преобразования ковариационной матрицы AAT в трехдиагональный симметрический вид с соответствующим базисом Q, состоящего из векторов Ланцоша;

3) для получения разложения (2.27) и нахождения соответствующих сингулярных троек (1.5) проведена алгоритмизация QR-RQ цепочек (QR-RQ факторизация) с оцениванием собственных пар Ритца (U, D);

4) для отбора спектральных составляющих с частотой основного тона речи проведена алгоритмизация процесса реконструкции квазигармонического спектра речи (1.3).

–  –  –

В главе 2 установлено, что для ускорения процесса сингулярного спектрального анализа речевых сигналов исходную ковариационную матрицу AAT необходимо подвергнуть процессу трехдиагонализации с помощью алгоритма Ланцоша (операции проецирования матрицы AAT на базис Крыловского подпространства), для получения разложения (2.42) m Q1 (AA T )Qm, m 1,2,...,n, m

–  –  –

Ланцоша q1, где q1 не ортогонален собственным векторам матрицы C;

— в шаге 9, выполняется главный цикл нахождения рекуррентной последовательности для формирования базиса Q, подпространства Крылова и получения в этом базисе проекции матрицы C;

— в шаге 11 осуществляется порождение i-го элемента подпространства Крылова K m (q1,C) span{q1,Cq1,C2q1,...,Cm1q1 }, где Km-1 – линейно независимая комбинация вектора Cmq0. Так как элемент ортонормального базиса подпространства вычисляется на каждом i-том шаге, с добавлением вектора Cqi-1 ортогонального к Kj-1, заметим, что порождение i-ого элемента подпространства в цикле 9 осуществляется неявно (т.е.

span(q1, q2, q3, Cq3,…, Cqi-1)). Также заметим, что при m:Cmq1 – собственный вектор, соответствующий собственному значению с максимальным спектральным радиусом;

— в шаге 12 вычисляются диагональные элементы матрицы

–  –  –

лизация) векторов Ланцоша, содержащихся в матрице Q (с.м. параграф 13.7 из [131]). Для ускорения времени выполнения алгоритма можно воспользоваться выборочной ортогонализацией, это обсуждается в параграфе 13.8 книги Парлетта [131];

— в шаге 19 вычисляется наддиагональный элемент i матрицы как операции взятия модуля от вектора невязки;

— в шаге 21 корректируется вектор Ланцоша, содержащейся в (i+1) -м столбце матрицы Q.

Таким образом, в представленном алгоритме 3.2, осуществляется процесс ортогонализации через рекуррентную последовательность трехчленного выражения (трехчленная рекурсия) для нахождения базиса подпространства Крылова Q и симметрического трехдиагонального отображения ковариационной матрицы C в этом же подпространстве (C). На выходе алгоритма 3.2 соответственно трехдиагональная симметричная матрица m и матрица векторов Ланцоша Q размерности Lm (2.42).

Рис.3.1. Блок-схема алгоритма Ланцоша для аппроксимации края сингулярного спектра в генераторе сингулярного спектра речевого сигнала Алгоритмизация QR-RQ цепочки для отыскания собственных пар 3.1.4.

Ритца Как уже было отмечено в главе 2, парами Ритца будем называть собственные пары (собственное значение, собственный вектор), полученные в результате решения проблемы собственных чисел ковариационной матрицы и симметричной трехдиагональной матрицы, полученной в результате работы алгоритма 3.2. Рассмотрим QR факторизацию. QR факторизация симметричной трехдиагональной матрицы (2.42) протекает аналогично факторизации бидиагональной матрицы (2.33), (2.34), (2.40). Для матрицы размерностью mm осуществляется m–1 проходов вдоль диагонали матрицы, где с каждым проходом осуществляется обнуление соответствующего элемента, расположенного под главной диагональю. Таким образом, в первом проходе, матрица P1 выбирается таким образом, что произведение P1 обнуляет элемент, расположенный во второй строке первой колонке. Следующая матрица P2 выбирается так, что произведение P2P1 обнуляет элемент, расположенный в третей строке и втором столбце, соответственно для матрицы P3 произведение P3P2P1 обнуляет элемент, расположенный в четвертой строке и третьем столбце. В итоге цепочка матричных произведений Pm1 P3P2 P1, обеспечивает верхнюю диагональную матрицу R, а матрицы P1, P2, P3,…, Pm-1 – элементарные матрицы вращения (Гивенса). Что бы понять, как формируются матрицы вращения Pj рассмотрим факторизацию для элементарного единичного вращения. Пусть в результате последовательности операций, осуществленных в соответствии с алгоритмом 3.2 получена симметричная трехдиагональная матрица 1 1 1

–  –  –

Шаг 33. Если малость значения не удовлетворяет заданной малости значения (точности), тогда переход к шагу 4 (рисунок 3.2, условие 41).

Шаг 34. Вывод содержимого Ym,m, am.

Рис.3.2. Блок-схема алгоритма симметричной QR-RQ факторизации для поиска собственных пар в генераторе сингулярного спектра речевого сигнала Для ускорения сходимости алгоритма 3.3 применяется сдвиг Вилкинсона [149] (рис. 3.2, цикл 13). На выходе алгоритма 3.3 соответственно массив данных a, частично (до m (2.42)) содержащий как собственные значения ковариационной матрицы AAT, так и трехдиагональной симметричной матрицы (2.42). Вместе с тем, матрица векторов Ym содержит собственные векторы матрицы m. Для получения m собственных векторов (в некотором приближении) ковариационной матрицы (векторы Ритца) можно воспользоваться выражением U Lm Q Lm Ymm. (3.10)

–  –  –

Рис.3.3. Блок-схема алгоритма реконструкции первых m компонент квазигармонического спектра Компоновка генератора сингулярного спектра речи 3.1.6.

Обобщая изложенное в п.3.1.2-3.1.5, получен комплекс алгоритмов компоновка которых образует реализацию генератора квазигармонического спектра речи в следующей структуре (рис.3.4):

1) алгоритм 3.1, реализующий Ганкелизацию (1.1) речевого ряда SN, для получения траекторной матрицы A;

2) матричное произведения для получения ковариационной матрицы AAT.

3) алгоритм 3.2, реализующий метод Ланцоша для преобразования траекторной матрицы A в трехдиагональный симметрический вид, с соответствующим базисом Q, состоящий из векторов Ланцоша (2.42);

4) алгоритм 3.3, реализующий QR-RQ цепочку для поиска собственных пар (Y, D) матрицы, для дальнейшего получения разложения (2.27) и получении соответствующих сингулярных троек (1.5);

5) матричное произведение (3.10) для вычисления первых m собственных векторов UL,m (векторов Ритца) ковариационной матрицы С;

6) матричное произведение (3.12) для вычисления первых m собственных векторов VL,m матрицы A.

7) алгоритм 3.4, реализующий восстановление первых m компонент квазигармонического ряда (1.3).

Таким образом, обеспечивается алгоритмизация численной реализации генератора сингулярного спектра сингулярного оценивания частоты основного тона речевого сигнала, описываемого в системе (1.26.1).

–  –  –

Рис.3.4. Компоновка алгоритмов для реализации генератора сингулярного спектра речи Реализация средства выбора квазигармонической составляющей 3.2.

–  –  –

В соответствии с представлением о модели и численной реализации сингулярного оценивания частоты основного тона речи, рассмотренных в главе 2, разработан комплекс алгоритмов для программной реализации средства выбора квазигармонической составляющей – селектора (2.26.2) в следующем составе:

1) исходя из (2.17) - (2.19) проведена алгоритмизация измерения частоты временного спектра;

2) исходя из (2.20), (2.21) проведена алгоритмизация выбора наилучшего квазигармонического кандидата с ЧОТ;

3) исходя из (2.22) - (2.25) проведена алгоритмизация процедуры уточнения значения ЧОТ.

–  –  –

Аналогично тому как генератор сингулярного спектра речи совместно с блоком ИЧВС составляют генератор кандидатов действительного искомого периода основного тона, так и блок ВЧОТ с FIR блоком образуют систему выбора наилучшего кандидата с ЧОТ. Программная реализация блока ВЧОТ – это процедура, в которой осуществляет отбор кандидата ЧОТ в массиве Freqs по критерию наименьшей кратной частоты в соответствие с (2.19). Данные в массиве Freqs предварительно сортируются в порядке возрастания, далее рассматриваются варианты кратности частоты f0. На следующем этапе частота f0 рассматриваться как параметр для получения импульсной характеристики (2.20). Программная реализация блока FIR – это процедура, в которой реализована математическая операция свертки (2.21). Исходный фонемный ряд S (входной массив данных) сворачивается с массивом H (2.20), содержащий числовые данные, описывающие импульсную характеристику по выбранной пропускной частоте f0, полученной на выходе блока ВЧОТ. Программную реализацию блока процедуры выбора наилучшего квазигармонического кандидата с ЧОТ можно реализовать в соответствии с алгоритмом 3.6.

Алгоритм 3.6:

Шаг 1.Установка счетчика i в исходное состояние i : 1.

Шаг 2. Проверка 1: Элемент (i+1) массива Freqs равен нулю? Если да, то переход к шагу 6.

Шаг 3. Проверка 2: i-й элемент массива Freqs кратен элементу (i+1)? Если да, то переход к шагу 6.

Шаг 4. Увеличение счетчика i на единицу i : i 1.

Шаг 5. Переход к шагу 2.

Шаг 6. i-й элемент массива Freqs помещается в переменную f0.

Шаг 7. Вычисление конечно-импульсной характеристики (2.20), где f0 входной аргумент, H выходной.

Шаг 8. Вычисление свертки (2.21), где исходный фонемный ряд S и ряд H являются входными аргументами, T0 выходным.

–  –  –

Программная реализация блока ИА – это процедура вычисления средней величины максимальных элементов (локальных максимумов) в массиве T0. В текущей программной реализации вычисление значений ЧОТ F0 и средней амплитуды Amp агрегируют в едином цикле.

–  –  –

Обобщая изложенное в п.3.2.1-3.2.4 получен комплекс алгоритмов, компоновка которых образует реализацию селектора в следующей структуре (рис.3.5):

1) алгоритм 3.5 для измерения частоты квазигармонического спектра, содержащегося в матрице T;

2) алгоритм 3.6, реализующий процедуру выбора наилучшего кандидата с ЧОТ;

3) алгоритм 3.7, реализующий процедуру уточнения ЧОТ.

Таким образом, обеспечивается реализация селектора сингулярного оценивания частоты основного тона речевого сигнала, описываемого системой (2.26.2).

Разрешение (качество) квазигармонического спектра TL,N напрямую зависит от выбранной длины анализируемого ряда N и соответствующего окна анализа L. Так, например, программная реализация представленной модели селектора SEPT (рис. 4) рассчитана на применение в краевых задачах, т.е. когда N и L относительно небольшой размерности (N до 256 (32 мс) отсчетов, L до N/8). В таких случаях, для измерения частот временного спектра удобно применять быстрое преобразование Фурье. Однако при увеличении N (до 512 – временной кадр порядка 64 мс) и L (до N/4, N/2) разрешение спектра TL,N увеличивается, т.е. обеспечивается уменьшение модулирующих составляющих в квазигармоническом спектре [154-156]. В таких случаях удобно применять методы измерения частот отличные от Фурье анализа.

–  –  –

Рис.3.5. Компоновка алгоритмов для реализации селектора Алгоритм сингулярного оценивания частоты основного тона 3.3.

Разработанные алгоритмы можно скомпоновать в главный алгоритм сингулярного оценивания ЧОТ:

Шаг 1. Ганкелизация речевого сигнала SN для получения траекторной матрицы AL,K (рис. 4.8, алг.1).

Шаг 2. Вычисление ковариационной матрицы CL,L=AAT.

Шаг 3. Преобразование Ланцоша для вычисления трехдиагональной матрицы Релея размерностью mm и векторов Ланцоша QL,m (рис. 4.8, алг.2).

Шаг 4. QR-RQ факторизации для отыскания собственных пар (ynYm,m, nD) матрицы Релея m,m, где =Y D Y T, Y–матрица собственных векторов матрицы, D – матрица собственных значений матрицы (рис. 4.8, алг.3).

Шаг 5. Вычисление первых m собственных векторов unU (поиск матричной пары Ритца (UL,m, Dm,m), где UL,m=QL,mYm,m – матрица, состоящая из векторов Ритца).

Шаг 6. Вычисление первых m векторов vnV (матрицы главных компонент) траекторной матрицы A, порождаемых ее строками:

Vm,K Dm U m,L A L,K.

T Шаг 7. Реконструкция первых m компонент квазигармонического спектра Tm,N речевого сигнала (рис.

4.8, алг.4).

Шаг 8. Измерение частоты квазигармонического спектра Tm,N (рис. 4.9, алг.5).

Шаг 9. Выбор кандидата с ЧОТ из спектра Tm,N (рис. 4.9, алг.6).

Шаг 10. Уточнение ЧОТ и измерение средней амплитуды ряда Ti=нкчот,N (рис. 4.9, алг.7, алг.8).

Выводы по главе3.4.

Рассмотрена реализация сингулярного оценивания частоты основного тона речевого сигнала в составе: программной реализации генератора сингулярного спектра речевого сигнала; программной реализации процедуры выбора квазигармонической составляющей соответствующей частоте основного тона речи из спектра квазигармоник фонемного ряда.

Цель, выделенная для главы как: "комплекс алгоритмов для программной реализации модели сингулярного оценивания частоты основного тона речи", достигнута по следующим основным разделам:

1. Разработан комплекс алгоритмов для программной реализации генератора сингулярного спектра:

— рассмотрена алгоритмизация метода Ланцоша для задачи аппроксимации края сингулярного спектра речи;

— рассмотрена алгоритмизация QR-RQ факторизация для отыскания собственных пар трехдиагональной симметричной матрицы.

2. Разработан комплекс алгоритмов для программной реализации селектора:

— рассмотрена алгоритмизация измерителя частоты квазигармонического спектра;

— рассмотрена алгоритмизация измерителя процедуры выбора наилучшего квазигармонического кандидата с ЧОТ.

3. Рассмотрена алгоритмизация процедуры уточнения значения ЧОТ.

4. Получен алгоритм сингулярного оценивания ЧОТ.

ГЛАВА 4. Программная реализация сингулярного оценивания частоты основного тона речевого сигнала.

Экспериментальные исследования с моделью В главе представлена программная реализация разработанной модели и алгоритмов. Приведена структура программного комплекса сингулярного оценивания частоты основного тона речи. Далее проведены экспериментальные исследования с моделью, в которых даны оценки адекватности и достоверности модели. Обоснована возможность применения комплекса в исследованиях, направленных на получение параметров основного тона речевого сигнала в режиме реального времени.

Программная реализации сингулярного оценивания ЧОТ 4.1.

–  –  –

Условимся, что курсивные обозначения латинских символов служат для обозначения математических переменных, а печатные для программных, например, T0 – ряд, а T0 – массив данных ЭВМ. Программная реализация сингулярного измерителя ЧОТ состоит из двух классов, реализованных на языке C#. Каждый класс состоит из конструктора и методов, реализующих один из выше описанных модулей.

Состав программной реализации в параметрическом виде имеет следующий вид:

1. Конструктор класса генератора сингулярного спектра, реализованный в качестве функции (рис. 4.8) T=ssg(S, N, L, m), где S – массив данных, содержащий исходный фонемный ряд SN;

N – размер массива S;

L – размер окна анализа;

m – число квазигармонических составляющих;

T – массив данных, содержащий квазигармонический спектр.

2. Модуль преобразований Ланцоша, реализованный в качестве метода класса ssg (алгоритм 3.2) (, Q)= Lanczos(C, RS, CS), где C – массив данных, содержащий ковариационную матрицу;

RS, CS – параметры, задающие размеры ковариационной матрицы C;

– массив данных, содержащий трехдиагональную симметричную матрицу m,m;

Q – массив данных, содержащий векторы Ланцоша матрицы QL,m.

3. Модуль QR факторизации, реализованный в качестве метода класса ssg (алгоритм 3.3) (D, Y)=qr(a, b, RS), где a – массив данных, содержащий элементы трехдиагональной матрицы, расположенных на главной диагонали;

b – массив данных, содержащий элементы трехдиагональной матрицы, расположенных над главной диагональю;

RS –входной параметр, задающий размер массива a (количество спектральных компонент RS=m);

Y – массив данных, содержащий собственные векторы матрицы.

–  –  –

4. Конструктор класса селектора, реализованный в качестве функции (рис. 4.9) Selector(S, T, T0, F0, Amp, m, N), где T – массив данных, содержащий квазигармонический спектр;

T0 – массив данных, содержащий квазигармонику основного тона;

F0 – переменная, содержащая ЧОТ;

Amp – переменная, содержащая среднюю амплитуду квазигармоники основного тона.

–  –  –

Рассмотрим общий вид работы программной реализации сингулярного оценивания ЧОТ. На вход программы подаются данные в виде фонемного ряда S, который выступает в качестве входного параметра для инициализации класса ГСС (рис. 4.10). Конструктор класса ГСС вызывает методы, в которых реализованы алгоритмы сингулярного спектрального анализа (алгоритмы 3.1-3.4). В процессе работы вызываемых методов осуществляется преобразование фонемного ряда, содержащегося в массиве данных S, в спектр квазигармоник, содержащихся в двухмерном массиве данных T. Массив данных T выступает в качестве входного аргумента при инициализации класса селектора. Конструктор класса селектора вызывает методы выбора квазигармонической составляющей с ЧОТ и методы расчета его параметров (алгоритмы 3.5-3.7) (рис. 4.11, 4.12). На выходе программы данные соответствующие параметрам основного тона T0, Amp, F0. На основе полученной программной реализации, в следующем разделе проводятся экспериментальные исследования с моделью сингулярного оценивания ЧОТ, в которой рассматриваются оценки временных характеристик, адекватность и достоверность полученной модели.

Рис.4.10. Общий вид программной реализации сингулярного оценивания частоты основного тона речи на уровне модели IDEF0

–  –  –

Рис.4.12. Визуализация входных и выходных данных в результате сингулярного оценивания частоты основного тона речи: 1 – визуализация фонемного ряда S гласного звука «е»; 2 – визуализация числового рядя T0, содержащего квазигармоническую составляющую с ЧОТ речи Экспериментальные исследования с моделью 4.2.

Оценка временных характеристик сингулярного оценивания ЧОТ 4.2.1.

речи Рассмотрим оценку временных характеристик сингулярного оценивания ЧОТ при следующих условиях: в качестве входных данных выберем фонемные ряды вокализированной речи, мужского и женского диктора, длительностью 32мс (табл. 4.1), а в качестве аппаратной части выберем персональный компьютер (ПК) на базе процессора Intel i5 3.1GHz и мобильное устройство связи на базе процессора Apple A6 1.7GHz. В качестве положительного критерия временной характеристики примем работу программы в режиме реального времени. Под режимом реального времени будем понимать время сингулярного оценивания ЧОТ меньшее, чем сам кадр анализа. Результаты тестирования временных характеристик показывают, что время оценивания ЧОТ (выполнения программы) как для ПК (Intel i5 3.1Ghz), так и для мобильного устройства связи (Apple A6 1.7Ghz) не превышает заданного начальным условием (табл. 4.2, 4.3).

В таблицах 4.2 и 4.3 параметр G задает количество спектральных составляющих, которые необходимо найти, а задает достаточную ошибку округления для сингулярных чисел. Для уменьшения латентности анализа подбираются соответствующие параметры G и. Время оценивания ЧОТ для 100 несортированных вокализованных образцов речи для ПК при заданном =0,00001 не превышает 20мс. Заключим, что сингулярное оценивание ЧОТ может использоваться в приложениях реального времени, где задержка в 20мс может быть допустимой. Таким образом, временной запас сохранения условия работы программы в режиме реального времени составляет 37% при заданной точности =0,00001, что обосновывает первое положение диссертации.

Таблица 4.1.

Фонемный ряд гласных звуков русской речи № Фонема f0 f1 f2 fi f253 f254 f255 … 253 254 255 1 [] -0,031 -0,050 -0,042 … 0,016 0,027 0,030 2 [e] -0,021 -0,044 -0,047 … 0,003 0,019 0,036 …… … … ……… … … 9 [] -0,010 -0,016 -0,020 … 0,053 0,046 0,051 10 [] -0,017 -0,025 -0,012 … -0,015 -0,009 -0,006

–  –  –

Проведем оценку адекватности модели сингулярного оценивания посредством пассивного эксперимента (дисперсионный анализ) [160] по следующему плану:

1) пусть имеются две независимые выборки (табл. 4.4) от одного источника данных и будем считать, что данные в этих выборках приближены к нормальному распределению, тогда в качестве нулевой гипотезы H0 принимается тезис о том, что различия между оценками ЧОТ, полученных с помощью сингулярного оценивания ЧОТ и программы «Praat» [47] несущественны (т.е. отлична лишь только технология оценивания, а результаты оценивания имеют несущественные отличия);

2) в качестве исходных данных выбраны фонемные ряды гласных звуков русской речи: {[]i}256, {[e]i}256, {[]i}256, {[i]i}256, {[o]i}256, {[u]i}256, {[]i}256, {[]i}256, {[ ]i}256, {[]i}256;

3) с помощью сингулярного оценивания ЧОТ (выборка x1i) и программы «Praat» (выборка x2i) проводится оценка ЧОТ;

4) на основании табличных данных вычисляется эмпирическое корреляционное соотношение;

5) на основании полученной эмпирической оценки принимается или отклоняется нулевая гипотеза H0.

–  –  –

10 i 1 Рассчитаем факторную дисперсию D1 x1 ( x1) 41106.54 41048.38 58.17, D2 x2 ( x2) 41255.15 41200.88 54.27.

Рассчитаем среднюю внутрифакторную дисперсию 10D1 10D 2 Dсвд 56.22.

Рассчитаем общефакторную дисперсию 10 x1 10 x 2 x0 202.79, 10 x1 10 x 2 x0 41180.85, D0 x0 ( x0) 41180.85 41124.60 56.25.

Рассчитаем межфакторную дисперсию по формуле суммы разности общефакторной и факторной дисперсий 10(D0 D1) 10(D0 D 2) Dмф 0.035.

Вычислим эмпирическое корреляционное соотношение Dмф 0.035 0.025.

D0 56.25 Относительно шкалы Чеддока [161] разница между выборками x1i и x2i слабая, всего 2.5%, следовательно, нет оснований отвергать нулевую гипотезу H0. Таким образом, принимается гипотеза о незначительных различиях между оценками ЧОТ, полученных с помощью сингулярного оценивания и программой «Praat». Для 100 несортированных (как мужских, так и женских) образцов вокализированных сегментов речи из базы данных Disordered Voice Database [64] дисперсионный анализ показал идентичные результаты.

В процессе пассивного эксперимента появился тезис, который требует дополнительных изысканий. Необходимо учитывать не только канал анализа речевого сигнала, но и канал синтеза [162]. В статье [163] описывается постановка эксперимента по оценке параметров голосового источника. В результате эксперимента рассматривается распределение периодов основного тона T0 женских и мужских голосов на ударных гласных числительных русского языка и их аппроксимация гамма-распределением. Если принять, что множества частотных выборок основного тона i=1,...,N:xni, для женских и i=1,...,N:ymi для мужских дикторов, при [n=1,…,б.ч.; m=1,…,б.ч.] (б.ч. – большое число), имеют некоторую сходимость к нормальному гамма-распределению, то можно предположить, что нормальный (здоровый) диапазон (полоса) ЧОТ для любого диктора (или же диапазон, характеризующий конкретного диктора) составляет [ xn 2 D, xn 2 D ], [ ym 2 D, ym 2 D ], где xn, ym – средняя величина ЧОТ для женского и мужского диктора соответственно по всему диапазону гласных звуков речи;

n, m – порядковый номер диктора;

D – дисперсия (в квадратных частотах);

D – среднее квадратичное отклонение.

Иными словами, нормальная частота основного тона диктора для нижней и верхней границы не превышает 2 от средней величины.



Pages:   || 2 |


Похожие работы:

«БИЗНЕС-ПЛАН Наименование проекта: “Техническое переоснащение продовольственного универсального магазина ООО СП «Золотое кольцо» Автор: Ясенской Под руководством Воронина В.Г.Содержание бизнес-плана: 1. ИСПОЛНИТЕЛЬНОЕ РЕЗЮМЕ 2 1.1. КОМПАНИЯ 3 1.2. ПО...»

«ТРУДЫ ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА Том 278 Серия психолого-педагогическая МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»...»

«1 ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ СТРОИТЕЛЬНЫЙ УНИВЕРСИТЕТ ПРОГРАММА ДИСЦИПЛИНЫ ОХРАНА ВОЗДУШНОГО БАССЕЙНА 1. Требования к уровню освоения содержания дисциплины ( указы, основные требования в виде знаний, умений, навыков) На у...»

«Министерство образования Республики Беларусь Учреждение образования «Белорусский государственный университет информатики и радиоэлектроники» Кафедра систем управления Н.И. Сорока, Г.А. Кривинченко...»

«Ковалева Ольга Владимировна СОВЕРШЕНСТВОВАНИЕ ИЗОБРАЖЕНИЯ РЕЛЬЕФА НА МЕЛКОМАСШТАБНЫХ КАРТАХ 25.00.33 – Картография АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук МОСКВА – 2012 Работа выполнена на кафедре оформле...»

«Вып. 2000 1 ИС N 7 т. 2;4;6 4;4;1 МАЛЫЙ инновационный бизнес и его роль в ускорении НТП в России. Обзор текущей литературы. В 80-е годы в большинстве развитых стран разразился настоящий предпринимательский бунт как следствие перехода к каче...»

«ЛЕКСИН ВАСИЛИЙ АЛЕКСЕЕВИЧ ВЕРОЯТНОСТНЫЕ МОДЕЛИ В АНАЛИЗЕ КЛИЕНТСКИХ СРЕД 01.01.09 Дискретная математика и математическая кибернетика Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва, 2011 Работа выполн...»

«Автоматические кромкооблицовочные станки Когда конкурентоспособность означает качественное производство Made In Biesse Рынок запрашивает изменения в производственных процессах, которые позволили бы принять как можно больше производственных заданий. При этом должны поддерживаться высокие станд...»

«ГАВРИЛЕНКО АЛЕКСАНДРА ВАСИЛЬЕВНА ГИДРИРОВАНИЕ НИТРАТ-ИОНА НА Pd-СОДЕРЖАЩИХ КАТАЛИЗАТОРАХ, АКТИВИРОВАННЫХ УЛЬТРАЗВУКОМ Специальность 02.00.04 Физическая химия Автореферат диссертации на соискание ученой степени кандидата химических наук Иваново – 2008 Работа выполнена на кафедре б...»

«ЧОУ ВО СОВРЕМЕННАЯ ГУМАНИТАРНАЯ АКАДЕМИЯ УТВЕРЖДАЮ Ректор ЧОУ ВО СГА Председатель приемной комиссии _В.П.Тараканов «30» августа 2016 г. ПРОГРАММА ВСТУПИТЕЛЬНОГО ИСПЫТАНИЯ В МАГИСТРАТУРУ 38.04.01 «ЭКОНОМИКА» Направление подготовки НАПРАВЛЕННОСТЬ (ПРОФИЛЬ): «ЭКОНОМИЧЕСКАЯ ТЕОРИЯ» 8605.01.01;ПВЭ.01;1 Рассмотрена и одобре...»

«Малкина М.Ю. Особенности инфляции в открытой экономике и вопросы организации денежной системы России Особенности инфляционного процесса в открытой экономике Страны с открытой экономикой нередко страдают от так называемой импортируемой инфляции, мех...»

«Тринадцатая Международная научно-техническая конференция «Оптические методы исследования потоков» Москва, 29 июня— 03 июля 2015 г. УДК 681.3.07 А.Е. Бондарев, Е.А. Нестеренко Институт прикладной математики им. М.В. Келдыша РАН, Россия, 125047, Москва, Миусская пл., 4, E-mail: bond@keldysh.ru ПРИБЛИЖЕННЫЙ ПОЛУЭМПИРИЧЕСКИЙ ПОДХОД К ОЦЕНКЕ С...»

«А.А.Шмаков Горно-Алтайский государственный университет НЕКОТОРЫЕ ПРОБЛЕМЫ ФОРМИРОВАНИЯ ТЕРМИНОСИСТЕМЫ ИНТЕРНЕТ-ЛИНГВИСТИКИ Интернет является объектом изучения различных наук: от технических до гуманитарных. Что к...»

«ГОСТ 18128-82 УДК 69.022.326:691.328.5:006.354 Группа Ж35 ГОСУДАРСТВЕННЫЙ СТАНДАРТ СОЮЗА ССР ПАНЕЛИ АСБЕСТОЦЕМЕНТНЫЕ СТЕНОВЫЕ НАРУЖНЫЕ НА ДЕРЕВЯННОМ КАРКАСЕ С УТЕПЛИТЕЛЕМ Технические условия Timber framed asbestos cement exterior wall panels supplied with insulation. Specifications ОКП 57 8195...»

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Ульяновский государственный технический университет ПРАВИЛА ОФОРМЛЕНИЯ...»

«© 2000 г. Т.И. АРАВИНА, Ю.Ю. КУЗНЕЦОВ ЛОББИЗМ: НАЦИОНАЛЬНЫЕ ОБРАЗЦЫ И СТЕПЕНЬ СОЦИАЛЬНОЙ ПРИЕМЛЕМОСТИ АРАВИНА Татьяна Ивановна зам. директора Владимирского филиала РАГС, кандидат психологических наук. КУЗНЕЦОВ Юрий Юрьевич аспирант Российской академии госуд...»

«БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ КАФЕДРА ТЕОРЕТИЧЕСКОЙ И ИНСТИТУЦИОНАЛЬНОЙ ЭКОНОМИКИ ПРОГРАММА подготовки кандидатского минимума по теоретической экономике (экономической теории) Минск, 2006 г. Экономическая теория не является экон...»

«ТРУДЫ МФТИ. — 2013. — Том 5, № 3 139 Общая и прикладная физика УДК 538.935 И. А. Варфоломеев, В. Н. Горелкин, В. Р. Соловьев Московский физико-технический институт (государственный университет) Моделирование переноса носителей в алмазе методом Монте-Карло Методом Монте-Карло выполнено численное...»

«ЭКОНОМИЧЕСКИЕ НАУКИ УДК 339.9:338.436.33 СОВЕРШЕНСТВОВАНИЕ СТРУКТУРЫ МЕХАНИЗМА ГОСУДАРСТВЕННОГО РЕГУЛИРОВАНИЯ ВНЕШНЕЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ В АПК Галина Владимировна Кандакова1, кандидат экономических наук, доцент кафедры экономической теории и мировой экономики Виктория Борисовна Малицкая2, доктор экономич...»

«ЕТНОПОЛІТИКА УДК 323.15(477.75)+325.454(477.75) Ю.А. Билецкая, аспирант Севастопольский национальный технический университет ул. Университетская, 33, г. Севастополь, Украина, 99053 E-mail: yuliya.biletska...»

«Известия ЮФУ.Технические науки № 6, 2008 Тематический выпуск МЕДИЦИНСКИЕ ИНФОРМАЦИОННЫЕ СИСТЕМЫ Таганрог 2008 Известия ЮФУ. Технические науки Тематический выпуск Известия ЮФУ. Технические науки. Тематический выпуск. «Медицинские информационные системы». – Таганрог: Изд-во ТТИ ЮФУ, 2008. № 6 (83). – 260с. Тематический выпуск по...»








 
2017 www.pdf.knigi-x.ru - «Бесплатная электронная библиотека - разные матриалы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.