WWW.PDF.KNIGI-X.RU
БЕСПЛАТНАЯ  ИНТЕРНЕТ  БИБЛИОТЕКА - Разные материалы
 

«_ Речевые информационные технологии К РАЗРАБОТКЕ ЭКСПЕРТНОЙ СИСТЕМЫ ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО ФОНОГРАММАМ СЛИТНОЙ РЕЧИ К.т.н. А.Ш. ...»

___________________________________________________ Речевые информационные технологии

К РАЗРАБОТКЕ ЭКСПЕРТНОЙ СИСТЕМЫ

ИДЕНТИФИКАЦИИ ГОВОРЯЩЕГО ПО

ФОНОГРАММАМ СЛИТНОЙ РЕЧИ

К.т.н. А.Ш. Каганов, д.ф.н. В.Г. Михайлов, д.т.н. В.Д. Сердюков

При проведении судебного фонографического исследования

эксперт принимает решение на основе обобщенной оценки множества

вариативных признаков, отражающих свойства речеобразования и восприятия, а также параметров канала приема-передачи речевого сигнала. Вариативность признаков обусловлена как собственными свойствами речи, так и ситуационными условия общения. Хотя действующие инструкции в той или иной степени учитывают эти особенности речи (см. например, методическое пособие «Идентификация человека по магнитной записи его речи» РФЦ СЭ при МЮ РФ, 1995) на практике экспертиза часто оказывается ограниченной по глубине изучения имеющегося в распоряжении эксперта материала, что может привести к неполноте выводов экспертного заключения.

Суть дела заключается в понимании сложности проблемы в целом и в познаниях конкретного эксперта-фонографиста. Как нам представляется минимизация зависимости от познаний конкретного эксперта-фонографиста., может быть достигнута путем создания современной гетерархической экспертной системы для проведения фонографической экспертизы. Экспертная система будет включать в себя блоки инструментального, фонетического и лингвистического анализа, связанные гетерархической зависимостью.



Экспертная система как большая сложная система должна быть способной адаптироваться к соответствующей речевой ситуации на основе первичного анализа результатов инструментального исследования исходных фонограмм и подбора ближайших эталонов из базы данных. Вторичное скорректированное описание акустических признаков образца и его лингвистических характеристик должно обеспечить процедуру выделения совокупности более устойчивых идентификационных признаков исходной фонограммы и образца, отражающую свойство эмерджентности экспертной системы т.е. порождения нового свойства, которое отсутствует у отдельных её блоков.

Задача криминалистической идентификации говорящего на некоторой фонотеке сводится к решению двух последовательных задач поиска ближайшего голоса из фонотеки и его верификации1.

1 Сердюков В.Д. Идентификация и верификация говорящих для центров обработки телефонных звонков. В сб. трудов международной конференции “Информатизация правоохранительных систем“,из-во Академии управления МВД РФ, 1998, ч. 2.

Речевые информационные технологии____________________________________________________

К специфическим особенностям задачи криминалистической идентификации говорящего следует отнести вариативность первичных параметров x(,t) речевого сигнала x(t), предъявляемого на экспертизу.

Минимизация влияния указанной вариативности на процесс человеко-машинной идентификации происходит как на уровне органолептического редактирования сигналов x(t), так и на основе выбора характеристических функций речи fi(x,s), отображающих сходство и/или различия голосов x и s, где s – эталонный голос.

Однако если для органолептического редактирования сигналов s(t) существуют специализированные редакторы сигналов, то для оценки сходства и/или различия голосов на основе выбора характеристических функций речи fi(x) не существует общепринятой методики идентификации. В этой связи постановка задачи выбора характеристических функций речи fi(x,s) и их свертки ID(x,s)= [Ai * fi(x,s) ] / ( Ai) является актуальной, Ai – cуть веса характеристических функций речи fi(x,s).

При выборе характеристических функций речи fi(x,s) следует иметь в виду, что они должны отображать сходство и различия анатомических констант голосов и динамических стереотипов порождения звуков.

Для оценки сходства может использоваться коэффициент корреляции спектральных и / или формантных параметров речи, а для оценки различий их дисперсия, выраженные в процентах.

При определении весов характеристических функций речи Ai могут использоваться отношения выборочных средних для чужих и своих голосов : fi(x,x*) / fi(s,s*).

Система криминалистической идентификации фонограмм (СКИФ–99) использует следующее первичное описание голоса:

• интегральный спектр голоса(300-3500 Гц),

• последовательность спектров энергетически мощных (опорных гласных) звуков голоса(300-3500 Гц),

• основной тон голоса и плотность нулевых пересечений.

Для каждого первичного описания голоса вычисляются три характеристические функции корреляции, дисперсии и вероятности совпадения первичных параметров.

Эксперту предоставляется возможность использования указанных функций как в отдельности, так и в виде максимума их свертки s*= arg max ID(x,s).

___________________________________________________ Речевые информационные технологии Экспериментальные исследования, проведенные на материале 100 мужских голосов, подтвердили более высокую надежность идентификации говорящего с использованием в качестве решающего правила свертки характеристических функций корреляции, дисперсии и вероятности совпадения первичных параметров.

СКИФ –99 осуществляет автоматический поиск двух ближайших голосов, а затем их верифицирует т.е. принимает три типа решений свой, неопределенность или чужой.

Результаты идентификации и верификации отображаются в текстовом файле в виде протокола инструментального исследования.

Протокол содержит имена и порядковые номера ближайших голосов, имена и порядковые номера сигнальных файлов, использованных при идентификации, общее число звуков в предъявленной фонограмме, статистическую вероятность верификации звуков, средневзвешенную корреляцию и дисперсию, статистическую вероятность совпадения первичных параметров и общую вероятность верификации говорящего. Указанные в протоколе сведения обеспечивают полную воспроизводимость идентификационной экспертизы. В РФЦ СЭ при МЮ РФ ведутся исследования по разработке гетерархической экспертной системы идентификации говорящего СКИФ-2000 и специализированной фонотеки с учетом диалектных особенностей голосов.

ИДЕНТИФИКАЦИЯ / ВЕРИФИКАЦИЯ ДИКТОРА:

ПРОТОТИП СИСТЕМЫ И ЕГО РЕАЛИЗАЦИЯ

К.т.н. В.И. Джиган, к.т.н. В.А. Махонин, С.Г. Саул, д.т.н. В.А. Свириденко, И.Д. Юдицкий Задачи верификации и идентификации диктора по речевым высказываниям занимают важное место в речевых технологиях. Приложениями этих задач являются интерфейс человек-компьютер, голосовое управление устройствами и приборами, голосовые системы доступа к объектам и др.

В настоящее время разработан прототип системы идентификации / верификации диктора на базе платформы Intel Pentium. Предполагается использование этой системы для решения вышеперечисленных задач. Подробнее о ней можно узнать по адресу vladimir@spiritcorp.com.

Один из известных подходов к построению подобных систем базируется на извлечении характерных признаков личности по речевому высказыванию и их классификации на основе сравнения этих признаков с заранее заготовленными на этапе обучения или постоянно обновляющимися в процессе эксплуатации системы признаками, храРечевые информационные технологии____________________________________________________

нящимися в базе данных (БД) эталонных высказываний. В качестве таких признаков обычно используются параметры голосового источника и артикуляторного аппарата человека: частота основного тона, коэффициенты кратковременных спектров, кепстров, мел- или дельтакепстров, коэффициенты линейного предсказания, линейные спектральные пары, модуляционные спектры или комбинация перечисленных признаков, получаемых в результате покадрового анализа речи. Для собственно классификации широко используются скрытые марковские модели HMM, процедура DTW (как частный случай HMM) и нейронные сети NN. При этом важен выбор метрики в пространстве признаков, формируемых на каждом кадре речевого высказывания.

Проведены исследования эффективности использования перечисленных признаков и алгоритмов классификации в задаче идентификации/верификации диктора. Однако, ориентация на низкую вычислительную сложность системы (не более 10 MIPS), а также низкую ее стоимость определила использование относительно простых в вычислительном смысле и эффективных с позиций качества принятия решения методов и процедур (критерии: вероятность правильной верификации/идентификации Pv, вероятность принятия «чужого» диктора за «своего» Ps).





В прототипе системы в качестве речевых признаков используются линейные спектральные пары и частота основного тона. Это способствует (после нормализации частоты основного тона говорящего) однородности выбранных параметров, упрощающей вычисление указанной выше метрики. В качестве процедуры классификации применяется модифицированная DTW-процедура.

На правильность принятия решений влияют точность определения границ зашумленного речевого высказывания и корректная подготовка БД эталонов. Используемый детектор речи VAD обеспечивает удовлетворительное функционирование в условиях аддитивных широкополосных шумов (SNR~10 dB). Кроме того, при подготовке БД эталонов и идентификации, речевые высказывания подвергаются анализу по ряду критериев, способствующих повышению надежности распознавания. В настоящее время прототип системы обеспечивает следующие значения критериев качества Pv 0,97, Ps 0,02.

Графический интерфейс пользователя (ГИП) прототипа системы представлен на рисунке.

С помощью ГИП возможно осуществлять создание БД для разрешенных пользователей (для прототипа: N 10 пользователей и не более 6 высказываний для каждого пользователя). Создание БД эталоРечевые информационные технологии нов, а также ввод высказываний для идентификации осуществляются с помощью стандартных средств ввода звуковой информации в ПК.

Планируется дальнейшее совершенствование прототипа, встраивание разработанной системы идентификации / верификации диктора в различные программные продукты, а также ее реализацию на базе процессоров цифровой обработки сигналов.

ПРОГРАММНЫЙ ПАКЕТ VIS ДЛЯ ИДЕНТИФИКАЦИИ

ПО ГОЛОСУ К.т.н. А.Ф. Новосельский, к.ю.н. Ю.Ф. Жариков Для идентификации по голосу обычно сравнивают средние частоты основного тона – ОТ и средние спектры (системы СКИФ, СИГ, SIS) или средние значения частот ОТ и коэффициентов линейного предсказания – КЛП (система фирмы Technogama). Определение вокализованных звуков в речевом сигнале по критерию максимума энергии сигнала (системы СКИФ, СИГ) требует сложной нормализации. В системах SASIS, Диалект и Phonograph требуется ручная сегментация. Попытка преодолеть эти ограничения сделана в пакете VIS2.

VIS (Voice Identification System) – программный пакет для автоматической текстонезависимой идентификации по голосу, основанный на долговременном усреднении параметров речи. Пакет работает в среде DOS и обрабатывает файлы с предварительно оцифрованной речью.

Работа с пакетом включает 4 основных этапа:

1) предварительная обработка записей речи (улучшение качества записей, устранение шумов и помех, отбор речевого материала достаточного количества и качества);

Жариков Ю.Ф., Новосельский А.Ф. Система для идентификации человека по голосу // Труды Научно-практической конференции "Использование достижений наук

и и техники в борьбе с преступностью". -Харьков, 1997. -С.58-60.

Новосельский А.Ф. Измерительный аппаратно-программный комплекс для идентификации личности по голосу: Дис... канд.техн.наук: 05.11.16. -Киев, 1998. -192 c.

Патент N 26107 Украины, МПК G 10 L 5/06, 7/06, 7/08, 9/04, 9/06, 9/18. Способ идентификации личности по параметрам устной речи /А.Ф.Новосельский, Ю.Ф.Жариков, Ю.Ю.Орлов (Украина). -N 98052285; Заявлено 05.05.98; Опубл. бюл."Промышленная собственность" N2 за 1999 год.

Речевые информационные технологии____________________________________________________

2) обработка записанных речевых сигналов для измерения параметров речи;

3) сравнение измеренных параметров речи с использованием меры близости;

4) принятие решения об идентичности исследуемых записей речи.

Сначала программа делит речевой сигнал на речь и паузы по энергии в кадре данных. Затем с помощью кепстрального алгоритма Нолла находятся вокализованные участки, на которых измеряются 5 групп параметров: спектральные и кепстральные отсчеты, кепстральные коэффициенты, КЛП и группа неоднородных параметров (частоты ОТ, первых трех формант и антиформанты, отношения F1/F0 и F2/F1, наклон спектра речи к верхним частотам, коэффициент вариации СКЗ сигнала, изменение частоты ОТ и функции артикуляции в сравнении с предыдущим кадром данных).

Для оценки огибающей спектра речи, частот формант и антиформант, наклона спектра речи к верхним частотам применена гомоморфная обработка речи с использованием уменьшенного кепстрального временного окна.

Измеренные на вокализованных участках параметры усредняются. После этого находится расстояние между векторами средних значений параметров, извлеченных из исследуемой фонограммы и фонограммы с образцами речи. Если это расстояние меньше определенного порога, голоса принимаются совпадающими. Посредством статистических критериев сравниваются частоты ОТ и первых трех формант, антиформанты, отношения F1/F0, F2/F1, наклон спектра речи к верхним частотам.

В пакете VIS применено 5 подходов:

• –параметрические статистические критерии (сравнение средних и дисперсии);

• –непараметрический статистический критерий (критерий Вилкоксона);

• –взвешенное эвклидово расстояние;

• –расстояние Махалонобиса;

• –искусственная нейронная сеть (2-слойный персептрон).

Весомость параметров учитывается во взвешенном евклидовом расстоянии путем применения F-отношения, в расстоянии Махалонобиса – использованием ковариационной матрицы.

Эксперименты по идентификации, проведенные с собранной базой данных речевых сигналов, дали 92% правильных решений.

___________________________________________________ Речевые информационные технологии

ОБ ОПЫТЕ СПЕЦИАЛЬНОЙ ПОДГОТОВКИ

ЭКСПЕРТОВ-КРИМИНАЛИСТОВ ПО ФОНОСКОПИИ

Академик МАИ, д.ф.н., проф. Р.К. Потапова Одним из направлений в подготовке экспертов-криминалистов по фоноскопии является овладение знаниями в области речеведения.

Если к работе с лингвистическим материалом начинающие эксперты в целом готовы с учетом их общелингвистического вузовского образования (имеются в виду знания основных единиц уровней языка, структуры текста, его лексической, синтактико-семантической специфики и т.д.), то в области устной речи применительно к фоноскопии наблюдается практически полное отсутствие теоретических и прикладных знаний, ибо в данном случае необходимо обращение к таким аспектам речеведения, как физиология и психология речи, слуховая перцепция, акустика речи, фониатрия, патология речи, фонетика и фонология конкретного языка, основы распознавания образов и автоматической обработки речи, основы теории вероятности и математической статистики и т.д. в их совокупности, чему специально и целенаправленно в вузах не обучают. Кроме того, в настоящее время задачи фоноскопии усложняются все более возрастающим объемом исследуемого материала на иностранных языках Ближнего и Дальнего зарубежья. В связи в этим возникает необходимость подготовки высококвалифицированных кадров экспертов-криминалистов по фоноскопии, знания которых аккумулировали бы все вышеуказанные научные направления.

Определенный опыт и оптимальное сочетание предметных знаний в этом плане имеют специалисты в области прикладной и экспериментальной лингвистики МГЛУ, которые в течение многих лет периодически по просьбе ЭКЦ МВД РФ участвуют в процессе обучения экспертов. Следует подчеркнуть, что эта деятельность выходит далеко за рамки аудиторных занятий. Проводится большая научноисследовательская работа по различным актуальным проблемам идентификации говорящего по речи (формируются базы фонетических данных на иностранных языках: британском и американском вариантах английского языка, французском языке), разрабатывается методика идентификации личности по речи с учетом влияния факторов совпадения-несовпадения языка эксперта и языка идентифицируемого говорящего по принципу «родной язык»-«неродной язык» (неродной язык эксперта при условии владения этим языком и неродной язык эксперта при условии отсутствия владения им). Речь идет о следующих вариантах: полном совпадении языка эксперта и языка, на котором говорит идентифицируемая личность; частичном совпадении и Речевые информационные технологии____________________________________________________

отсутствии совпадения. Проводимые в данной области исследования применительно к британскому и американскому вариантам английского языка, а также к французскому языку представляются перспективными. В настоящее время уже получены данные, свидетельствующие о сложности и неоднозначности фактора влияния языка на результаты экспертизы.

Первым шагом на пути «накачивания» экспертов знаниями в области речеведения является создание электронной энциклопедии (ЭЭ) «Автоматизированное рабочее место эксперта-фоноскописта МСР-ФОНО-Э» (ЭСТРА, Москва, 1998), реализованной в виде Help файла и представляющей собой гипертекстовый электронный документ, имеющий развитую систему связей и ссылок. Данная ЭЭ предназначена для информационного обеспечения эксперта-фоноскописта теоретическими и практическими знаниями по речеведению и идентификации говорящего, обучения экспертов проведению фоноскопических исследований и выполнению экспертиз. С помощью ЭЭ может быть реализовано также дистанционное обучение экспертов.

Разработанная нами лингвистическая часть первой версии ЭЭ содержит информацию по различным вопросам современного речеведения: язык и речь; механизмы речеобразования и речевосприятия, пара- и экстралингвистика; транскрипция; психоакустика и психолингвистика, особенности восприятия речи в шуме и при наличии помех и др. Кроме вышеуказанной информации мы сочли целесообразным составить и включить в ЭЭ толковый мини-словарь специальных терминов по речеведению.

Первичная практика использования ЭЭ в процессе формирования специальных знаний по речеведению свидетельствует о целесообразности разработки и дальнейшего развития данного вспомогательного электронного продукта, что послужит как справочноинформационной системой, так и оптимальным тренинговым средством для эксперта по фоноскопии.

ЧАСТОТА И УСТОЙЧИВОСТЬ НЕКОТОРЫХ

ПРИЗНАКОВ ФОНЕТИЧЕСКОЙ ГРУППЫ (CМЫЧНОВЗРЫВНЫЕ)

К.фил.н., М.В. Хитина Представляемая работа является продолжением обработки и анализа материалов, полученных в ходе работы над темой по определению частоты встречаемости и устойчивости идентификационных признаков в нейтральной спонтанной речи.

___________________________________________________ Речевые информационные технологии Предшествующие публикации (см. материалы конференций за (1996, 1997 г.г.) были посвящены рассмотрению данных по гласным звукам и сонантам, приводимая публикация предлагает результаты анализа смычно-взрывных согласных (б, п, д, т, г, к и их мягких пар).

Для решения данной задачи использовался метод специализированных оценок, разработанный д.ю.н. Г.Л. Грановским. Основу метода составляет индивидуальный анкетный опрос специалистов (10 чел.), дающих эвристическую оценку значения наблюдаемых признаков для решения поставленной задачи. В качестве исследуемых признаков выступали отклонения от нормативных произносительных вариантов.

При оценке частоты и устойчивости идентификационных признаков (по шкале малая-средняя-высокая) оценивалась также достоверность собственного суждения (по 100-балльной шкале). В качестве дополнительного фактора рассматривалась компетентность информанта (самооценка по 10-балльной шкале). В соответствии с инструкцией признак характеризовался как часто встречающийся, если наблюдался в речи более 50% людей, носителей русского языка, средний - в речи от 30% до 50% и малый - менее чем у 30% говорящих.

Устойчивость признака (то есть стабильность его появления у людей в различных ситуациях речевого общения) оценивалась как высокая, если признак появлялся практически во всех ситуациях, как средняя - в нескольких ситуациях и как малая - только в некоторых определенных ситуациях.

По ходу оценки допускалась фиксация нескольких вариантов реализации (с их оценкой), кроме того, в примечаниях можно было дать дополнительную информацию.

Оценка полученных данных осуществлялась как по усредненным значениям (по всем информантам, участвовавшим в эксперименте), так и по ответам наиболее опытных специалистов (профессиональных экспертов).

Для смычно-взрывных отклонения от нормы по частоте встречаемости признака были оценены в основном как "малые" (например, для 5 звуков [п, б, д, т, к], и как "средние" для звука [г]). По группе мягких вариантов положение такое же, хотя для [п', б', д'] увеличивается число "средних" показателей. Что же касается оценки "высокая", то она появлялась только у некоторых звуков, причем по одному разу.

Результаты предлагались при довольно высокой оценке достоверности по частоте встречаемости.

Исходя из 100-балльной шкалы, по группе твердых согласных предлагались от 75-76 баллов для [п] до 90 баллов - для [т], причем в основном все значения были близкими (76-80 баллов), единственное исРечевые информационные технологии____________________________________________________

ключение составлял [т]. По группе мягких согласных показатели несколько выше. Так, для [д', т', г', к'] они составляют 78-82 балла, а для [п', б'] немного снижаются по сравнению с твердыми парами ([п'] - 65 баллов по сравнению с 76, а [б'] - 67 по сравнению с 78). Если же отбросить максимальные и минимальные оценки, видно, что информанты уверенно оценивают достоверность собственных изменений в 80-90 баллов.

Такие же результаты даются и в группе наиболее опытных экспертов.

Оценка устойчивости наблюдаемых отклонений в реализации звуков оказалась не столь однородной. Так, для [к] представлены почти в равном количестве все виды оценок; для [б, д, т] - "малая/средняя", а для [г] - "малая-большая". По-видимому, экспертами оцениваются разные отклонения от нормы, как стабильно появляющиеся в речи, так и факультативные. Достоверность собственного суждения у твердых звуков достаточно высокая (75-82 балла). По группе мягких смычных у звуков [п'] так же, как и парного твердого, представлены примерно поровну все виды оценок "малая-большая-средняя". У звуков [б', д', г'] - "малаясредняя", а у звуков [г', к'] - "малая-большая", причем оценка "малая" более частотна. Достоверность собственного суждения также высока (74-80 баллов по разным звукам). Данные без максимальных и минимальных показателей еще более единообразны (80-90 баллов почти по всем звукам). В целом следует отметить достаточно близкие оценки практически по всем звукам. Между результатами оценки твердых и мягких вариантов не наблюдается значительных различий. В качестве общей тенденции следует отметить оценку отклонений в произношении анализируемых звуков как "малую" при высокой степени ее надежности.

В качестве примечаний информанты отмечали для [п] - наличие придыхания; реализацию [г] как [j ] (преимущественно в говорах и диалектах); замена [к] на [х] на концах слов; отвердение [п'] в конечной позиции слова и возможное придыхание. Для [б'] отмечается отвердение в позиции перед [j]; аффрицированность [д', т']; замена [г] на [ '] (также преимуществено в говорах и диалектах); отвердение [к'] в окончаниях слов (типа "кий"), а также переход [к'] в [x'] в конце слов в говорах. Кроме того, после мягких согласных наблюдается дифтонгизация гласных.

Полученные результаты могут быть использованы при создании базы данных в фонографической экспертизе.

СОВРЕМЕННЫЕ МЕТОДЫ ИЗМЕНЕНИЯ ГОЛОСА И

ИДЕНТИФИКАЦИЯ ГОВОРЯЩЕГО

К.т.н. С.Н. Кринов Довольно часто поступающая на экспертное исследование спорная фонограмма представляет собой запись телефонного разговоРечевые информационные технологии ра. Реальностью современного телефонного разговора является возможность изменения голоса одного из участников с помощью новейших технологий.

Многие современные универсальные программы анализа и обработки аудио сигналов включают в себя функцию pitch shift (сдвиг основного тона), позволяющую изменять основной тон голоса входного сигнала без изменения темпа. Ряд компьютерных звуковых карт, позволяют выполнять такую функцию в реальном времени.

В США около десятка фирм выпускают приставки к телефонным аппаратам, в которых функция изменения голоса (voice changer) реализуется на основе новейшей специализированной микросхемы.

Выпускаются также телефонные аппараты на основе такой микросхемы. Приставки и телефонные аппараты позволяют пользователю «разговаривать» одним из 16 вариантов голосов от низкого баса до высокого сопрано, сохраняя при этом темп речи и натуральность звучания.

Это дает возможность говорящему не быть узнанным даже своими близкими. Спрос на такую продукцию исходит в основном от одиноких женщин и родителей, несовершеннолетние дети которых часто остаются дома одни.

Однако нельзя исключать, что системы изменения голоса могут быть использованы в криминальных целях. Эксперименты показали, что даже опытный эксперт может не обнаружить на слух факт изменения голоса. Последнее замечание позволяет автору утверждать, что, возможно, в ряде нераскрытых уголовных дел, связанных с анонимными звонками по телефону, были применены средства изменения голоса, однако в силу перечисленных выше причин факт изменения мог быть не замечен.

Правомерен вопрос, возможно ли проведение идентификационного, криминалистического исследования в тех случаях, когда голос был изменен. Позиция автора заключается в том, что, если для создания измененного голоса используются только участки исходной речи, эксперт в состоянии зафиксировать факт изменения, а в ряде случаев даже оценить характер и параметры изменения, а также оценить идентифицирующие признаки неизмененного голоса по измененному.

Для решения этой задачи необходимо рассмотреть свойства возможных алгоритмов изменения голоса. Упомянутые выше pitch shift и voice changer алгоритмы производят изменение основного тона путем растягивания либо сжатия коротких участков речи. Для сохранения естественного темпа речи в случае понижения тона (растягивания фрагментов) некоторые фрагменты удаляются, в случае повышения тона (сжатия фрагментов) некоторые фрагменты повторяются Речевые информационные технологии____________________________________________________

дважды. Для этого нет необходимости проводить какой-либо анализ входного сигнала. Алгоритм действует формально и одинаково на паузах, гласных и согласных звуках.

В случае повышения тона, в сигнале должны быть повторяющиеся участки. Длительность такого участка является параметром, по которому можно определить степень сдвига и восстановить исходную речь.

В случае понижения тона, в сигнале удаляются некоторые участки. Поскольку алгоритм действует формально, не привязываясь к конкретным звукам, это может привести к утере некоторых коротких согласных и переходных участков. При повышенном и даже нормальном темпе исходной речи такие искажения могут быть заметны на слух. Чтобы этого избежать, говорящий должен говорить более медленно, выдерживая удлиненные, по сравнению с нормой, паузы в речи. При этом пропадание некоторых коротких согласных или переходных участков может быть воспринято при прослушивании как оговорки, которые возможны даже в речи полного стиля. Обнаружение следов применения алгоритма понижения тона в таких условиях становится трудной задачей.

Она разрешима при достаточной длительности зафиксированного сообщения на спорной фонограмме, когда количество обнаруженных при пофрагментном прослушивании «оговорок» становится статистически значимым. В этом случае оценка вероятности пропадания коротких фрагментов речи на спорной фонограмме должна совпадать с расчетной вероятностью при определенном параметре сдвига тона вниз по частоте.

Описанные выше искажения могут сопровождаться применением режекторного фильтра с медленно меняющейся частотой режектирования. Режектирование на определенных частотах может создавать ощущение гнусавости речи при прослушивании. Кроме того, режектирование в области второй форманты приводит к изменению тембра речи и смещенным оценкам инструментального анализа.

Поскольку режектирование также выполняется формально, не привязываясь к параметрам исходной речи, то оно может быть обнаружено в точках пересечения траектории форманты с траекторией фильтра с изменяющейся частотой. В этих точках форманта исчезает или расщепляется, что можно наблюдать при определенном масштабировании спектрограммы. Если зафиксированная на спорной фонограмме речь состоит из коротких реплик с длинными паузами, то обнаружить действие такого фильтра довольно сложно.

Проведение идентификационного исследования в таких условиях, после выявления всех искажающих факторов, возможно по динамическим спектрограммам речи – трекам формант на сопоставимых фрагментах исходного и сравнительного материала.

___________________________________________________ Речевые информационные технологии

ЭМОЦИОНАЛЬНАЯ ОКРАСКА ГОЛОСА

И ФЕНОМЕН КВАЗИГАРМОНИЧНОСТИ ОБЕРТОНОВ

Д.б.н., профессор В.П. Морозов, к.иск. Ю.М. Кузнецов Считается, что обертоновый состав голоса человека является гармоническим, т.е. частоты обертонов соотносятся как ряд целых чисел (2, 3, 4, 5 и т.д.). Есть основания - как теоретические, так и экспериментальные - считать обертоновый состав голоса (певческого и речевого) отнюдь не строго гармоническим, или, по нашей терминологии - квазигармоническим (Морозов, Кузнецов, 1994, Morozov, 1996)3.

Наши исследования показали, что существуют определенные тенденции отклонения обертонового ряда голоса от идеального гармонического положения. Важно отметить, что эти изменения соответствуют формированию различных эмоциональных красок голоса, разных Рис. 1а. Сонограмма слогов ма – мэ – ми – мо – му, пропетых солистом в миноре под минорную фонограмму, прослушиваемую певцом через головные телефоны. Нота la малой октавы (220 Гц).

Морозов В.П., Кузнецов Ю.М. Феномен квазигармоничности обертонов и тембр певческого голоса // Художественный тип человека. Комплексные исследования. — М., 1994, С. 154–163;

Морозов В.П. Биофизические основы вокальной речи. Наука, 1977; Морозов В.П. Язык эмоций в жизни и науке // Язык эмоций, мозг и компьютер. — М., Знание, серия: Вычислительная техника и ее применение, 1989. — С. 3–18; Morozov V.P. Emotional expressiveness of the Singing Voice: the role of macrostructural and microstructural modifications of spectra // Scand Journ. Log. Phon.

MS. — № 150, 1996. — P. 1–11.

Речевые информационные технологии____________________________________________________

Рис. 1б. График отклонения обертонов(F2–F10) от гармоничности для минорного исполнения фразы, представленной на рис. 1а.

Цифры справа – % отклонения от гармоничности (в средн. и по модулю). F1 – ЧОТ (229 Гц.) гласных, а также пению в мажоре и миноре. В этом плане отклонения обертонов носят характер не случайных, а закономерных явлений.

Для сравнительной оценки степени отклонений обертонов от идеального гармонического ряда использовались выработанные авторами данной статьи два основных показателя: 1) средние значения отклонений от гармоничности и 2) разброс средних отклонений от гармоничности по модулю (с учетом знака отклонения).

В акустической части экспериментов, на основе рассчитанных в программе В.Р. Женило "Signal Viewer" массивов спектров хорового звучания, формировались ASCII-файлы. После этого, в программе "Anson", разработанной А. В. Харуто, получались в полуавтоматическом режиме таблицы реальных значений частотных положений пиков (в герцах) для десяти квазигармоник (F1 - F10, где F1 соответствует ЧОТ). Далее с помощью программ "Stat1" и "Stat2" (А.В. Харуто), в автоматическом режиме рассчитывались и визуализировались в ценРечевые информационные технологии тах или процентах таблицы отклонений "реальных" положений пиков спектральных составляющих от "идеальных" (строго гармоничных) значений по отношению к частоте основного тона. Такие "графики гармоничности" позволяют представить любую группу спектральных срезов на заданном временном интервале по параметрам "средних отклонений" и "разбросу отклонений от гармоничности" (рис. 1б). ЧОТ в пении, как известно, носит частотно-модулированный характер вследствие вибрато голоса (Морозов, 1977). На рис. 1б линия F1 отображает изменение ЧОТ вследствие вибрато. Изменение ЧОТ вследствие вибрато было учтено при расчете гармоничности обертонов.

Для изучения проявлений квазигармоничности при выражении голосом эмоций (радости, печали, гнева, страха и для сравнения - нейтрали-спокойствия), вокальных гласных ("а", "э", "и", "о", "у") и ладового наклонения были обследованы голоса четырнадцати студентоввокалистов Московской государственной консерватории.

С целью акустического анализа влияния ладового наклонения музыки на тембр было обработано 33 сигнала голоса вокалистов. В эксперименте по изучению эмоций было обработано 38 эмоционально окрашенных сигналов солистов. В связи с тем, что переходные процессы вокальных гласных могут влиять на общие закономерности квазигармоничности эмоционально окрашенных звуков, с каждого слога снимались спектры только в стационарных участках гласных (что дало возможность при статистической обработке изучать каждую эмоцию и каждый вокальный гласный звук в отдельности). Всего было проанализировано около двухсот тысяч спектральных срезов сольного и хорового звучания.

Данные были подвергнуты статистической обработке методами дискриминантного анализа на компьютерной программе Statgraf. Результаты анализа показывают достаточно высокие уровни различения эмоций в голосе, а также гласных по критерию квазигармоничности (средних алгебраических величин отклонений каждого из обертонов и амплитуде отклонений по модулю). (Таблицы 1 и 2).

Таблица 1 Средние данные дискриминантного анализа (в %) эмоционально окрашенных звуков голоса вокалистов Исполн. нейтр. рад. печ. гнев страх сред.

Сред. по всем вокалистам 91.00 82.20 82.50 90.00 85.00 85.62

–  –  –

Специальная серия опытов была посвящена исследованию соответствия дискриминантного (компьютерного) и аудиторского (на слух группы экспертов) анализа эмоционально окрашенных гласных, а также пения в миноре и мажоре. Пример подобного сопоставления, представленный на рис. 2, показывает достаточно высокую степень соответствия машинного и аудиторского анализа эмоционально окрашенных гласных (коэффициент корреляции по Пирсону R=0,8908 при р=0,043). Известно, что слуховое распознавание эмоциональной окраски певческого голоса определяется формантной макроструктурой спектра (Морозов, 1977, 1989). Поэтому есть основания говорить о взаимосвязи амплитудных и частотных характеристик обертонов как средств эмоциональной выразительности (Morozov, 1996).

Итоги эксперимен

–  –  –

гармоничесСравнительные результаты дискриминантного анализа и аудиторских оценок по различению эмоций в кое музыкальное разголосе для исполнителя № 2 (%).

витие, оказывают значительное влияние на частотное положение спектральных составляющих певческого голоса. Выявлена статистически достоверная зависимость частотного положения обертонов голоса от: 1) эмоций, 2) вокальных гласных (“а”, “э”, “и”, “о”, “у”) и 3) ладового наклонения музыки (мажора или минора). В частности при пении в миноре обнаружена тенденция к отрицательным значениям отклонения обертонов по сравнению с мажором. Нами отмечены также существенные индивидуальные различия среди обследуемых по акустическим коррелятам эмоциональной окраски голоса, также как и при пении в миноре и мажоре.

Есть основания полагать, что выявленные нами закономерности квазигармоничности обертонов певческого голоса характерны также и для речевых гласных.

___________________________________________________ Речевые информационные технологии

ИССЛЕДОВАНИЕ ВИБРАТО ГОЛОСА

Д.т.н. В.Р. Женило В динамике высоты голоса содержится информация об очень многих физических, физиологических, психологических и иных особенностях человека. Результаты лабораторных исследований голоса помогают лучше познать его природу и использовать их во многих смежных отраслях. В данной работе излагаются некоторые новые элементы технологии исследования динамики голоса, которые были использованы в следующих исследованиях.

В Московской государственной консерватории им. П.И. Чайковского профессор Морозов В.П. и старший научный сотрудник Кузнецов Ю.М. провели серию экспериментов с целью определения – как тот или иной певец может изобразить мажорный или минорный аккорд только одним голосом.

Парадокс этого эксперимента заключается в том, что обычно аккорд воспроизводится с помощью трех голосов. Но, учитывая высокую адаптивность человека, все-таки каждому певцу в той или иной мере удается выполнить поставленную задачу. Правда, при этом каждый певец применяет свою (индивидуальную) тактику изображения мажора или минора с помощью всего лишь одного голоса.

Перед всеми участниками эксперимента были поставлены следующие условия. Испытуемый должен был не прерываясь (на одном дыхании) сначала исполнить мажор, а затем минор на ноте "ля" малой октавы (220 Гц). При этом не разрешалось изменять громкость и высоту звучания голоса и менять артикуляцию.

После изучения всех фонограмм музыканты-эксперты отобрали голоса тех певцов, которые по субъективным критериям успешно выполнили условие эксперимента.

На следующем этапе акустического анализа голоса были исследованы с помощью компьютерной техники. В результате оказалось, что по жестким акустическим признакам многие певцы все же не выполнили заданные условия эксперимента. Кто-то очень медленно снижал громкость, а кто-то и высоту звучания голоса на участке минора. И лишь один испытуемый показал просто удивительные результаты. С акустической точки зрения он полностью выполнил все условия эксперимента. На рисунке показана сонофильм и динамика уровня мощности его голоса.

Качественное различие сонофильма на участках мажора (в начале сонофильма) и минора (в конце сонофильма), бросающееся в глаза, – это общая зашумленность.

Речевые информационные технологии____________________________________________________

Высотой голоса в каждом кадре сонофильма объявлялось среднее арифметическое значение всех оценок высоты голоса, полученных по каждому обертону в отдельности. На основе вычисленной высоты голоса строилась идеальная (целочисленная) решетка гармоник высоты голоса.

Визуализация относительных отклонений всех обертонов голоса от идеальной (целочисленной) решетки гармоник высоты голоса показала следующее. На участке минора наибольшее отклонение наблюдалось у 3-его обертона. А на участке мажора намного более существенно отклонялись: 1-ый обертон (в нашем изложении первый обертон совпадает с основным тоном) и 4-ый.

Кроме того, в сравнении с участком минора на участке мажора значительно больше отклонялись 3, 2, 5 и 6 обертоны.

То, что испытуемый сумел по-разному вызвать смещение определенных обертонов голоса в разных ладах, можно интерпретировать как создания картины биения ряда обертонов, что в принципе возникает при реальном звучании того или иного аккорда.

На сонофильме видно, что размах вибрато голоса на мажорном участке выше, чем на минорном. Это, по-видимому, привело к тому, что на участке мажора частота вибрато голоса оказалась ниже (4,8 Гц), а на участке минора – выше (5,2 Гц). Возможно, что это ___________________________________________________ Речевые информационные технологии тоже субъективно сыграло роль дифференцирующего признака звучания мажорного и минорного лада.

СИСТЕМА ОЧИСТКИ РЕЧИ ОТ ШУМОВ НА БАЗЕ

ПРОЦЕССОРОВ ЦИФРОВОЙ ОБРАБОТКИ СИГНАЛОВ

И ПЕРСОНАЛЬНЫХ КОМПЬЮТЕРОВ

К.т.н. В.И. Джиган, д.т.н. В.А. Свириденко Очистка речи от шумов является актуальной задачей в системах обработки аудио-сигналов во многих приложениях: анализ и реставрация звуковых записей, системы голосового ввода информации в компьютер, улучшение качества телефонных разговоров и т.п. Большинство этих систем характеризуется наличием только одного источника информации - зашумленной речи.

Авторами разработан и реализован оригинальный алгоритм шумоочистки речи (NR), обеспечивающий подавление аддитивного широкополосного квазистационарного шума. Он не уступает по качеству NR-продуктам известных мировых фирм и может использоваться при решении указанных задач.

Алгоритм базируется на спектральном вычитании (СВ). Алгоритмы такого класса привлекательны благодаря своей эффективности, низким требованиям к вычислительным ресурсам, возможности функционирования при наличии одного источника сигнала и, как следствие, возможности функционирования в реальном и нереальном масштабах времени. На речевых паузах алгоритм обеспечивает подавления шума в диапазоне 5…30 дБ, которое не зависит от входного отношения сигнал-шум (ОСШ) зашумленной речи. Улучшение выходного ОСШ на участках, где присутствует речь, обеспечивается в диапазоне 4…8 дБ. Более высокое улучшение выходного ОСШ достигается при более низком ОСШ зашумленной речи, подвергающейся очистке. Однако, такое улучшение ОСШ, а также более высокое подавление шума являются источником более высокого уровня искажения речи.

Компромисс между малым искажением речи и малым остаточным уровнем шума достигается при подавлении последнего до уровня около –18 дБ.

Как известно, основной недостаток шумоочистки речи на базе СВ это так называемый “музыкальный шум” (отдельные тона, случайно распределенные по времени и частоте). Представленный алгоритм шумоочистки обеспечивает низкий уровень “музыкального шума”, практически неслышимого в очищенной речи, в результате чего обеспечивается высокое ее качество. Другой его Речевые информационные технологии____________________________________________________

особенностью является постоянное оценивание спектра шума, что позволяет избежать использования детектора речи и обеспечивает возможность работы при низком ОСШ. На рис. 1 показан пример очистки речи (зашумленная и очищенная речь с соответствующими спектрограммами) при ОСШ на входе около 3 дБ.

Реализация алгоритма для обработки речи с частотой дискретизации 8 кГц требует около 10 MIPS вычислительных ресурсов и обеспечивает алгоритмическую задержку, равную 32 мсек.

Эта задержка может быть уменьшена в 2 или 4 раза. При этом качество обработанной речи также уменьшается. Разработана также версия алгоритма шумоочистки с алгоритмической задержкой 20 мсек, обеспечивающая качество очищенной речи как в алгоритме с задержкой 32 мсек. Указанные параметры позволяют реализовать рассмотренный алгоритм шумоочистки на основе большинства известных процессоров цифровой обработки сигналов (ПЦОС).

В настоящее время также существует реализация системы щумоочистки речи на базе IBM совместимых персональных компьютеров (две версии). Графический интерфейс пользователя такой системы показан на рис. 2.

Рис. 1. Зашумленная Рис. 2. Интерфейс системы и очищенная речь. щумоочистки речи.

Интерфейс системы позволяет изменять параметры алгоритма шумоочистки, выбирать тип сигнала, подвергающегося обработке (предварительно записанный или вводимый с микрофона), сохранять результат обработки, а также визуализировать этот результат в виде формы сигнала или его спектрограммы.

___________________________________________________ Речевые информационные технологии Возможно встраивание системы шумоочистки речи в различные программные продукты, а также ее реализацию на базе ПЦОС и других платформ.

ИСПОЛЬЗОВАНИЕ ТЕХНОЛОГИЙ ДВУХКАНАЛЬНОЙ

ФИЛЬТРАЦИИ ДЛЯ ВЫДЕЛЕНИЯ

АУДИОИНФОРМАЦИИ В СЛОЖНЫХ УСЛОВИЯХ

М.Б. Столбов, С.Л. Коваль Для получения аудиоинформации используются различные устройства: радиомикрофоны, направленные микрофоны, стетоскопы, диктофоны и ряд др. Однако качество полученной речевой информации может оказаться низким из-за акустических шумов окружения.

В ряде случаев эти проблемы могут быть решены с помощью 2канального съема информации и дальнейшей 2-канальной адаптивной фильтрации (далее АФ2).

В докладе рассмотрены условия применения различных методов АФ2, описаны средства АФ2, а также приведены примеры их применения для устранения помехового фона и улучшения качества речевой информации при работе с микрофонами и стетоскопами.

АФ2 позволяет при использовании стереосигналов подавить помехи произвольного типа, например, звучание бытовой радиотехники (музыка, речь). Выбор режима АФ2 определяется типом помех и условиями съема аудиоинформации.

В докладе анализируются следующие режимы АФ2:

• Адаптивный компенсатор помех (АКП) во временной и частотной области;

• АКП с заданием направления приема полезной аудиоинформации;

• АФ2 некоррелированных шумов.

АКП наиболее эффективен при подавлении помех точечных источников (например, радио) в условиях, когда на опорный канал подается чистый сигнал помехи, например с линейного выхода устройства, создающего акустическую помеху. Этот режим может быть использован и при использовании двух микрофонов в случае, когда акустически й сигнал помехи в опорном канале много больше полезного сигнала. Главным условием применения АКП является коррелированность помехи в основном и опорном каналах, что достигается близким (7-10 см) размещением микрофонов, либо размещение микрофона опорного канала вблизи акустического источника помехи.

Основное ограничение АКП проявляется в случае, когда уровни полезного и помехового сигналов в опорном канале соизмеримы. При этом АКП начинает подавлять полезный сигнал одновременно с сигРечевые информационные технологии____________________________________________________

налом помехи. В этом случае эффект компенсации помехи может быть достигнут специальным подбором задержки между каналами4.

Однако направление источника полезного сигнала при этом никак не контролируется, что приводит к неизбирательности приема.

Указанный недостаток устраняется в режиме АКП с заданием направления приема полезной аудиоинформации. В этом случае АКП настраивается на максимальное подавление помехи и шума окружения при сохранении сигнала, принимаемого с заданного направления.

Алгоритмы АКП теряют свою эффективность, когда сигнал помехи в каналах становится некоррелированным, например когда источник шумя является рассосредоточенным, а микрофоны разнесены на достаточное расстояние (70 см и более). В этом случае полезным является АФ2 некоррелированнных помех.

В настоящий момент технологии АФ2 представлена станцией шумоочистки “ЗОЛУШКА-97”5, системой анализа и фильтрации звукозаписей SIS и программой реального времени SOUND CLEANER.

Технологии АФ2 опробованы при работе:

• со стереостетоскопом для подавления “наложенных” сигналов.

• в большом зале для подавления радиотрансляции.

• в зашумленном помещении средних размеров - для подавления музыкального фона.

В Центре Речевых Технологий совместно с подразделениями правоохранительных органов ведется систематическая работа по созданию новых технологий шумоочистки речевых сигналов и их адаптации применительно к реальным условиям использования. Разработанные технологии реализованы в выпускаемой ЦРТ аппаратуре серии “ЗОЛУШКА”. Аппаратура прошла испытания и рекомендована к использованию в работе правоохранительных органов РФ. В течение нескольких лет она эксплуатируется в экспертно-криминалистических отделах и оперативно-розыскных подразделениях.

ОСОБЕННОСТИ ОЦЕНИВАНИЯ ПАРАМЕТРОВ

ОСНОВНОГО ТОНА РЕЧИ ПРИ ФОНОГРАФИЧЕСКОЙ

ЭКСПЕРТИЗЕ К.т.н. А. Ш. Каганов, д.ф.н. В.Г. Михайлов В процессе аудитивной части идентификационного исследования по голосу и речи в лаборатории СВФЭ используется следующий Работа с устройствами шумоочистки на основе адаптивной фильтрации. Методические рекомендации STC-D117. ЦРТ, СПб, 1998.

Устройство “ЗОЛУШКА-97”. Техническое описание, паспорт и инструкция по эксплуатации STC-H117. ЦРТ, СПб, 1998.

___________________________________________________ Речевые информационные технологии набор аудитивных признаков: пол диктора; высота голоса; тембр;

сила голоса; артикуляция; длительность и заполнение пауз; речевое дыхание; речевая культура; выразительность речи; интонация; стиль речи; манера речи; эмоционально-психологическая характеристика речи. Курсивом выделены признаки, обусловленные основным тоном ОТ. В инструментальной части исследования для характеристики этого же голоса производится измерение следующих параметров: среднее значение периода ОТ голоса, максимальное и минимальное значения периодов ОТ, среднеквадратическое отклонение СКО, относительное значение диапазона ОТ и максимальная скорость изменения ОТ. На основе сопоставительного анализа аудитивных и лингвистических признаков исходной и сравнительной записи, дополненных данными инструментальных измерений эксперт формулирует свое заключение.

Однако при проведении фонографических исследований получение численных характеристик признаков связано со значительными трудностями. Реальный речевой материал, полученный в результате разыскных мероприятий и в ходе следствия, оказывается во многих случаях трудно сопоставимым по речевой ситуации6. Низкое качество записи (наличие на фонограмме сильных шумов и помех, частотных и нелинейных искажений) усложняют проведение инструментальных измерений. Результаты измерений зависят также от принятой методики статистической обработки данных измерений. Частотный диапазон изменения основного тона при телефонных разговорах для мужских голосов находится в пределах 70...180 Гц со средней частотой Foм = 129 Гц и для женских - в пределах 180...330 Гц со средней частотой Foж = 240 Гц [2]. Среднее квадратическое отклонение r = 17 и 27 Гц соответственно. Нетрудно подсчитать, что относительный диапазон основного тона D с вероятностью p = 0,95 для мужских голосов Dм = (Fo +2r)/(Fo- 2r) = (129 +34)/(129-34) = 1,7 и для женских Dж = 1,6. На начальных и конечных интервалах тональных участков речи скорость изменения частоты ОТ может достигать 1500...6000 Гц/с.

Значительная вариативность ОТ и микрофлюктуации смежных периодов затрудняют проведение точных измерений ОТ. Микроколебания голосовых связок проявляются в виде значительных изменений длительности периодов ОТ (до 30...50%) и в виде небольших флуктуаций соседних периодов ОТ. На рис. 1 приведены осциллограммы английской речи, взятые из работы7. Наглядно видны участки сигнала Каганов А. Ш., Михайлов В.Г. (РФЦ СЭ при МЮ РФ) Решение задачи криминалистической идентификации говорящего по характеристикам основного тона // Информатизация правоохранительных систем, 1998.- Часть 2. -С. 34-36.

Dolansky L. On ctrtain irregularities of voiced-speech waveforms/-IEEE Tr. on Audio and El., 1968, v.AU-16, № 1, pp.51-56.

Речевые информационные технологии____________________________________________________

–  –  –

___________________________________________________ Речевые информационные технологии

СОНОФИЛЬМ И ЕГО СВОЙСТВА

Д.т.н. В.Р. Женило

1. В речевых технологиях цифровые сонограммы появились всего лишь десять лет назад. До этого, начиная с середины 40-х годов нашего века, исследователи имели дело только с аналоговыми сонограммами, построенными на принципе гребенки аналоговых фильтров. Эта гребенка фильтров остроумно реализована таким образом, что получаемое изображение по качеству близко к телевизионному. Так количество фильтров, автоматически перенастраиваемых от одной строчки к другой, в сонографах фирмы Key Elemetric Corp. примерно равнялось числу строк в растре современного телевизионного изображения.

2. Цифровую сонограмму, построенную на основе мгновенных дискретных спектров (кадров), будем называть сонофильмом. При кажущейся идентичности разница между традиционной сонограммой и сонофильмом довольно-таки существенна.

3. В общем случае сонофильм строится на основе комплексных спектров, а сонограмма - только амплитудных.

4. Сонограмма – это совокупность откликов гребенки фильтров на исследуемый сигнал. Поэтому в сонограмму вносятся и следы самой линейной системы - сонографа. Из-за этого, например, практически невозможно получать точное описание поведения обертонов голоса в конце фонации гласных или звонких согласных звуков, поскольку их следы могут частично или полностью маскироваться откликом соответствующих фильтров сонографа. Аналогичные трудности могут возникать и при анализе по сонограмме различий мягких и твердых окончаний слов.

3. От выбора базисных функций, по которому раскладываются сигналы в соответствующих кадрах видеофильма, существенно зависит результат визуализации (или параметрического описания) тех или иных свойств самого сигнала. В криминалистических исследованиях в большинстве случаев основное внимание уделяется следам сонообъектов, имеющим гармонические компоненты. Эти компоненты наиболее устойчивы и лучше сохраняются в сигнале при его прохождении через множество передающих квазилинейных систем.

Поэтому в этих исследованиях используют гармонические функции как базовые в Фурье преобразовании.

4. Ключевыми параметрами сонофильма являются: частота кадров и частотное разрешение гармонических компонент исследуемого сигнала. Существенным также является и выбор типа вреРечевые информационные технологии____________________________________________________

менного окна спектрального оценивания внутри каждого кадра. Тип окна выбирается таким образом, чтобы артефакты спектрального анализа были минимальны.

5. Используя принцип неопределенности Гейзенберга, можно ввести понятие оптимального сонофильма. В таком сонофильме частота кадров определяется частотным разрешением спектрального оценивания. Например, если для спектрального оценивания используется временное окно Гаусса с физической шириной 2t, то оптимальным будет сонофильм, у которого частота кадров равна Fc = 1/t. В этом случае, независимо от того, какой строится сонофильм, частотно-временное пространство T*F покрывается одним и тем же числом элементов битовой карты. Здесь каждый бит – это эллипс с осями длиной 2t и 2f. Число элементов этой битовой карты равно - 2TF.

6. К сонофильму, как и любому дискретному представлению непрерывной функции (в данном случае – двумерной) применима теорема Котельникова-Найквиста-Шеннона.

7. В предельном случае, когда t 0, сонофильм на каждой частоте вырождается в исходную осциллограмму (но если строится амплитудный сонофильм, то он соответствует исходному сигналу, взятому по абсолютной величине).

8. При малых значениях t, например, меньших в два раза (и более) периода работы голосовых связок, в сонофильме хорошо проявляются резонансные частоты речевого тракта.

9. С ростом величины t, когда она превышает более чем в два раза периодичность работы голосовых связок, в сонофильме резко проявляются треки обертонов голоса.

10. С дальнейшим ростом t (порядка одной секунды и более), в сонофильме четче проявляются следы реверберации, которые отражаются в речевом сигнале при его прохождении через сложные акустические среды.

11. Выбирая битовый образ сонофильма, проще работать со следами сонообъектов той или иной категории. Эти следы можно выделять, удалять или добавлять в исследуемый сигнал.

12. На прошлогодней конференции ИПС-98 были изложены результаты такого подхода на примере работы со следами голоса (программа «VoiceExtractor»). В настоящее время в стадии разработки находится программа «Мастерская сигналов», ориентированная на работу со всеми вышеизложенными типами следов сонообъектов.

___________________________________________________ Речевые информационные технологии

ОПЫТ АНАЛИЗА РЕЧЕВОГО СИГНАЛА СИНХРОННО

С ОСНОВНЫМ ТОНОМ

А.А. Гноевой, А.А. Коршунов На предыдущих конференциях ИПС (1997, 1998 г.) были представлены метод оценки осредненного основного тона голоса (ОТ) (1997 г.) и метод оценки начала и окончания каждого из периодов, на основе использования информации о среднем значении ОТ в окрестностях осреднения (1998 г.). Развитием этих методов явилась программа, которая находит начала и концы периодов ОТ на протяжении всего сигнала.

На рис. 1 и 2 показан результат автоматической разметки начал и концов периодов ОТ голоса в речи, зафиксированной в двух речевых файлах, идентичных по содержанию, но различающихся по уровню помех. На рис.1 - речь без шума, а на рис. 2 - тот же фрагмент речи с аддитивным наложением белого шума с соотношением сигнал/шум равным примерно 1. Начала периодов на рисунках показаны пунктиром, длительность периода - наклонной прямой над речевым сигналом.

Рис. 1.

Программа была опробована на 150-и звуковых файлах, длительностью 1.16 сек, с речью мужчин и женщин с различной степенью зашумленности. Разметка начал и концов совпадает в 99% случаях (периодов) с разметкой, производимой вручную.

Речевые информационные технологии____________________________________________________

–  –  –

___________________________________________________ Речевые информационные технологии кокачественного изменения голоса и темпа речи, формантного анализа и идентификации личности по голосу.

В качестве примера на рис. 3 приведены траектории формант, полученные по гармоникам основного тона. В расчете траекторий использовалось прямоугольное окно равное периоду и косинусный ряд Фурье.

При этом используется введенное авторами понятие "существенные гармоники", которые выделяются с учетом эффекта их взаимной маскировки. Это же понятие используется и для оценки ширины форманты.

ИСПОЛЬЗОВАНИЕ ФУНКЦИИ ОДНОРОДНОСТИ ДЛЯ

ДИАГНОСТИКИ МОНТАЖА РЕЧЕВЫХ ФОНОГРАММ

В.Ю. Иванов Перед криминалистическим исследованием речевой фонограммы на наличие монтажа, всегда желательно иметь некоторое общее представление о фонограмме. Для этого эксперты предварительно прослушивают всю фонограмму и отмечают подозрительные участки, которые впоследствии подвергаются более скрупулезному исследованию. Подозрительные участки характеризуются щелчками, изменением акустического фона, неестественностью речевого сигнала, или иными словами, местами изменения некоторой статистики речевой фонограммы. Наряду с субъективным нахождением подозрительных участков, можно воспользоваться некоторыми графиками, показывающими динамику речевого сигнала, например, динамикой уровня мощности фонограммы, фонетическую функцию Пирогова, функцию гармоничности и т.д. Динамика уровня мощности может дать информацию об изменении статистики участков звуковых пауз, что в свою очередь может являться признаком «вставки» в речевой сигнал части из другой фонограммы. Функция Пирогова выделяет участки резкого изменения уровня сигнала, что наряду с указанием мест перехода шумового участка в тональный участок речевого сигнала, позволяет обнаружить всплеск энергии, связанный с разрывами производных гармонических составляющих речевого сигнала в местах «склейки» фонограммы.

Наряду с вышеуказанными функциями можно предложить для предварительной оценки фонограммы, некоторую функцию однородности Ф(х), основанную на сравнении статистической однородности двух эмпирических выборок при помощи критерия КолмогороваСмирнова.

Речевые информационные технологии____________________________________________________

Критерий предполагает наличие двух выборок независимых случайных величин и ’, в качестве которых могут выступать различные параметры фонограммы, с объемами n и m соответственно, причем объемы выборок могут быть различными.

Обозначим символом Fn(x) функцию эмпирического распределения, соответствующую выборке 1,2, …,n. Функция эмпирического распределения выражается равенством Fn ( x| 1, 2, …, n ) =P{* x| 1, 2, …, n } = если x 1, 0, = m / n, если 1 x m +1, 1 m n 1, 1, если x n.

где 1, 2, …, n – упорядоченный по возрастанию ряд, соответствующий выборке 1,2, …,n.

Обозначим символом Gm(x) функцию эмпирического распределения, соответствующую выборке ’1,’2, …,’m, определяемую аналогичным образом.

Тогда статистика Колмогорова-Смирнова примет следующий вид: Dm,n = sup Gm ( x) Fn ( x).

x Критическими значениями Q – процентного, доверительного интервала для статистики Dm,n Колмогорова-Смирнова является значение Dv(Q), где Q – уровень значимости критерия, а v = (mn) / (m+n), где m и n объемы выборок.

Значение Dv(Q) зависит только от объема выборок. Для нахождения критического значения Dv(Q) для различных объемов выборок можно воспользоваться источником: «Таблицы математической статистики. Большев Л.Н., Смирнов Н.В. – М.:Наука. Главная редакция физико-математической литературы, 1983. – с.85.».

Если условие |Dm,n| Dv(Q) не выполняется, то выборки считаются неоднородными, т.е. не принадлежащими одному распределению.

Для функции однородности можно предложить следующую формулу:

0, Dm,n Dv (Q) ( x) =, 0 Ф(х) 1.

Dm, n Если для формирования функции эмпирического распределения Fn(x) использовать значения амплитуд мгновенного амплитудного спектра в окрестности временной точки t, где n равно базе быстрого преобразования Фурье деленному на два, а для формирования функРечевые информационные технологии ции эмпирического распределения Gn(x) использовать значения амплитуд мгновенного амплитудного спектра в окрестности временной точки t+t; то функция однородности будет являться некоторой альтернативой функции Пирогова, указывающей на резкие изменения энергии сигнала (рис 1).

Рис.1. Сонограмма участка звукового сигнала с указанием места склейки двух фонограмм и его функция однородности.

На рис.1 значения функции однородности не равные нулю указывают на места неоднородности текущего распределения амплитудного спектра и предыдущего амплитудного спектра, отстоящего на t.

Если в качестве значений функции однородности принимать ноль или единицу, соответствующие однородности и неоднородности распределений, а в качестве выборок взять значения суммы амплитуд сегментов длинной, например, 35 кадров, где кадр – мгновенный амплитудный спектр, а сегмент – участок последовательно расположенных кадров, то получаем матрицу попарных сравнений табл.1, соответствующей фонограмме (рис. 2). Из таблицы 1 видно, что участки 10, 11, 12 однородны между собой и неоднородны с участками 13, 14, 15, несмотря на то, что и те и другие являются участками речевых пауз, что вполне может служить признаком монтажа фонограммы.

Речевые информационные технологии____________________________________________________

Последовательные нули на главной диагонали матрицы указывают на однородность последовательных сегментов фонограммы, что также может дать эксперту информацию на размышление.

Рис. 2. Сегментация фонограммы по 35 кадров в сегменте.

–  –  –

ПРИМЕНЕНИЕ МОДИФИЦИРОВАННОГО МЕТОДА

НЕОПРЕДЕЛЕННОЙ ИНВЕРСНОЙ СВЕРТКИ ДЛЯ

ДЕРЕВЕРБЕРАЦИИ ЗВУКОВОГО СИГНАЛА

А.Г. Калиновский Звуковой сигнал, искаженный в результате воздействия реверберирующей акустической среды, можно рассматривать в виде свертки прямого сигнала и импульсного отклика помещения. В реальной жизни имеют место ситуации, когда свойства обоих сигналов, как прямого так и отраженного, неизвестны или известны лишь частично.

В подобных случаях, когда имеется только искаженный сигнал, возможно использование метода «неопределенной инверсной свертки», применяющийся для устранения искажений в звукозаписях, сделанных акустическими методами.

Влияние реверберирующей акустической среды можно рассматривать как влияние системы с нелинейными характеристиками. Для устранения этого влияния необходимо сделать следующие предположения о свойствах либо сигнала, либо системы с нелинейными характеристиками, либо о том и другом.

Следует считать, что характеристики системы линейны и не изменяются в течение рассматриваемого интервала речевого фрагмента.

Спектральный состав голоса остается сравнительно постоянным.

Следует предположить, что длина рассматриваемого интервала гораздо больше длительности импульсного отклика помещения, что позволит производить усреднение для выделения сигнала.

Метод нелинейной инверсной свертки основан на гомоморфной обработке сигналов.

logX(F)=logS(F) + logH(F). (1) Нужно найти такое линейное преобразование, с помощью которого из этого равенства можно определить точный вид H(F).

Если бы спектры S(F) и H(F) заметно различались, их можно было бы разделить путем линейной фильтрации. С случае, если они лежат в одном диапазоне, такой подход неприменим.

Мы предположили, что H(F) не изменяется, а S(F) непрерывно флуктуирует. Исследуемый интервал речевого фрагмента можно разделить на большое число участков N, длиной, превышающих длину импульсного отклика системы и путем усреднения по всем участкам оценить характеристики реверберирующей акустической среды.

Равенство (1) для i-го участка:

logXi(F)=logSi(F) + logH(F). (2) Речевые информационные технологии____________________________________________________

–  –  –

Средние модуль и аргумент можно оценить экспериментально и из нее получить оценку H(F), если каким-образом удастся найти оценку второго слагаемого правой части в (3) и (4), которые являются оценкой спектральной плотности говорящего.

Повторение экспериментов Оппенгейма-Лима позволило окончательно убедиться в том, что при анализе длинных участков звукового сигнала (более 2-х сек.) для восстановления сигнала достаточно использовать спектральные фазовые характеристики. Таким образом, можно сделать предположение о том, что для оценки спектральной плотности говорящего достаточно сделать оценку фазового спектра речевого сигнала в нереверберирующей акустической среде. Если провести кратковременный Фурье-анализ на отрезках, равных максимальному времени прихода отраженного сигнала, и, так как фаза на каждой частоте представляет собой сумму фазовых компонент речевого сигнала и импульсного отклика, то можно предположить, что вследствие постоянства импульсного отклика помещения, при суммировании фазовых составляющих на каждом отрезке его компонента будет накапливаться, а компонента речевого сигнала будет стремиться к какому-то пределу. Получив оценку значения этого предела, можно оценить вклад компоненты спектральной фазовой составляющей импульсного отклика помещения, что позволит восстановить исходный сигнал без реверберации.

ТЕХНОЛОГИЯ ИССЛЕДОВАНИЯ СКОРОСТНЫХ

ХАРАКТЕРИСТИК МАГНИТОФОНА ПО СЛЕДАМ

ЧИСТО ГАРМОНИЧЕСКИХ ЯВЛЕНИЙ

С.В. Шушпанов Нередко при фоноскопических исследованиях перед экспертом стоит задача дать полную картину места, времени и других условий записи фонограммы, в частности, об использованных технических средствах. При этом нужно отметить, что на фонограмме фиксируются как следы акустической обстановки (внешние условия), так и следы отражающие способ аппаратной записи (внутренние условия). Причем, следы, отражающие внешние условия, представляют собой сигналы самой разнообразной природы и структуры: от простых гармоРечевые информационные технологии нических, до сложных нестационарных. Следы, отражающие внутренние условия, могут быть выражены либо как самостоятельные сигналы, такие как фоновые линии, старт-стоповые импульсы, либо, и это чаще всего, как искажения сигналов других следов. Так работа лентопротяжного механизма (ЛПМ), обеспечивающая протягивание носителя фонограммы, может быть отражена в следах чисто гармонических явлений, таких как фоновые линии, в следах от звонков, как механических, так и электронных, в обертонах чистого голоса.

Неравномерность протягивания носителя ведет к тому, что записываемый гармонический сигнал начинает колебаться в соответствии с изменением скорости движения носителя. Трансформация сигнала гармонического следа осуществляется таким образом, что спектр, отражающий скоростные характеристики магнитофона, транспонируется (переносится) в область частоты гармонического следа. Причем скоростные параметры магнитофона зависят: от инерционности массы маховика, необходимого для повышения равномерности протягивания носителя; от кинематической схемы, снижающей обороты двигателя до требуемого номинального значения; от технологии сборки и регулировки отдельных узлов, а также от электронной схемы управления двигателем.

Поэтому, опираясь на длинные гармонические следы, можно измерить детонацию магнитофона и определить индивидуальную динамическую картину изменения скорости перемещения носителя фонограммы конкретного магнитофона. Необходимо только учитывать, что на результаты будут влиять как характеристики ЛПМ во время записи, так и характеристики ЛПМ во время воспроизведения. Поэтому для уменьшения влияния ЛПМ воспроизводящего магнитофона при исследовании спорной фонограммы нужно использовать воспроизводящую аппаратуру более высокого класса.

Для определения скоростных характеристик магнитофона используемого для записи фонограммы разработана и предлагается следующая технология, включающая четыре этапа:

С помощью программы VoiceExtractor в выбранном сегменте с гармоническим сигналом выделяем только по одному непрерывному треку гармонической компоненты сигнала.

Далее, используя специальный алгоритм вычисления (определение локального максимума по трем точкам параболы), определяем коэффициент детонации с точностью 0,00001%.

Запускаем специальную функцию для создания звукового файла, осциллограмма которого будет тождественна (с точностью до Речевые информационные технологии____________________________________________________

множителя) треку, выделенному экспертом по следу гармоники на сонограмме.

Далее анализируем полученный файл с помощью программы SV для определения динамики колебания частоты трека исследуемой гармоники.

В основу данной технологии положен метод синтезирования сигнала по следам заключенным в колебаниях трека любого достаточно устойчивого гармонического явления, параметры спектрального описания которого несут информацию о скоростных характеристиках магнитофона.

Исследование динамики изменения скорости магнитофона осуществляется при этом с высокой точностью, которая определяется в основном нестабильностью точки отсчета - гармонического следа.

Так, для фоновых линий частоты сети, эта нестабильность определяется ГОСТ 13109-67 и равна +0,4% от ее номинального значения.

Экспериментальные исследования для гармонических следов от механических звонков показывают, что эта нестабильность составляет не более +0,1%.

Это технология позволяет проводить диагностические и идентификационные исследования аппаратуры, использованной при записи фонограмм. При этом предполагается, что использование частотного разрешение 0,5 Гц на четвертом этапе исследования, позволяющее определять спектральные характеристики обусловленные конструктивными особенностями ЛПМ с учетом коэффициента детонации позволит установить класс и тип магнитофона. А при частотном разрешении 10 Гц, можно увидеть более тонкую структуру изменения скоростных характеристик ЛПМ, отражающих индивидуальные особенности магнитофона.

ПОСТРОЕНИЕ СИСТЕМЫ РАСПОЗНАВАНИЯ

СЛИТНОЙ РЕЧИ НА ОСНОВЕ

САМООРГАНИЗУЮЩИХСЯ НЕЙРОННЫХ СЕТЕЙ

А.Н. Агапиев Как известно, один из возможных вариантов построения системы распознавания слитной речи основывается на моделировании многоуровневой естественно-языковой системы. В такой системе выделяют несколько уровней языковых единиц, которые обладают набором специфических характеристик и подчиняются определенным правилам сочетаемости. Конструктивными единицами отдельных уровней являются: текст, сверхфразовое единство, отдельное предложение, словосочетание, слово, слог, фонема, параметрические признаки. При ___________________________________________________ Речевые информационные технологии построении модели естественно-языковой системы особое внимание следует уделить первому ("физическому") уровню. Здесь происходит первичное преобразование последовательности параметрических векторов в фонетические элементы. Хотя на данном уровне слитную речь невозможно разбить на фонемы, слова, словосочетания, предложения, но от того, как точно будет преобразован речевой сигнал в первичный фонетический материал, зависит возникновение ошибок на верхних уровнях.

Проведенные исследования показали возможность построения “физического” уровня на основе искусственных нейронных сетей.

При этом были исследованы две широко распространенные нейросетевые парадигмы.

В первом случае тестировалась MLP сеть с BP-алгоритмом обучения, состоящая из трех слоев. Первый слой в сети содержит 51 линейный узел, которые обеспечивают ввод 16 кепстральных коэффициентов и значение энергии, расчет первой и второй производной для функции огибающей речевого сигнала от времени. Второй, "скрытый" слой состоит из 900 узлов. В качестве пороговой (активационной) функции для данных узлов была выбрана функция гиперболического тангенса. Третий, "выходной" слой содержит распознаваемые классы фонем. Прямые связи в сети создавались между нейронами разных слоев с параметром задержки от -1 до +4, обратные связи только для "скрытого" слоя с задержкой от -3 до -1. При тестировании сети полученные значения ошибок первого и второго рода на раздельной речи оказались лишь немногим меньше значений, получаемых при использовании скрытых Марковских моделей, однако на слитной речи были получены более высокие результаты.

Тестирование сети выявило ряд существенных недостатков использования сетей обратного распространения для распознавания речи. Прежде всего, возникает сложность формирования эталонных образов, на которых сеть обучается. Это связано со спецификой фонем русского языка. Лишь небольшая часть фонем обладает устойчивым стационарным участком пригодным для обучения (в основном гласные звуки), что позволяет тестировать в слитной речи только простые слова со структурой согласная-гласная-согласная-гласная-... Для распознавания более сложных слов необходимо на выходе сети организовывать классы распознавания не только для фонем но и для дифтонгов, трифтонгов, что явно приводит к резкому увеличению мощности выходного слоя и сети в целом.

Во втором случае использовалась двухслойная сеть с алгоритмом обучения без учителя. Данный алгоритм основывается на технике Речевые информационные технологии____________________________________________________

самоорганизующихся структур Кохонена. Первый слой в данной сети содержит 17 линейных узлов, которые обеспечивают ввод 16 кепстральных коэффициентов и значение энергии. Второй, слой состоит из 8000 узлов. В используемом алгоритме обучения набор из n входной коэффициентов трактуется как вектор в n-мерном параметрическом пространстве. В процессе обучения группа соседних точек в n-мерном пространстве перемещается ближе к точке входного вектора, что приводит к группированию входных векторов в классы в соответствии с их положением в векторном пространстве. В процессе распознавания текущий входной вектор “захватывается” одним из существующих классов, обеспечивая его устойчивую классификацию.

Недостаток данного подхода заключается в необходимости достаточно большого количества речевого материала и времени для обучения. Поэтому описанная выше нейронная сеть была реализована как система реального времени и обучалась в условиях реальной речевой активности группы дикторов. Необходимо отметить, что при тестировании сети в режиме распознавания алгоритм обучения не отключался, а постоянно деформировал области векторного пространства в соответствии с параметрами голоса диктора, говорящего в данный момент времени. Это позволяет получить некоторое приближение к дикторо-независимой системе распознавания речи и уменьшить ошибки, связанные с изменением акустической обстановки.

КЛАССИФИЦИРОВАННОЕ ВЕКТОРНОЕ

КВАНТОВАНИЕ В РЕЧЕВЫХ КОДЕКАХ С

ПЕРЕМЕННОЙ СТРУКТУРОЙ

С.В. Орлик, А.А. Рыболовлев Анализ процессов стандартизации и разработки алгоритмов аналого-цифрового преобразования речи в диапазоне скоростей менее 16 кбит/с. показал, что в большинстве телекоммуникационных приложений используются линейные модели преобразования речи с локально-постоянными параметрами. Многовариантность определения и комбинирования параметров речевого сигнала, входящих в пакет информационного обмена между кодером и декодером, является причиной большого разнообразия предлагаемых алгоритмических решений.

Отсутствие строгих аналитических зависимостей влияния структуры пространства кодируемых параметров на рабочие характеристики кодека и недостаточная коррелированность результатов объективных измерений качества преобразования и передачи речи с субъективными оценками требует особой корректности при постановке и решения задач оптимизации речеобразующих устройств.

___________________________________________________ Речевые информационные технологии Совместное решение задач аналого-цифрового преобразования и сжатия речевых сигналов, многомерность и сложность функций плотности распределения вероятности кодируемых параметров, пронизанных многочисленными линейными и нелинейными связями, явились причиной широкого использования при построении алгоритмов кодирования речи процедуры векторного квантования. При этом характерной особенностью является раздельное векторное квантование кодируемых параметров в качестве составной части мультипликативного кодирования, что обусловлено используемым предложением о независимости параметров, составляющих применяемые в кодеках признаковые пространства.

Реализуемый уровень оптимизации кодеков во многом определяется степенью алгоритмического использования априорной информации о кодируемом источнике. Противоречие между природой нестационарного речевого сигнала и локально-стационарным характером его модели, используемой в кодеках, выражается в значительном диапазоне межкадрового изменения статистических характеристик. В этих условиях фиксированная структура пространства кодируемых параметров и их раздельное векторное квантование с жёстким разделением информационных ресурсов не создают идеальных условий для преодоления априорной неопределенности относительно статистических характеристик речевого источника с памятью. Частичное решение этой проблемы можно достичь адаптацией процедур векторного квантования.

Известные устройства адаптивного векторного квантования, используемые в существующих стандартах речеобразования, представляют собой векторные системы с предсказанием или системы векторного квантования с конечным числом состояний. Вместе с тем мощности современных вычислителей позволяют без значительного увеличения алгоритмической задержки решать более общую задачу оптимизации речевых кодеков в классе систем с переменной структурой на основе адаптации распределения общего информационного ресурса к конечному числу классов вероятностного описания анализируемых кодеков речи. Такой подход не исключает использование не только межкадровых и внутрикадровых зависимостей, свойственных конкретным кодируемым параметрам, но и существующих зависимостей между параметрами. Наиболее адекватным к условиям предлагаемой оптимизационной задачи является классифицированное векторное квантование, позволяющее снизить существующую избыточность фиксированных кодовых книг.

Речевые информационные технологии____________________________________________________

Важной особенностью классифицированного векторного квантования является в общем случае необходимость передачи по каналу связи служебной информации о состоянии кодера на текущем кадре анализа речевого сигнала. Авторами предлагается вариант классификации речевых кадров на конечное число классов с последующим формированием конечного множества состояний кодека, мощность которого определяется на основании компромисса между получаемым от оптимизации кодека выигрышем и необходимыми затратами информационных ресурсов на передачу информации о текущем состоянии кодера. Сформулированы задачи оптимизации кодеков с классифицированным векторным квантованием при постоянной и переменной скоростях кодирования.

ДИАГНОСТИЧЕСКИЕ ИССЛЕДОВАНИЯ РЕЧЕВОГО

ЗВУКОПРОИЗВОДСТВА У ДЕТЕЙ

Н.Ю. Чулкова, Г.Ж. Сисенгалиева, А.А. Лазуткин, З.В. Любимова Исследования проводились в Московском Педагогическом Государственном Университете.

В настоящее время показано, что последовательность появления язычных согласных звуков (задне-, средне- и переднеязычных) в лепетном репертуаре ребенка первого года жизни определяется гетерохронным становлением рецепторонесущей поверхности языка. Результаты исследований, полученных методом электронной сканирующей микроскопии, показали, что тактильные образования медиальной части тела и корня языка обнаруживаются уже у 30недельного плода и к периоду новорожденности хорошо развиты (Любимова З.В., 1985). Тактильные выросты механосенсорных сосочков передней свободной поверхности языка формируются ко второй половине первого года жизни ребенка. Наряду с участием механосенсорных образований языка в процессе питания, с ними связано и сенсорное обеспечение процесса артикуляции при речевом звукопроизводстве.

В литературе имеются данные о том, что речевой репертуар ребенка во многом зависит от уровня его психического и физического развития. В связи с этим, нам представлялось целесообразным проследить взаимосвязь между становлением речевого звукопроизводства и уровнем психического и физического развития ребенка.

Исследовали 30 детей первого года жизни. У всех детей, используя современные методы, определяли биологический возраст по антропометрическим, функциональным показателям и уровню нервРечевые информационные технологии но-психического развития. Наличие слуха устанавливали, используя детский тональный аудиометр. Гуление и лепет записывали на магнитофонную ленту и видеокамеру. Анализ фонограмм проводили с помощью системы высокоточной визуализации "Signal Viewer".

Анализ возрастной динамики гуления и лепета слышащих и глухих детей показал, что звуковой репертуар младенцев первые месяцы жизни состоит из одних гласных. С 3-5 месяцев постнатального развития, наряду с гласными обнаруживаются и первые согласные звуки - это заднеязычные "г", "к", "х". Позднее, к 7 месяцам добавляется среднеязычный "й", к 9-12 месяцам - переднеязычные согласные "д", "т", "л", "ц", в раличных сочетаниях с гласными. Артикуляционная динамика появления согласных звуков как у слышащих детей, независимо от их национальности, так и у младенцев с нарушением слуха на первом году жизни одинакова, о чем свидетельствует анализ фонограмм (Любимова З.В, Сисенгалиева Г.Ж. и др., 1999).

Исследование артикуляционно-акустических характеристик гуления и лепета с помощью системы "SV" позволило выделить по становлению язычных согласных звуков 4 возрастные группы: 1-3 месяца ( гласные звуки), 3-6 месяцев ( заднеязычные согласные), 6-8 месяцев ( среднеязычные согласные) и 8-12 месяцев (переднеязычные согласные).

Полученные данные показывают, что у 58% детей последовательность становления речевого звукопроизводства соответствует биологическому и календарному возрасту. А у 42% детей при относительном соответствии физического развития возрастной норме, отмечается задержка психоречевого развития.

Репертуар согласных звуков можно считать возрастной нормой, и наряду с другими методами уровня сенсорного и психосоматического развития использовать для диагностики детей.

Компьютерная программа высокоточной визуализации речевых сигналов "Signal Viewer", разработанная Женило В.Р. на кафедре информационных технологий Академии управления МВД России, позволяет получать принципиально разные графические образы сигналов. В ней реализуется большая часть известных способов анализа сигналов и несколько специальных способов, а именно при исследовании артикуляционных признаков - широкополосные сонограммы и гармонограммы, при исследовании фонационных признаков - узкополосные сонограммы, гармонограммы и интонограммы, которые позволяют нам проводить исследования динамики становления язычных согласных звуков речи у детей первого года жизни и определять их



Похожие работы:

«Ирина Анатольевна Скрипко Системы полива Серия «Домашний мастер» Текст предоставлен издательством Вече http://www.litres.ru/pages/biblio_book/?art=167762 Системы полива: Вече; Москва; Аннотац...»

«ОТЧЕТ О ВСТРЕЧЕ 2013 Г.ГЕИ И ДРУГИЕ МУЖЧИНЫ, ИМЕЮЩИЕ ПОЛОВЫЕ КОНТАКТЫ С МУЖЧИНАМИ: ОБЕСПЕЧЕНИЕ ПОТРЕБНОСТЕЙ В ЛЕЧЕНИИ В СВЯЗИ С ВИЧ И ДРУГИХ УСЛУГАХ ЗДРАВООХРАНЕНИЯ Консультации по вопросам политики и стратегии, ЮНЭЙДС, Женева, 13-14 ма...»

«ЭНЕРГЕТИЧЕСКИЕ ИНТЕРЕСЫ ИРАНА В КАСПИЙСКОМ РЕГИОНЕ Альберт Зульхарнеев[1] В течение полутора десятилетий иранские эксперты очерчивали масштабные перспективы участия Исламской Республики Иран (ИРИ) в жизни стран Центр...»

«1 Субетто Александр Иванович Слово о русском народе и русском человеке Санкт-Петербург Всероссийский Созидательное Движение «Русский Лад» _ Российские ученые социалистической ориентации _ Российск...»

«МИНОБРНАУКИ РФ Федеральное государственное автономное образовательное учреждение высшего профессионального образования «Южный федеральный университет» Факультет лингвистики и словесности «УТВЕРЖДАЮ» Декан фа...»

«О ТКРЫ ТО Е АКЦИОНЕРНОЕ ОБЩ ЕСТВО СТРАХОВОЕ ОБЩ ЕСТВО ГАЗОВОЙ П РО М Ы Ш Л ЕН Н О СТИ УТВЕРЖДАЮ ПРАВИЛА СТРАХОВАНИЯ ЭЛЕКТРОННЫ Х УСТРОЙСТВ 13 января 2003 г. с изменениями и дополнениями, утвержденными Приказами от 29.09.2003 № 212, от 29.09.2006 № 454, от 15.08.2008 № 348, от У /. / /.2014 г...»

«Данте Алигьери Божественная комедия. Ад http://www.litres.ru/pages/biblio_book/?art=11656915 Аннотация «Божественная комедия. Ад» – первая часть шедевральной поэмы великого итальянского поэта эпохи Возрождения Данте Алигьери (итал. Dante Alighieri, 1265 – 1321).*** Заблудившись в дремучем лесу, Данте встречает поэта Вергилия и от...»

«УДК 801 ЭВРИСТИЧЕСКИЕ И КРЕАТИВНЫЕ ВОЗМОЖНОСТИ РУССКОГО ЯЗЫКА © 2014 А. Т. Хроленко профессор, докт. филол. наук, профессор каф. русского языка e-mail khrolenko@hotbox.ru Курский государственный университет...»

«1 ТОПОЛОГИЯ ПРОСТРАНСТВА-ВРЕМЕНИ Длинный эпиграф “Из общей теории относительности вытекает новое представление о Вселенной, новая космология. Эйнштейн рассматривал гравитационные поля различных тел как искривления пространства-времени в областях, окружающих эти тела.возьмем ч...»

«ВОЛЖСКИЙ ГУМАНИТАРНЫЙ ИНСТИТУТ (филиал) федерального государственного автономного образовательного учреждения высшего профессионального образования «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» ОТДЕЛЕНИЕ СРЕДНЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РАБО...»

«Муниципальное казенное общеобразовательное учреждение «Вершинская начальная школа-детский сад» «Рассмотрено» «Утверждено» Руководитель МО Директор МКОУ «Вершинская начальная МКОУ «Вершинская начальная школа-детский сад» школа-детский сад» Протокол № 1 от 31.08.2016 г. Говорина С.А. 31.08. 2016...»

«О ЛИКВИДАЦИИ КОНВЕНЦИЯ ВСЕХ ФОРМ ДИСКРИМИНАЦИИ В ОТНОШЕНИИ ЖЕНЩИН ОРГАНИЗАЦИЯ ОБЪЕДИНЕННЫХ НАЦИЙ КОНВЕНЦИЯ О ЛИКВИДАЦИИ ВСЕХ ФОРМ ДИСКРИМИНАЦИИ В ОТНОШЕНИИ ЖЕНЩИН ОРГАНИЗАЦИЯ ОБЪЕДИНЕННЫХ НАЦИЙ «.полное развитие страны, благосостояние всего мира и дело мира требуют максималь...»

«Памятка о деятельности Общества с Ограниченной Ответственностью «Страховая компания КАРДИФ» О компании 1. ООО Страховая компания КАРДИФ — входит в состав французской страховой группы BNP Paribas CARDIF, одного из мировых лидеров в области банковского страхования. BNP Paribas CARDIF является одним из мировых...»

«Содержание Введение Предварительные условия Требования Используемые компоненты Условные обозначения Что такое затухание сигнала? Что такое Длина волны? Что такое Дисперсия? Питание? Вычислить бюджет питания Одномодальный интерфейс передачи по волоконно-оптическим каналам с подтверждением приема Дополнительные св...»

«© 2004 г. Ю.Н. МАЗАЕВ РОЛЬ СМИ В ФОРМИРОВАНИИ ОБЩЕСТВЕННОГО МНЕНИЯ О МИЛИЦИИ МАЗАЕВ Юрий Николаевич кандидат философских наук, старший научный сотрудник ВНИИ МВД (Москва). Назначение милиции как государственной организации очевидно: нет смысла убеждать в необходимости охра...»

«Энтони Бивор Высадка в Нормандии Издательский текст http://www.litres.ru/pages/biblio_book/?art=8708651 Высадка в Нормандии: КоЛибри, Азбука-Аттикус; М.; 2015 ISBN 978-5-389-09359-1 Аннотация Высадка в Нормандии – стратегическая операция союзников по высадке войск в Нормандии (Франция), нач...»

«ТРОПАРИ, КОНДАКИ, МОЛИТВЫ И ВЕЛИЧАНИЯ ИЗБРАННЫЕ по алфавиту (Даты указаны по старому и новому стилю.) ОГЛАВЛЕНИЕ Господу Богу и Спасу нашему Иисусу Христу: 3 Начало Индикта. Церковное новолетие 3 Нерукотворенного Образа Господа Иисуса Христа 3 Обрезание Господне 4 Пресвятой Владычице нашей Богородице и Приснодеве...»

«Федеральная целевая программа «Исследования и разработки по приоритетным направлениям развития научнотехнологического комплекса России на 2014—2020 годы» Соглашение № 14.581.21.0007 от 03.октября.2014 г. на период 2014 201...»

«СОЦИОЛОГИЧЕСКОЕ ОБОЗРЕНИЕ. Т. 11. № 2. 2012 75 переводы Два мира действия: социальная наука, социальная теория и системы социологической рефракции1 Фил Хатчинсон* Аннотация. Несмотря на многочисленные расхождения во взглядах, социальные ученые и социальные теоретики преследуют одну и ту же первоочередную цель: идентифици...»

«Выпуск 4 2015 (499) 755 50 99 http://mir-nauki.com Интернет-журнал «Мир науки» ISSN 2309-4265 http://mir-nauki.com/ Выпуск 4 2015 октябрь — декабрь http://mir-nauki.com/issue-4-2015.html URL статьи: http://mir-nauki.com/PDF/15PDMN415.pdf УДК 37 Семченко Е...»

«Сергей Иванович Вавилов Глаз и Солнце Серия «Популярная наука» http://www.litres.ru/pages/biblio_book/?art=11827213 Сергей Вавилов. Глаз и Солнце. О свете, Солнце и зрении: Торгово-издательский дом «Амфора»; Санкт-Петербург; 2015 ISBN 978-5-367-03594-0, 978-5-367-03603-9 Аннотация Книга...»

«Государственный порт Регенсбург ПРАВИЛА ВЗИМАНИЯ СБОРОВ ЗА ПОЛЬЗОВАНИЕ БАВАРСКИМИ ПОРТАМИ РЕГЕНСБУРГ И ПАССАУ По состоянию на 1 сентября 1995 г. Администрация порта Регенсбург Баварской администрации портов Сборы, тарифы, пошлины Германия 1. Область применения...»

«ПРИНЦИПЫ ПРОЕКТИРОВАНИЯ Д. Мигинский Базовые принципы Разделение ответственностей (SoC, DRY) Бритва Оккама (KISS) Проблема: принципы слишком общие, они не содержат подсказок, как им удовлет...»

«ПЬЕЗОКОРРЕКТОРЫ НАНОПЕРЕМЕЩЕНИЙ ДЛЯ ПРЕЦИЗИОННОГО УПРАВЛЕНИЯ ПЕРИМЕТРОМ ЛАЗЕРНЫХ ГИРОСКОПОВ Н.Р.Запотылько, А.А.Недзвецкая ФГУП «НИИ «Полюс» им. М.Ф.Стельмаха Special adjusting devices called piezodrivers are used for pathlength controlling in a ring lazer gyr...»

«Абу аль-Фарадж ибн аль-Джаузи ОБМАН ИБЛИСА «Отбор лучшего» Свет ислама —2017— —2— Абу аль-Фарадж ибн аль-Джаузи АБУ АЛЬ-ФАРАДЖ ИБН АЛЬ-ДЖАУЗИ ОБМАН ИБЛИСА ТАЛЬБИС ИБЛИС Обман Иблиса —3— ПРЕДИСЛОВИЕ РЕДАКТОРА Поистине, вся хвала принадлежит Аллаху. Его мы восхваляем и к Нему взываем о помощи и прощении. Мы ищем защиты у Аллаха от зла наших душ и дурных д...»

«В.Д. Дорофеев (д.т.н., проф.) ЛИКВИДНОСТЬ В СФЕРЕ БАНКОВСКОЙ ДЕЯТЕЛЬНОСТИ г. Пенза, Пензенский государственный университет Важным аспектом управления банковскими операциями является управление ликвидностью банка. Коммерческий банк, проводя операции, должен постоянно ма...»

«УДК 008:001.8 СТРАТЕГИЯ ИСКУССТВА ПО БОДРИЙЯРУ © 2009 М. А. Емельянова аспирант кафедры философии e-mail: Emelyanova-46@mail.ru Курский государственный университет В статье рассматривается актуальный вопрос о семиологических основаниях искусства одного из самых известных французских критиков современности Жана Бодрийяра. На основе работ философа...»

«ОБЩЕРОССИЙСКИЙ СОЮЗ ОБЩЕСТВЕННЫХ ОБЪЕДИНЕНИЙ АССОЦИАЦИЯ ОНКОЛОГОВ РОССИИ Клинические рекомендации по диагностике и лечению метастазов злокачественных опухолей без выявленного первичного очага Утверждено на Заседании правления Ассоциации онкологов России Москва 2014 К...»










 
2017 www.pdf.knigi-x.ru - «Бесплатная электронная библиотека - разные матриалы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.