Анализ и автоматическая сегментация речевого сигнала

  • автор:
  • специальность ВАК РФ: 05.13.01
  • научная степень: Кандидатская
  • год защиты: 2006
  • место защиты: Москва
  • количество страниц: 149 с. : ил.
  • бесплатно скачать автореферат
  • стоимость: 230 руб.
  • нашли дешевле: сделаем скидку

действует скидка от количества
2 работы по 214 руб.
3, 4 работы по 207 руб.
5, 6 работ по 196 руб.
7 и более работ по 184 руб.
Титульный лист Анализ и автоматическая сегментация речевого сигнала
Оглавление Анализ и автоматическая сегментация речевого сигнала
Содержание Анализ и автоматическая сегментация речевого сигнала
Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления
Оглавление
ВВЕДЕНИЕ.
ГЛАВА 1. Методы анализа и сегментации речи
1.1. Методы сегментации.
1.2. Методы анализа основного тона.
1.3. Методы анализа формантных частот
1.4. Смеси распределений
1.5. Заключение
ГЛАВА 2. Акустические параметры
2.1. Импульсы голосового источника.
2.2. Формантные треки
2.3. Характеристики кардинальных элементов.
2.4. Заключение
ГЛАВА 3. Решающие правила
3.1. Байесовский подход.
3.2. Моделирование распределения плотности по выборке
3.3. Метод динамической трансформации шкалы времени
3.4. Заключение.
ГЛАВА 4. Сегментация
4.1. Поиск границ сегментов.
4.2. Распознавание кардинальных типов.
4.3. Результаты тестирования
4.4. Заключение
ОГЛАВЛЕНИЕ
ГЛАВА 5. Автоматическая сегментация в задачах речевых технологий
5.1. Обратная задача для слитной речи
5.2. Распознавание изолированных цифр
5.3. Верификация личности по голосу
5.4. Заключение
ЗАКЛЮЧЕНИЕ.
БИБЛИОГРАФИЯ


Сбор и ручная разметка речевых баз данных (как на словарном, так и на фонетическом уровне) является сложной и трудоёмкой задачей, в особенности для спонтанной речи. Как следствие, достаточно представительные базы речевых данных существуют только для относительно малого числа языков []. Для преодоления этих трудностей были разработаны несколько автоматических алгоритмов фонетической разметки, основанные в большинстве своем на обобщающем принципе «сверху вниз», взятом из распознавания речи. Среди таких подходов - контекстно-зависимый алгоритм Витерби с моделированием вариаций произношения [, ]. Однако, эти алгоритмы разметки эффективны только если выполнено точное моделирование вариантов произнесения и других фонетических явлений, таких как ассимиляция на стыках слов, пропадание удвоений или диалектические вариации, часто встречающиеся в спонтанной речи. Непроизвольные задержки в речи, «фальстарты» и другие нарушения плавности представляют собой еще один источник проблем для этих алгоритмов. В дополнение к этому, требования к точности сегментации для систем синтеза речи по тексту выше, чем для систем распознавания, поскольку системы распознавания направляют усилия на правильно идентификацию речевой последовательности и не требуют точного указания положений границ. Контекстно-независимая сегментация речевого сигнала может быть полезна для решения этих проблем. Среди биометрических методов идентификации (верификации) личности [], то есть автоматического опознавания личности на основании физиологических и поведенческих признаков, большой популярностью пользуются методы идентификации по голосу. Биометрические методы идентификации должны обладать следующими свойствами: универсальность (необходимые параметры можно найти у любого человека), уникальность (разные «значения» для разных людей), постоянство (неизменность во времени), формализуемость (можно измерить количественно), эффективность (высокая точность, низкие требования к ресурсам), субъективная приемлемость (добровольное участие людей), устойчивость к обману (сложно подделать). В этом смысле идентификация по голосу обладает значительными преимуществами по сравнению с другими биометрическими методами, такими как идентификация по отпечатку пальца, по рисунку радужной оболочки глаза, по анализу ДНК и т. Для голосовой верификации характерные признаки голоса должны вычисляться на определенных сегментах речевого сигнала. Частота основного тона, присущая диктору, должна вычисляться на гласноподобных участках сигнала. Форма речевого тракта характеризуется формантными частотами, измеряемыми на известных гласных звуках. Скорость артикуляции определяется по длительностям переходных процессов между артикуляторно-акустическими сегментами. Поэтому для эффективной верификации диктора по голосу необходима надежная сегментация речевого сигнала [, , 6, 0]. В последнее время в мире значительно возрос интерес к так называемой обратной задаче, то есть задаче восстановления формы речевого тракта по акустическому сигналу []. Обратная задача позволяет существенно повысить качество решения большого количества практических речевых задач. Она может быть использована в следующих областях: системы сжатия и передачи речи в мобильной телефонии [, 9], синтезаторы речи по произвольному тексту [, 4], системы автоматического распознавания речи [,5], системы верификации и идентификации диктора по голосу [], системы обучения иноязычному произношению. Обратная задача для слитной речи принципиально не решается без предварительной сегментации сигнала на кардинальные элементы, поскольку для элементов каждого типа используются свои критерии оптимальности и свои акустические признаки. Кардинальные элементы речи [9] представляют собой группы звуков, созданных с использованием существенно различающихся механизмов речеобразования. Сегментация на кардинальные элементы в интересах обратной задачи должна выполняться без использования дополнительной информации о содержании речевого сигнала, то есть независимо от языка и контекста.
Вы всегда можете написать нам и мы предоставим оригиналы страниц диссертации для ознакомления

Рекомендуемые диссертации данного раздела