Разработка системы автоматического формирования фонетической базы данных на основе информационной теории восприятия речи
На правах рукописи
КАРПОВ Николай Вячеславович
РАЗРАБОТКА СИСТЕМЫ АВТОМАТИЧЕСКОГО ФОРМИРОВАНИЯ ФОНЕТИЧЕСКОЙ БАЗЫ ДАННЫХ НА ОСНОВЕ ИНФОРМАЦИОННОЙ ТЕОРИИ ВОСПРИЯТИЯ РЕЧИ
Специальность 05.13.17 – Теоретические основы
информатики (технические науки)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
НИЖНИЙ НОВГОРОД
2008
Работа выполнена в аспирантуре на кафедре «Математики и информатики» Государственного образовательного учреждения высшего профессионального образования Нижегородского государственного лингвистического университета им. Н.А. Добролюбова
Научный руководитель: доктор технических наук,
профессор, Владимир Васильевич Савченко
Официальные оппоненты: доктор технических наук,
профессор Владимир Александрович Утробин
доктор физико-математических наук,
профессор Александр Григорьевич Флаксман
Ведущая организация - Институт прикладной физики российской Академии Наук г. Нижний Новгород
Защита состоится 27 ноября 2008 г. в 13.00 часов, в аудитории 1258 на заседании диссертационного совета Д.212.165.05 в Нижегородском государственном техническом университете им. Р.Е. Алексеева по адресу: 603950, г. Нижний Новгород, ГСП, ул. К.Минина, 24.
С диссертацией можно ознакомиться в библиотеке Нижегородского государственного технического университета им. Р.Е. Алексеева.
Автореферат разослан 23 октября 2008 г.
Ученый секретарь диссертационного совета,
кандидат технических наук А. С. Суркова
Актуальность темы исследований. Для задачи автоматической обработки устной речи вероятностный или теоретико-информационный подход, по-видимому, не имеет серьезных альтернатив ввиду острейшей проблемы ее вариативности. Однако сама идея статистического (по ансамблю реализаций) усреднения сигналов наталкивается здесь на ряд принципиальных препятствий. Прежде всего, это особенности речевого механизма человека. У разных людей он сильно разнится по своим параметрам, например, по частотным характеристикам его модели «акустической трубы». Последняя, к тому же, может сильно варьироваться под действием целого ряда факторов: времени суток, эмоционального состояния диктора и т.п. Как результат, даже одноименные речевые метки от одного и того же диктора, разнесенные между собой во времени и в пространстве, могут иметь существенно разные автокорреляционные (статистические) свойства. И здесь логично возникает идея объединения близких друг другу по своему звучанию, однородных в теоретико-информационном смысле элементарных речевых единиц в соответствующие фонемы-кластеры. Границы каждого такого кластера устанавливаются исследователем в зависимости от особенностей решаемых им задач.
Условно говоря, человеческий мозг объединяет и запоминает как нечто целое (в виде абстрактного образа) разные образцы (произношения) каждого отдельного слова в соответствующей «сфере» своей памяти вокруг абстрактного «центра» с заданным «радиусом». Это главный постулат информационной теории восприятия речи (ИТВР), созданной в рамках проекта РФФИ 07-07-12042-офи под научным руководством профессора В.В. Савченко.
Благодаря информационной теории восприятия речи появляются возможности не только эффективно моделировать человеческий механизм восприятия речи, но и усиливать его качественные характеристики. Ее применение открывает целый ряд новых возможностей и перспектив при решении актуальнейшей задачи автоматического распознавания речи. Перечислим наиболее интересные задачи первого ряда:
- оптимизация словаря эталонов;
- адаптация словаря эталонов для решения проблемы нескольких дикторов в задачах автоматического распознавания речи (АРР);
- обнаружение и исправление ошибок при автоматическом распознавании речи;
- автоматическая периодизация (сегментирование) речевых сигналов по критерию минимума информационного рассогласования;
- разработка фонетической базы данных с самонастройкой и развитием по критерию минимума информационного рассогласования;
- анализ качества речи по ее звуковому ряду и др.
Объект и предмет исследования. Исследуется речевой сигнал в задаче формирования из слитной речи словаря используемых элементарных речевых единиц типа фонем.
Цель диссертационного исследования - разработка адаптивного, с настройкой на конкретного диктора, алгоритма формирования фонетической базы данных по конечному фрагменту его устной речи для систем автоматического распознавания речи. Для достижения этой цели в диссертации решались следующие задачи:
- Исследовать влияние словаря эталонов на результирующие характеристики системы автоматического распознавания речи в целом.
- Проанализировать воздействие нормировки элементарных речевых единиц на величину информационных рассогласований между реализациями одной фонемы с целью повышения эффективность системы распознавания речи.
- Разработать новый алгоритм формирования словаря эталонов для системы автоматического распознавания речи на основе критерия минимума информационного рассогласования и метода обеляющего фильтра.
- Создать программный блок обработки входных данных для информационной системы «Фонетическая база данных».
- Разработать новый метод анализа качества речи одного диктора относительно другого на базовом, фонетическом уровне, а также сравнения группы дикторов по фонетическому составу их речи с помощью словаря структурированного в виде дерева.
Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории вероятностей, теории сигналов, а также метод обеляющего фильтра (МОФ) информационной теории восприятия речи.
Научная новизна работы состоит в следующем:
- создан новый алгоритм формирования и адаптации словаря эталонов типа фонетической базы данных для систем автоматического распознавания речи, основанный на критерии минимума информационного рассогласования;
- на основе алгоритма сконструирован блок обработки входных данных информационной системы «Фонетическая база данных»;
- для разработанного и реализованного алгоритма определены оптимальные параметры системы обработки: порядок модели, длина сегмента, порог по величине информационного рассогласования при сегментации (1 этап), порог по величине информационного рассогласования при кластеризации (2 этап) и др.;
- разработан новый метод анализа качества речи основанный на сравнении фонетического состава одного диктора относительно другого;
Практическая ценность работы состоит в том, что разработанные алгоритмы могут быть использованы в современных системах обработки речевых сигналов, как на основе существующей структуры и состава этих систем, так и путем включения в эти системы дополнительных блоков для обработки и подготовки данных в режиме их обучения.
Результаты внедрения. Разработанный алгоритм был использован при создании программного блока обработки входных данных на первом этапе работ по проекту Российского фонда фундаментальных исследований (РФФИ) № 07-07-12042 – офи «Разработка и создание информационной теории восприятия речи на основе критерия минимума информационного рассогласования» под руководством проф. В.В. Савченко.
Решением Ученого совета от 25.01.2008 г. результаты диссертационной работы внедрены в учебный процесс НГЛУ для студентов и аспирантов лингвистических специальностей.
Апробация работы. Основные результаты диссертационной работы докладывались и обсуждались на Научной всероссийской конференции «Информационные системы и технологии» (Нижний Новгород, НГТУ им. Р.Е.Алексеева, 2007 г.), на Восьмом международном симпозиуме «Интеллектуальные системы» (Нижний Новгород, НГТУ, 2008 г.), а также на трех (2006 – 2008 г.г.) научных семинарах кафедры «Математика и информатика» НГЛУ.
Личный вклад автора заключается в синтезе нового алгоритма формирования фонетической базы данных. На основе этого алгоритма им же разработана и реализована программная часть подсистемы ввода и обработки входных данных в информационной системе «Фонетическая база данных». Проведено исследование работы алгоритма при помощи информационной системы на речевых сигналах.
Публикации. Основные результаты, полученные в диссертации, опубликованы в восьми работах, в том числе в пяти статьях, среди которых есть статьи в журналах из списка ВАК «Известия вузов России. Радиоэлектроника» и «Системы управления и информационные технологии».
Полный список публикаций приведен в заключительной части автореферата.
Основные положения, выносимые на защиту:
1.Задача оптимизации словаря эталонов. Влияние состава обучающей выборки на эффективность современных методов автоматического распознавания речи.
2. Система автоматического распознавания речи на основе оптимальной решающей статистики минимума информационного рассогласования при ее реализации по методу обеляющего фильтра с нормировкой элементарных речевых единиц.
3. Система автоматического формирования фонетической базы данных. Результаты экспериментальных исследований по моделированию человеческого механизма восприятия речи с усиление его качественных характеристик.
4. Метод анализа качества речи одного диктора относительно другого на базовом, фонетическом уровне по составу их речи с помощью словаря эталонных элементарных речевых единиц структурированного в виде дерева.
Структура и объем работы. Диссертационная работа включает введения, четыре главы, заключение, список используемой литературы и приложения. Вся работа изложена на 172 страницах текста, включающих в себя 46 рисунков, 18 таблиц, 30 страниц приложений. Количество библиографических ссылок – 125.
Введение содержит обоснование актуальности, описываются объект, предметы и методы исследования. Отмечена научная новизна и практическая значимость результатов, приведены основные положения диссертационной работы, выносимые на защиту, а также сведения об апробации, реализации и внедрении результатов работы.
Первая глава «Основные положения информационной теории восприятия речи» посвящена обзору основных положений информационной теории восприятия речи, на базе которых решается актуальная задача распознавания элементарных речевых единиц (ЭРЕ). Особенностью представленного в главе исследования является анализ теоретико-информационного подхода, основанного на нормировании речевых сигналов по дисперсии порождающего шума в их авторегрессионной модели. Основное внимание уделяется проблеме повышения достоверности распознавания элементарных речевых единиц.
Рассмотрены современные методы устойчивого представления речевых сигналов. Сделан выбор в пользу описания сигнала методом обеляющего фильтра, который основан на коэффициентах линейного предсказания и авторегрессионной модели случайного сигнала. Описан теоретико-информационный подход к распознаванию речи, сводящийся к критерию минимума информационного рассогласования (МИР) в метрике Кульбака-Лейблера и реализованный в методе обеляющего фильтра. Показано, что набор оптимальных решающих статистик применительно к АР-модели наблюдений принимает вид
, (1)
где - выборочная дисперсия отклика r-го обеляющего фильтра на вектор анализируемого сигнала
а
- дисперсия его порождающего процесса. Подход используется в информационной теории восприятия речи, а так же согласуется с моделью формирования речи в виде акустической трубы, широко применяемый в современных системах автоматического распознавания речи.
Предложен алгоритм автоматического распознавания элементарных речевых единиц на основе метода обеляющего фильтра, учитывающий разный вклад фонем в формирование слитной речи (с нормировкой по дисперсии порождающего шума ). При учете такой нормировки предыдущий результат (1) приобретает предельно простой вид
. (2)
Решение здесь принимается в пользу -го речевого образа
по признаку минимальной дисперсии отклика соответствующего обеляющего фильтра. По этому алгоритму построена экспериментальная система АРР, для которой приведена структурная схема и подробно описан принцип работы.
С использованием экспериментальной установки проведено исследование автоматического распознавания ограниченного набора типичных фонем русского языка. Основные результаты эксперимента сконструированной системы, приведены в табл. 1-3.
Табл. 1
Частота распознавания фонем с не оптимальными эталонными реализациями в словаре
Входной сигнал | «а» | «и» | «о» | «э» | «б» | «р» | «н» | «ф» | «ш» | «щ» |
Относительная частота распознавания | 0,80 | 0,9 | 1 | 0,95 | 0,80 | 1 | 0,85 | 0,95 | 1 | 0,95 |
Табл. 2
Частота распознавания фонем с оптимальными эталонными реализациями в словаре
Входной сигнал | «а» | «и» | «о» | «э» | «б» | «р» | «н» | «ф» | «ш» | «щ» |
Относительная частота распознавания | 0,80 | 1 | 1 | 1 | 0,90 | 1 | 0,85 | 1 | 1 | 1 |
В соответствии с информационной теорией восприятия речи табл. 1-2 демонстрирует ключевую роль поиска эталонной из множества реализации фонемы (кластера), для максимизации вероятности распознавания. Эталон представляет собой образ всей фонемы, для сравнения с ним анализируемых звуков. Все множество эталонных элементарных речевых единиц называем словарем эталонов.
Табл. 3
Частота распознавания фонем с эталонными реализациями в словаре и нормировкой по дисперсии порождающего шума
Входной сигнал | «а» | «и» | «о» | «э» | «б» | «р» | «н» | «ф» | «ш» | «щ» |
Относительная частота распознавания | 1 | 1 | 1 | 1 | 0,95 | 1 | 1 | 1 | 1 | 1 |