авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи

-- [ Страница 1 ] --

На правах рукописи

Нгуен Ван Хунг

Исследование и разработка алгоритмов и программ автоматического распознавания ограниченного набора команд вьетнамской речи

Специальность 05.13.11 – Математическое

и программное обеспечение вычислительных машин,

комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Москва – 2010

Работа выполнена в ГОУ ВПО «Московский энергетический институт (технический университет)» на кафедре Вычислительных машин систем и сетей (ВМСиС) института Автоматики и вычислительной техники (АВТИ).

Научный руководитель: кандидат технических наук, доцент Евсеев Анатолий Ильич
Официальные оппоненты: доктор технических наук, профессор Вагин Вадим Николаевич, кандидат технических наук, с.н.с. Жигулевцев Юрий Николаевич
Ведущая организация: Вычислительный Центр Российской Академий Наук (г. Москва)

Защита состоится « 26 » ноября 2010 г. в 16 час. 00 мин. На заседании диссертационного совета Д 212.157.01 при Московском энергетическом институте (техническом университете) по адресу: Москва, Красноказарменная ул., д. 17, ауд. Г-310.

С диссертацией можно ознакомиться в библиотеке Московского энергетического института (технического университета).

Отзывы в двух экземплярах, заверенные печатью, просим направлять по адресу: 111250, Москва, Красноказарменная ул., д. 14, Учёный совет МЭИ (ТУ).

Автореферат разослан « » октября 2010 г.

Учёный секретарь диссертационного совета Д 212.157.01 кандидат технических наук, доцент М. В. Фомина

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Естественное, языковое общение является для человека самым удобным и привычным. Поэтому неудивительно, что учёные и инженеры на протяжении многих лет решают проблему речевого общения человека и машины. Основная задача речевого интерфейса понимать человеческую речь и правильно реагировать на нее. Проблема состоит в том, чтобы научить устройство понимать без посредника тот язык, на котором говорят люди между собой, то есть придумать алгоритм распознавания звукового сигнала речи. Этим и занимается технология распознавания речи.

Эта задача поставлена более 60 лет назад, но полученные решения ещё не совершенны. Это показывает, что распознавание речи является сложной проблемой. Таким образом, проблема исследования распознавания речи человека является актуальной с практическим применением даже в частных решениях.

Цель диссертационной работы



Основная цель диссертационной работы заключалась в исследовании методов распознавания речи и разработке программ автоматического распознавания ограниченного набора команд вьетнамской речи. Для достижения этой цели в ходе выполнения диссертационной работы решались следующие основные задачи:

  1. Обзор существующих методов автоматического распознавания речи.
  2. Исследование особенностей произношения вьетнамской речи, влияющих на методы распознавания речи.
  3. Разработка методов и алгоритмов распознавания вьетнамской речи.
  4. Программная реализация предлагаемых алгоритмов и демонстрация результатов поэтапной обработки речевого сигнала.

Методы исследований

В работе использовались методы математического анализа, методы цифровой обработки сигнала, теории распознавания образов и теории вероятностей.

Научная новизна

Научная новизна диссертационной работы заключается в том, что предложено нескольких новых методов:

  1. Проведена модернизация алгоритма обнаружения речи (начала и конца речевого сигнала) на фоне шума.
  2. Предложен метод сегментации слитных речевых словосочетаний вьетнамского языка на отдельные слоги, соответствующие вьетнамским словам.
  3. Предложен метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона.
  4. Предложен метод формирования динамики формант по результатам спектрального анализа. Отображение их в графическом виде может применяться для изучения произношения и разработки методов распознавания слов и фраз.
  5. Предложен метод формирования эталонов для распознавания слов и фраз, основанный на особенностях вьетнамской речи. На его основе, предложены и реализованы два метода сравнения параметров входного сигнала с эталонами, хранящимися в базе данных, для распознавания команд вьетнамской речи.

Практическая ценность диссертации

Предложены новые методы анализа речевого сигнала, новые методы распознавания ограниченного набора речевой команд на вьетнамском языке. Пока фундаментальные исследования по анализу вьетнамской речи ещё не публиковались.

Разработаны программы отображения звукового сигнала и результатов его анализа. Она позволяет экспортировать выходные параметры, полученные в результате анализа в файлы Excel и автоматически строить соответствующие графики. Программы могут быть полезны исследователям речевого сигнала и преподавателям, ведущим занятия в этой области.

Апробация работы

Полученные в работе научные и практические результаты докладывались на двух международных научно-технических конференциях «Информационные средства и технологии» (Москва, 2008 и 2009 г.г.).

Личный вклад диссертанта

Все методы разработаны совместно диссертантом и его руководителем, а алгоритмы и программы, их реализация и проверка работоспособности реализованы лично диссертантом.

Публикации

По материалам диссертации опубликовано 3 печатных работ, в том числе одна в журнале, входящем в список изданий, рекомендованных ВАК РФ. Список опубликованных работ приведён в конце автореферата.

Структура и объём работы

Диссертация состоит из введения, пяти глав, заключения, одного приложения и библиографического списка использованных источников из 47 наименований. Общий объём работы составляет 128 страницы, в том числе 89 рисунков и 10 таблиц.


СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, поставлены цели и задача исследований, сформулированы научная новизна и практическая значимость, приведено краткое содержание работы по главам.

В первой главе обоснованы:

  • Проблема распознавания речи.
  • Обзор методов распознавания речи и их классификации.
  • Знакомство с особенностями вьетнамского языка, влияющими на проблему распознавания вьетнамской речи.
  • Обоснованы конкретизация задачи и схема решения основных проблем диссертационной работы.

Целью исследования является разработка методов анализа речевых сигналов, применительно к распознаванию ограниченного набора команд вьетнамской речи. Исходные данные для разработки темы:

  • словарь для распознавания состоит из 74 команд;
  • каждая команда содержит 1, 2, 3 или 4 вьетнамского слова;
  • команды произносятся слитно.

Из методов анализа выбираем метод спектрального преобразования Фурье. В области обработки звука преобразование Фурье является важным и наиболее часто используемым инструментом.

Вьетнамский язык является односложным языком. Каждое отдельное слово соответствует лишь одному слогу. Система алфавита вьетнамского языка относится к системе латинского языка. Всего вьетнамский алфавит содержит 29 букв:

A, , , B, C, D, , E, , G, H, I, K, L, M, N, O, , , P, Q, R, S, T, U, , V, X, Y.

Во вьетнамском языке существуют надстрочные знаки (над гласным), носителями которых служат гласные, которые придают слову разнообразные тона - мелодии и смысловые значения.

Анализ и распознавание вьетнамской речи имеют свои особенности:

  • слово состоит из одного ударного слога;
  • слова не склоняются и не спрягаются, т.е. не изменяются в разных фразах;
  • щелевой звук может быть лишь в начале слова.

На основе стандартного произношения, можно разделить страну Вьетнам на три основных региона: северный (центр столица Ханой), средний (центр город Хуе) и южный (центр город Хо Ши Мин). Письменность в трёх регионах полностью идентична, но произношение в этих трёх регионах различно. Одно и то же слово имеет особенности произношения. В рамках данной темы, рассматриваем только проблему стандартного произношения в северной области Вьетнама.

Схема решения задачи показана на рисунке:

Блок 1 выполняет функции получения входного сигнала от микрофона через звуковую карту, сохранения в файл и в базу данных для обработки в последующем блоке.

Блок 2 обнаружение речевого сигнала на фоне шума и сегментирование его на слоги, которые соответствуют вьетнамским словам.

Блок 3 используется для следующих функций:

  • сегментация речевого сигнала слова на сегменты голосовых и шипящих звуков речи;
  • голосовые звуки речи разбиваются на интервалы, равные длительности основного тона (квазипериоды);
  • шипящие звуки речи анализируются на интервалах длительностью в 23,2 мс (соответствует 256 отсчётам сигнала при взятии отсчётов с частотой 11025 Гц);
  • анализируются интервалы с помощью преобразования Фурье;
  • вычисляются форманты и их динамика.
  • образуются эталоны для распознавания.

Блок 4 реализует функцию сравнения входной фразы с эталонами, лежащими в базе данных, чтобы получить результат распознавания.

Во второй главе представлен метод получения звукового сигнала от микрофона. Представлен алгоритм обнаружения речи на фоне шума путём сравнения энергетических характеристик шума и речи.

Процесс ввода речевого сигнала в ЭВМ осуществляется параллельно с процессом его обработки. Звуковые данные входа записываются со стандартной частотой 11025 Гц, разрядностью 16 бит, типа моно.

Используется алгоритм для определения крайних точек речи на фоне шума. Он основан на сравнении изменений амплитуд сигнала с амплитудным порогом фонового шума. Определение момента окончания речи определяется из условия, что окончание слова можно принимать на уровне 1/30 от максимальной энергии в пределах 256 отсчётов (или 23 мс.).

Входной сигнал записывается как последовательность отсчётов xi.

X=x0, x1, …, xi, … где i = 0, 1, 2,...;

Значения отсчётов изменяются от -215 до 215-1 (-32768 +32767).

Допустим, что в интервале 250мс (2560 отсчётов) с момента включения микрофона имеется только шум (на практике такое допущение обычно выполняется), тогда на этом участке можно определить характеристики шума. Используем 10 первых фреймов F0, F1, …, F9, где Fp=[xpx256+0, xpx256+1,…, xpx256+255]; p=09. Проведём для них быстрое преобразование Фурье (БПФ), получим 10 спектров A0, A1, …, A9, где Ap=[Ap(0), Ap(1),…, Ap(255)]. Из-за симметрии спектра, рассмотрим только Ap=[Ap(0), Ap(1),…, Ap(127)]. Порог для фона шумов для каждого канала считаем по формуле:

где i = 0, 1, …, 127; = 0,95; k() = 2,33;

Получим 128 значений амплитудного порога шума.

Речевой сигнал разобьём на фреймы по 256 отсчетов. Проведём для них преобразование БПФ. Если в спектре 15 амплитуд превышают порог, то считаем, что в этом фрейме происходит начало слова.

Определим значения спектральных составляющих для всех фреймов после фрейма, соответствующего началу слова (Af(i)), энергию фрейма (Cf) и максимальную энергию фреймов (C).





Если аи, то это соответствует фрейму окончания слова.

Оценка поведения этого алгоритма, проводилась на нескольких вьетнамских словах и словосочетаниях. Ошибок в определении начала и конца речи не было.

В третьей главе, на основе особенностей вьетнамского языка, представлен новый алгоритм сегментации слитно произносимых речевых команд на слоги, соответствующие отдельным словам путём сравнения энергии короткого времени. Алгоритм основан на следующих положениях:

• вьетнамский язык является слоговым языком, каждое отдельное слово соответствует лишь одному слогу;

• каждый слог имеет слоговой пик, где энергия короткого времени сигнала достигает самой большой величины;

• дистанция между двумя ближайшими слоговыми пиками во вьетнамском словосочетании всегда выше 64 25 = 1600 отсчетов, что соответствует промежутку времени (1600 / 11025) 1000 = 145,125 (мс);

• между двумя слоговыми пиками имеется точка, соответствующая границе, которая разделяет слоги. Точка границы соответствует самой малой энергии между пиками. Имеют место случаи, когда точка границы, где энергия сигнала имеет самое малое значение, является точкой окончания глухого шипящего, а не слога. В этом случае, исходя из того, что число переходов через нуль глухого шипящего согласного большое, можно определить точку его начала и эта точка является точкой-границей между слогами. Во вьетнамском языке глухой шипящий согласный всегда стоит в начале слова;

• число переходов через нуль глухого шипящего согласного во вьетнамском языке при принятой частоте дискретизации 11025 Гц всегда больше 17 переходов через нуль на 100 отсчетов.

Алгоритм проверен на 59 командах (словосочетаниях) содержащих 140 слогов произносимых на вьетнамском языке. Среди них были 40 команд, состоящих из двух слогов, 16 команд из 3 слогов и 3 команды из 4 слогов. В результате были разделены словосочетания на слоги, соответствующие отдельным словам.

Граничные точки словосочетания «Hin th trang in».

Из-за сложности произношения и существования шум, иногда алгоритм даёт ошибки сегментации слов. В хорошем условии, точность алгоритма достигает до 95%. Чтобы иметь возможность использовать его в условиях с большим уровнем шума, необходимо добавить функции по устранению помех.

В четвёртой главе речевой сигнал слова разделяется на шипящие и голосовые звуки путём вычисления значения числа переходов через нуль. Щелевой сигнал разбивается на интервалы длительностью в 256 отсчётов. Предложен новый метод разбиения голосовых участков речи на квазипериоды, равные периодам основного тона (о.т.) путём вычисления суммы последовательности отсчётов голосового сигнала.

Допустим, что голосовой звук находится в интервале H1, …, K1:

X = xH1, xH1+1, …, xi, …, xK1; где i = H1,..., K1.

Вычислим суммарную последовательность {sj} из последовательности значений голосового сигнала {xi} по формуле:

; j = H1,..., К1. Или в другом выражении: .

На рисунке (а и b) показаны неполный голосовой сигнал слова “Ba” и его суммарная последовательность.

Пример голосового речевого сигнала (a) и график его суммы (b).

Точки локального максимума отмечены (). Среди них ищутся свои локальные максимумы отмечены (). Разбиение речевых сигналов на квазипериоды определяется точками локальных максимумов .

Разбиение производим тремя циклами. Первый цикл используется для удаления значений сумм слева от локального максимума. Второй цикл используется для удаления значений сумм справа. После этих двух циклов, получим все точки локальных максимумов. Затем удалим ненужные локальные максимумы по следующему условию: Продолжительность интервалов о.т. попадает в диапазон от 3,7 до 14,5 миллисекунд, что соответствует от 41 до 160 отсчётов, или диапазону частот о.т. от 70 до 300 Гц.

На интервалах о.т. или 256 отсчётов рассчитываем спектры по дискретному преобразованию Фурье. Предложен новый метод формирования динамики формант по результатам спектрального анализа.

Для голосового сигнала, на каждом спектральном срезе (амплитудный спектр периода о.т.) найдем точки локального максимума и локального минимума. Если две точки локального максимума расположены близко друг к другу (расстояние их индексов равно 2), то они объединяются в одну зону. Затем, вычислим форманты каждой частотной зоны i-го среза по формуле:

и

В вышеприведенной формуле, fн и fк: частоты начало и конца зоны, еj – доля энергии j-ой амплитуды в срезе. На спектральном срезе выделяются не более 4 зон с максимальной энергией.

Кроме того, было рассчитано среднее значение частоты i-го спектрального среза в зонах Fi0 по формуле:

Для щелевого сигнала, вычисляется только одна средневзвешенная частота по всему диапазону частот спектра.

Таким образом, речевой сигнал трансформируется в последовательность частотных срезов, а каждый срез состоит из формант и их энергии. Будем называть его формантный срез. Последовательность формантных срезов слова назовём формантной картиной слова. Из неё сформируем текущий спектр формант по всему слову по формуле:

Схема формантного анализа.

После завершения процесса вычисления, получается комплект параметров соответствующих каждому слову. Ниже приводится таблица параметров слова "Ba".



Pages:   || 2 | 3 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.