авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |

Исследование и разработка метода сжатия речевых данных при передаче экспресс-сообщений по телекоммуникационным каналам

-- [ Страница 1 ] --

На правах рукописи

ЗЕРНОВ

ПАВЕЛ СЕРГЕЕВИЧ

ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДА СЖАТИЯ РЕЧЕВЫХ ДАННЫХ ПРИ ПЕРЕДАЧЕ ЭКСПРЕСС-СООБЩЕНИЙ ПО ТЕЛЕКОММУНИКАЦИОННЫМ КАНАЛАМ

Специальность 05.13.01 – Системный анализ, управление и обработка информации

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Санкт-Петербург

2009

Работа выполнена в Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича

Научный руководитель кандидат технических наук, доцент Юрий Тихонович Бутыльский
Официальные оппоненты доктор технических наук, профессор Дегтярев Владимир Михайлович кандидат технических наук Гусев Михаил Николаевич
Ведущее предприятие Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»

Защита состоится « 2 » июля 2009 года в 10 часов на заседании диссертационного совета Д 219.004.02 при Санкт-Петербургском государственном университете телекоммуникаций им. проф. М.А. Бонч-Бруевича по адресу: 191186 Санкт-Петербург, наб. р. Мойки, д.61.

С диссертацией можно ознакомиться в библиотеке университета.

Отзыв на автореферат в двух экземплярах, заверенных печатью учреждения, просим направлять по указанному адресу на имя ученого секретаря диссертационного отдела.

Автореферат разослан « 1 » июня 2009 г.

Ученый секретарь

диссертационного совета

кандидат технических наук, доцент В.Х. Харитонов

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. В настоящее время, как средства общения и обмена информацией, широкое распространение получили системы экспресс-сообщений (ЭС). ЭС являются видом оперативных коммуникационных услуг, позволяющим двум пользователям создавать в сети Интернет сессии обмена информацией на основе текстовых сообщений. Дополнительно, некоторые из систем ЭС позволяют передавать голосовую информацию, на базе технологии VoIP. В качестве терминалов могут использоваться персональные компьютеры (стационарные, ноутбуки), беспроводные устройства (сотовые телефоны, КПК) или другое интернет оборудование. Возможны различные комбинации этих устройств.

ЭС имеют две основные особенности: предоставляют возможность обмена текстовыми сообщениями в реальном масштабе и передают информацию о присутствии пользователя. Высокой популярностью ЭС обязаны этим двум особенностям, отличающим их от электронной почты и SMS сообщений и позволяющим клиентам систем вести диалог путем набора текста на клавиатуре терминала (ПК, КПК, мобильного телефона и т.д.). Для пользователей, работающих в системе ЭС, характерно употребление единой терминологии. Разговоры связаны общими интересами и обычно происходят на одном языке.



Для системы ЭС использование технологии VoIP, зачастую является избыточным. Анализ существующих разновидностей технологий ЭС, показывает возможность использования словаря для преобразования, как текстовых сообщений, так и речи на передающей стороне и передаче в канал связи индекса каждого обработанного слова. На приемной стороне по словарю можно синтезировать в естественную речь индексы полученных из канала связи слов. Таким образом, на базе системы ЭС возможно предоставление услуги передачи речи, отличающейся сниженным объемом передаваемых в канал связи данных, по сравнению с технологией VoIP.

Своими исследованиями в области цифровой обработки речевых сигналов известны Л. Рабинер, Р. Шафер, С. Левинсон, А. Ланнэ (RusVox). Вопросы синтеза речи освещены в работах В. Кучерова, Б. Лобанова, Г. Фанта, Дж. Фланагана, М. Сапожникова. Теории обработки разговорной речи посвящены работы X. Хуанга, А. Асеро, Х. Хона. Все эти наработки в области распознавания и синтеза речи могут быть применены в системах ЭС, порождая тем самым новый метод передачи речи, исключающий избыточность существующих подходов.

Поэтому поставленная и решенная в диссертационной работе задача является актуальной.

Целью работы и задачей исследования является повышение эффективности использования канала связи, путем снижения объема передаваемых в системе ЭС данных. Цель достигается путем решения нижеперечисленных основных задач.

  1. Анализа систем ЭС и выявления проблем связанных с избыточностью применения существующих методов передачи речи в системах ЭС.
  2. Исследования и разработки метода сжатия речевых сообщений в системе ЭС.
  3. Исследования и разработки модели обработки информации на передающей и приемной сторонах в системе ЭС.
  4. Исследования и разработки алгоритмов модели обработки информации в системе ЭС.
  5. Экспериментальной проверки разработанного метода, модели, алгоритмов и сравнения с существующим методом.

Методы исследования. При проведении исследований в диссертационной работе использовались методы теории обработки речевых сигналов, вычислительной математики, программирования, теории телетрафика, теории вероятностей.

В качестве инструмента исследования автором было разработано приложение для обмена речевой информацией в системе ЭС. Данное приложение использовалось для получения количественных оценок объема передаваемых в канал связи данных и времени доставки пакетов ЭС, было экспериментальной платформой для внедрения и применения разработанного метода передачи речи.

Научная новизна. В данной работе предложен новый метод передачи ЭС, модель обработки информации, модель процесса преобразования речи и ее алгоритмы. Научная новизна заключается в разработке для систем ЭС нового подхода, основанного на применении систем распознавания и синтеза речи, функционирующих по словарю. Словарь позволяет преобразовывать поступающую на передающей стороне речь в индексы слов, а на приемной стороне, переданные через канал связи индексы слов синтезировать в речевой сигнал. Исследование систем ЭС и разработка метода передачи речи, дает толчок к созданию лингвистических моделей языка общения пользователей, в рамках этих систем, тем самым, расширяя возможности систем ЭС.

Практическая ценность работы. К практической ценности разработанного метода можно отнести:

  1. уменьшение объема передаваемой в канал связи информации и снижение нагрузки на сеть;
  2. обеспечения более эффективного, по сравнению с набором на клавиатуре, способа ввода ЭС и более эффективного, по сравнению с чтением на дисплее, способа восприятия ЭС;
  3. совместная передача на базе протоколов системы ЭС как речевой, так и текстовой информации в едином цифровом потоке.

Разработчикам, инженерам, операторам предоставляется новый инструмент, позволяющий обмениваться как текстовой, так и голосовой информацией в реальном масштабе времени. Математическим аппарат, представленный в работе в виде модели обработки информации удобен и доступен для инженерных расчетов в системах обмена информацией. Разработанные средства также могут быть использованы в системах требующих низкую скорость передачи данных, к примеру: в системах передачи данных на подводных лодках, в шахтах или в туннелях.

Апробация работы. Результаты работы докладывались на:

  • 59 (май 2005) и 60 (май 2006) научно-технических конференциях студентов, аспирантов и молодых специалистов СПбГУТ;
  • 58 (январь 2006), 59 (январь 2007), 60 (январь 2008), 61 (январь 2009) научно-технических конференциях профессорско-преподавательского состава, научных сотрудников и аспирантов СПбГУТ.

Основные практические результаты работы демонстрировались на ежегодной конференции IBM Lotus Forum 25 сентября 2008 в городе Москве.

Основные положения, выносимые на защиту. К основным научным результатам, которые получены лично автором, включены в диссертацию и выносятся на защиту, относятся:

  1. результаты анализа существующих систем ЭС и их особенностей;
  2. предложенный метод передачи речи на базе системы ЭС;
  3. разработанная модель обработки информации в системе ЭС;
  4. созданные алгоритмы для модели обработки информации в системе ЭС;
  5. результаты экспериментальных проверок работы предложенного метода для системы ЭС в режиме реального времени и оценок объема данных, передаваемого в канал связи;
  6. дальнейшие пути исследований:
    • построение лингвистической модели языка, используемого в системе ЭС;
    • снижение требований к вычислительной мощности аппаратуры клиентской части системы, за счет распознавания речи на выделенном сервере;
    • создание клиентской части системы на базе программируемой логики в виде аппаратного решения;
    • разработка клиентской части системы, работающей на мобильных устройствах;
    • исследования по применению созданной системы в работе на низкоскоростных каналах связи, например инфразвуковых.

Личный вклад автора. Основные научные положения, теоретические и практические выводы и результаты экспериментов, содержащиеся в диссертационной работе, получены автором самостоятельно.

Публикации. По теме диссертации опубликовано 13 научных работ, в том числе в 4 изданиях из перечня, рекомендуемого ВАК.

Структура и объем работы. Работа состоит из введения, 4 глав, заключения, списка литературы, включающего 106 наименований. Работа содержит 150 страниц машинописного текста, 34 рисунка, 12 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении проведено обоснование актуальности, научной и практической ценности решения задач связанных с ЭС, в основе архитектуры которых заложено преобразование речевой информации на передающей и приемной сторонах по словарю.

В первой главе вводится ряд определений и классификаций, проводится анализ существующих систем ЭС. Исследуются особенности передачи речи на базе ЭС. Рассматриваются используемые в системах ЭС протоколы, производится их сравнение.

Сделаны выводы об актуальности рассмотрения систем ЭС и выявлен круг проблем связанных с ними. Определена возможность сокращенной передачи информации от отправителя к получателю с использованием выявленного словаря. Отмечена проблема неэффективного ввода и восприятия информации в системе ЭС. Намечены пути устранения избыточности существующих методов передачи речи, предполагающие обработку информации на передающей и принимающей сторонах по словарю. Отмечена необходимость обеспечения совместной передачи как речевой, так и текстовой информации в едином цифровом потоке.

Во второй главе рассматривается предложенный метод передачи речи для системы ЭС (МПРЭС) в рамках ее архитектуры. Базовые положения МПРЭС для передающей стороны:

  • формирование входной информации в виде отдельных слов по словарю;
  • введение в структуру передающей стороны словаря, достаточного для обмена ЭС между определенной группой пользователей (словарь должен присутствовать как на передающей, так и на приемной сторонах);
  • определение произнесенного пользователем слова по словарю как наиболее вероятного с помощью речевого распознавателя с большим словарем, основанного на использовании лексических единиц размером меньше слова (Sphinx4), разработанного в Университете Карнеги-Меллон (CMU), группой Sphinx Group;
  • формирование пакета ЭС, содержащего преобразованный по кодовой таблице индекс слова (последовательность индексов слов).

Базовые положения МПРЭС для приемной стороны:

  • преобразование переданного по каналу связи индекса (последовательности индексов) по кодовой таблице;
  • извлечение текстового представления слова из словаря, согласно полученному индексу;
  • преобразование слова в речевой сигнал по словарю с помощью речевого синтезатора, основанного на использовании лексических единиц размером меньше слова (Festival), разработанного в Эдинбургском Университете, в Центре Исследования Речевых Технологий (CSTR).

Для МПРЭС описан процесс преобразования речи. На рис. 1.а изображена модель процесса преобразования речи (МППР) в ASCII коды, на рис. 1.б МППР ASCII кодов в речь.





а)

б)

Рис. 1. Предложенная МППР : а – речь в ASCII коды, б – ASCII коды в речь

На основе МПРЭС разработана сетевая архитектура системы ЭС (САЭС). В САЭС выделяются четыре основные задержки:

  • задержка на обработку речи;
  • задержка синтеза речи;
  • задержка помещения пакета в очередь;
  • задержка очереди.

Проанализированы существующие системы распознавания и синтеза речи, сформулированы требования для таких систем в рамках ЭС.

Требования, предъявляемые к системе распознавания речи:

  • работа в реальном масштабе времени, т.е. распознавание речи в темпе поступающего речевого сигнала;
  • низкий процент ошибок распознавания слов (5% неверно распознанных слов, является минимальным приемлемым для систем распознавания речи процентом);
  • словарь, достаточный для распознавания слов, используемых в общих разговорах (по расчетам лингвистов, объем активного словаря, для образованного человека составляет в среднем в 5000-10000 слов);
  • распознавание слитной речи, т.е. возможность автоматического разделения произнесенной фразы или предложения на слова с последующим распознаванием по словарю;
  • наличие в публичном доступе баз для распознавания русской речи;
  • наличие в публичном доступе исходных кодов системы распознавания для их модификации и адаптации под задачи ЭС, т.е. система должна быть некоммерческой.

Требования, предъявляемые к системе синтеза речи:

  • работа в реальном масштабе времени, т.е. синтез речи в темпе поступающих индексов слов в словаре;
  • синтез речи с качеством близким к реальной человеческой речи;
  • клиент-серверная архитектура системы синтеза;
  • наличие в публичном доступе баз, для синтеза русской речи;
  • наличие в публичном доступе исходных кодов системы синтеза, для их модификации и компиляции под задачи ЭС.

Согласно сформулированным выше требованиям произведен выбор системы распознавания речи с большим словарем (Sphinx4) и системы синтеза речи (Festival), основанные на использовании лексических единиц размером меньше слова.

Сделаны выводы о необходимости создания модели обработки информации на передающей и приемной сторонах для определения возможности работы предлагаемой архитектуры в масштабе реального времени и вычисления объема, передаваемых в канал связи данных.

В третьей главе рассмотрена модель обработки информации в системе ЭС (МОИЭС) построенной согласно предлагаемому методу.

МОИЭС на передающей стороне является представлением процесса преобразования речи в ASCII коды для системы ЭС. В настоящее время в обработке речи успешно применяются стохастические модели сигнала, а именно скрытые марковские модели (СММ). В основе выбранной в главе 2 системы распознавания речи Sphinx4, также заложены принципы описания речевого сигнала с помощью СММ.

На рис. 2 изображен фрагмент МОИЭС на передающей стороне. Предположим, что имеется некоторый словарь из слов, которые нужно распознавать, и что каждое слово нужно моделировать отдельной СММ.

Предположим также, что для каждого слова из словаря имеется некоторое обучающее множество, состоящее из реализаций каждого слова (произнесенного одним или несколькими дикторами). Реализация слова представляет собой последовательность наблюдений, а сами эти наблюдения являются некоторым подходящим представлением характеристик данного слова (спектральных и/или временных). Для каждого такого слова словаря строится СММ , т.е. определяется значения параметров модели , которые оптимизируют правдоподобия векторов наблюдения обучающей последовательности для -го слова.

Входным параметром МОИЭС является речевой сигнал (сигнал, формирующийся через микрофон на передающей стороне из слов, произнесенных пользователем) длиной и интенсивностью . Поступающий речевой сигнал проходит предварительный спектральный анализ, с целью получения векторов наблюдений по его отсчетам.

 Фрагмент МОИЭС на передающей-13

Рис. 2. Фрагмент МОИЭС на передающей стороне

На основе полученной после спектрального анализа последовательности наблюдений , инициируется процесс распознавания. При этом выполняются следующие шаги:

вычисляются вероятности правдоподобия всех возможных моделей

, , (1)

относительно последовательности наблюдений произнесенного слова;

осуществляется выбор слова, вероятность правдоподобия модели которого наибольшая, т. е.

, , (2)

где - распознанное слово по словарю .

Перед передачей в канал связи, индекс распознанного слова проходит специальное преобразование. Если произнесенное слово не распознано системой, то преобразование производится над последовательностью индексов его спектров. Значения индекса слова или индексов спектров пересчитываются по модулю 64, согласно (3)

. (3)

В дальнейшем это преобразование позволит заменить любой числовой индекс на ASCII символ из кодовой таблицы, используемой в методе кодирования base64.

Система распознавания речи Sphinx4 позволяет задать параметр , количество одновременно выдаваемых индексов обработанных слов поступившего речевого сигнала. Таким образом, при параметре равном 1, система распознавания речи выдает индекс каждого обработанного слова отдельно. Если параметр больше 1, то система выдает последовательности индексов обработанных слов. В последовательности индексов обработанных слов, могут входить как индексы распознанных слов, так и индексы спектров нераспознанных слов.

Таким образом – объем передаваемой в канал связи последовательности индексов распознанных слов вычисляется по формуле:

, (4)



Pages:   || 2 | 3 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.