авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 | 4 | 5 |

Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах

-- [ Страница 1 ] --

На правах рукописи

Харламов Александр Александрович

Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах

05.13.01 «Системный анализ, управление и обработка информации»

Автореферат диссертации на соискание ученой степени

доктора технических наук

Москва 2008

Работа выполнена в Институте высшей нервной деятельности и нейрофизиологии Российской академии наук.

Официальные оппоненты:

доктор технических наук, профессор Галушкин Александр Иванович

доктор технических наук Женило Валерий Романович

доктор технических наук Лакаев Анатолий Семенович

Ведущая организация:

ФГУП Научно исследовательский институт микроэлектронной аппаратуры «Прогресс», г. Москва

Защита состоится 29 апреля 2008 года в 14-00 на заседании диссертационного совета Д 212.133.01 в Московском государственном институте электроники и математики по адресу: 109, Москва, Большой Трехсвятительский пер., д. 3/12

С диссертацией можно ознакомиться в библиотеке института

Автореферат разослан «___» ____________ 2008г.

Ученый секретарь

Диссертационного совета к.т.н., доцент С.Е. Бузников

Общая характеристика работы

Актуальность темы диссертации: В настоящее время успешно решаются отдельные задачи из области распознавания образов: известны коммерческие системы распознавания речи, распознавания изображений, автоматического анализа текстов. Степень успешности решения этих задач зависит от степени формализованности описания предметной области. Так, хорошо распознаются изображения символов – букв и цифр, менее успешно, но все же решена задача распознавания изображений лиц. Решена задача распознавания изолированно произнесенных команд. Успешно решена задача выявления грамматических и синтаксических ошибок в тексте.

Более сложные задачи – распознавание изображений сцен, диктовка текстов с микрофона, автоматическая классификация текстов – далеки от решения. Существующие системы лишь демонстрируют уровень сложности этих задач. Трудности, возникающие при решении этих задач, определяются, в том числе, существенной неоднозначностью анализируемой информации, что приводит к формированию большого числа гипотез, проверка которых, в случае обработки больших объемов информации становится нетривиальной задачей, а иногда и не решаемой в рамках разрешения применяемых методов.

Естественным способом улучшить ситуацию в задачах распознавания является использование семантической и прагматической информации, которая является фильтром, позволяющим ограничить число гипотез, возникающих комбинаторно в системах распознавания на нижних уровнях принятия решений. Такими нижними уровнями для системы распознавания изображений являются уровень элементарных представлений, уровень элементов объектов, и уровень объектов. В задачах распознавания речи и анализа текстов это – морфологический, лексический и синтаксический уровни представления и обработки информации.



В настоящее время сложность методов представления семантической и прагматической информации как металингвистическими, так и образными средствами практически не позволяет эффективно использовать эту информацию для решения задач распознавания образов.

В рамках научного направления искусственный интеллект предпринимались и предпринимаются многочисленные попытки использования семантической и прагматической информации, в основном, для решения задачи человеко-машинного общения на естественном языке. Широко известна работа Попова Э.В. в этом направлении. Однако, по его мнению, успех работы был обусловлен исключительно тем, что семантическая картина мира была заменена жесткой структурой реляционной базы, данные из которой и интерпретировались на естественном языке. В настоящее время предпринимаются попытки интерпретации естественно-языковых высказываний в терминах понятий и их отношений. Но большая неоднозначность этих интерпретаций, возникающая в силу многозначности языковой модели мира, не позволяет автоматически формировать модель мира на основе текстов.

Менее известны способы использования семантической информации для распознавания изображений. В качестве модели мира для анализа сцен использовалась квази-3d сцена, на которой отдельные объекты представляются обобщенными геометрическими формами: шариками, цилиндрами. С помощью этого представления осуществляется сегментация и идентификация объектов сцены, которые далее описываются метаязыковыми терминами, так же как и отношения между ними, и их динамика.

Разработка методов представления информации семантического и прагматического уровней, одинаково удобных для использования, как в задачах распознавания языковых образов, так и изображений, является ключевым моментом как в улучшении качества, так и в улучшении функциональности указанных систем распознавания, а также в переходе на следующий этап разработки интеллектуальных систем – этап создания интегрированных многомодальных систем обработки и хранения информации – интегральных роботов. Существование этих задач заставляет искать новые подходы к методам представления и обработки информации различных модальностей – речевой, зрительной, а также надмодальной (семантической, прагматической) информации.

Для решения задач такого типа необходим комплексный интегральный подход, позволяющий использовать и многомодальную и надмодальную информацию, при помощи которого можно построить общую методологию обработки информации указанных типов, сформированную на основе общей математической модели. Она должна содержать методы удобного представления информации и эффективного доступа к ней, а также - структурной обработки информации, в том числе выявления внутренней структуры информации.

На основании этого, составными частями такого подхода должны стать методы обработки речевой информации, обработки изображений, анализа текстовой информации, представления семантической и прагматической информации.

Для практического подтверждения правильности выбранных методов необходимо отработать их применение на обработке реальной информации, для чего необходимо разработать программные реализации систем распознавания речи и изображений, а также анализа текстов, включающих представление семантической и прагматической информации. Реальная интеграция представления информации различных модальностей, а также надмодальной информации может быть эффективно осуществлена на основе аппаратной реализации указанных методов.

Поскольку до настоящего времени ни один из этих вопросов не решался в совокупности со всеми остальными, можно считать, что решение такой проблемы весьма актуально.

Целью диссертационной работы является:

Целью настоящей диссертационной работы является выявление эффективных способов представления многоуровневой структурированной информации различных модальностей (изображения, речь, текст), адекватных представляемой информации, позволяющих естественным образом воспроизводить структуру информации так, как это происходит в мозгу человека. Указанные способы должны позволить осуществлять эффективное представление, как информации различных модальностей, так и надмодальной информации, в том числе, семантической и прагматической.

Выбранные способы представления и обработки информации должны позволять осуществить единое интегрированное представление многомодальной и надмодальной информации, каковая, являясь многомодальной моделью мира, или ее частью – фреймом, сценарием – позволит фильтровать комбинаторные гипотезы, возникающие на разных уровнях в разных модальностях.

Достижение поставленной цели предполагает решение ряда задач теоретического, методического и практического характера. В том числе задач:

  • разработки теоретических основ и формализации процесса нейросетевой обработки информации;
  • формализации нейросетевого представления и обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической;
  • разработки методов и алгоритмов для структурной нейросетевой обработки изображений, речи, текстов;
  • разработки методов аппаратной реализации эффективного представления и нейросетевой обработки информации.

Для достижения поставленных задач необходимо провести следующие исследования:

  • рассмотреть существующие подходы к обработке и распознаванию информации различных модальностей, а также надмодальной: семантической и прагматической информации, и на их основе разработать единое математическое описание для представления в наиболее общей форме технологии обработки информации, описания эталонов, методов распознавания;
  • разработать обобщенный способ описания объектов (эталонов), включающий способы его получения и методы, по которым он может быть идентифицирован.

Методы исследований, применяемые в работе, основываются на использовании алгоритмов обработки изображений, алгоритмов распознавания речи, алгоритмов обработки текстовой информации, теории распознавания образов, теории графов.

Достоверность результатов теоретических исследований подтверждается данными, полученными при обработке реальной информации, с применением построенных системы распознавания изображений рукописных символов, системы распознавания речи, и системы анализа текстов.

Научная новизна работы заключается в следующем:

  • разработаны теоретические основы и формализация процесса нейросетевой обработки информации с помощью одного класса искусственных нейронных сетей на основе нейроподобных элементов с временной суммацией сигналов;
  • разработана формализация представления и нейросетевой обработки информации различных модальностей: речи, изображений, текстов, а также надмодальной информации: семантической и прагматической;
  • разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов;
  • разработаны методы аппаратной реализации эффективного представления и нейросетевой обработки информации.

Практическая ценность диссертационной работы состоит в том, что ее результаты были использованы или могут быть использованы в разработке:

  • систем распознавания слитной речи и систем понимания речи для построения источников знаний верхних уровней;
  • систем распознавания изображений для структурного анализа, включая автоматическое формирование эталонов разных уровней;
  • систем анализа текстовой информации, в том числе, информационных и информационно-поисковых систем;
  • блоков ассоциативной памяти, позволяющей реализовать быстрый поиск на больших массивах данных.

Реализация результатов. Результаты исследований в виде готовых программных продуктов были использованы в организациях министерства обороны и других органах государственной власти, и на фирмах «Интеллектуальные системы безопасности», «ОАО Ангстрем-М», «Юникор микросистемы».

Апробация работы. Основные положения диссертации докладывались на Международном симпозиуме «Нейронные сети и нейрокомпьютинг» NEURONET’90, Прага 1990г.; на Всесоюзном семинаре «Автоматическое распознавание слуховых образов (АРСО-16)», Москва 1991г.; на Международном совещании «Нейрокомпьютеры и внимание», Москва 1991г.; на XI Международной конференции по нейрокибернетике, Ростов-на-Дону 1995г.; на Втором международном симпозиуме «Интеллектуальные системы», С.-Петербург 1996г.; на IV Всероссийской конференции «Нейрокомпьютеры и их применение (НКП-98)», Москва 1998г.; на Международной конференции «Информатизация правоохранительных систем», Москва 1998г.; на Третьем Международном симпозиуме «Интеллектуальные системы», Псков 1998г.; на IX сессии Российского акустического общества, Москва 1999г.; на международной конференции-совещании "Новые информационные технологии из России", Берлин 2002г.; на IV Международном  социальном конгрессе, Москва 2004г.; на международной конференции-совещании "Новые информационные технологии из России", Белград 2004г.; на Международной научно-технической конференции «Интеллектуальные и многопроцессорные системы – 2005 (ИМС-2005)», Геленджик 2005г., на международной конференции-совещании "Новые информационные технологии из России", Будапешт 2005г.; на Третьем совещании Российской секции IEEE Computation Intelligence Society «Биометрические системы», Москва 2005г., на 5-х Годичных научных чтениях факультета иностранных языков РГСУ, Москва 2006г.; на конференции «Нейрокомпьютеры и их применение» (Нейро-2007), Геленджик 2007г., на конференции «Digital libraries and technology-enhanced learning: Call 3 information days», Люксембург 2007г.





Публикации. Результаты работы опубликованы в 58 печатных научных трудах общим объемом 20 печатных листов, среди которых монографии, статьи в центральных журналах, труды и тезисы конференций.

Личный вклад. Лично автором получены следующие основные результаты.

  • Разработаны теоретические основы и формализация процесса нейросетевой обработки информации.
  • Формализованы нейросетевое представление и обработка информации различных модальностей: речи, изображений, текстов, а также надмодальной информации - семантической и прагматической.
  • Разработаны методы и алгоритмы для структурной нейросетевой обработки изображений, речи, текстов.
  • Разработаны методы аппаратной реализации эффективного нейросетевого представления и обработки информации.

Структура и объем диссертации. Диссертация состоит из введения, шести глав, заключения и списка литературы, приложений. Работа содержит 256 страниц текста, список литературы включает 143 наименования.

Содержание работы.

Во введении дана общая характеристика работы, отмечена ее актуальность, научная новизна и практическая ценность. Приводится краткое описание работы по главам.

В первой главе изложена классификация и описание некоторых методов обработки информации различных модальностей. Рассмотрены существующие подходы к представлению и распознаванию речевой информации различных уровней, распознаванию зрительной информации, к обработке текстовой информации. А также рассмотрены вопросы представления и использования, для распознавания речи, изображений и анализа текстов, семантической и прагматической информации.

Показано, что внесение знаний в искусственно-интеллектуальные системы эффективно не моделированием отдельных интеллектуальных функций, а моделированием вычислительной среды, в которой решаются интеллектуальные задачи.

Интеллектуальными системами являются системы, реализующие интеллектуальные функции в рамках познавательного поведения: восприятие, обучение (формирование модели мира), мышление (использование модели для решения текущих задач), решение задач, прогнозирование и принятие решений, языковое поведение, и т.д. Следовательно, к интеллектуальным системам можно отнести информационные системы, компьютерные системы обработки естественного языка, в том числе, системы обработки текстов, в том числе, системы автоматического извлечения знаний из текстов, компьютерные системы интеллектуального анализа данных, в том числе, системы, основанные на нейросетевых технологиях: системы распознавания изображений, системы распознавания, анализа и синтеза речи. Некоторые из этих систем рассматриваются более подробно. В первую очередь, это системы распознавания речи, изображений и анализа текстовой информации.

Классификация существующих систем распознавания речи позволяет разбить их на два класса: (1) одноуровневые системы, распознающие речевые события с помощью так или иначе модифицированных правил Байеса (в том числе и реализованных на нейронных сетях); и (2) системы для структурной обработки, в том числе, использующие эмпирические лингвистические правила.

В настоящее время под системой распознавания речи понимается программно-аппаратный комплекс, решающий одну из ниже перечисленных задач.

Распознавание изолированных устно произносимых команд ограниченного словаря.

Распознавание слитной речи.

Понимание речи.

Обычно, системы распознавания речи имеют в своем составе следующие блоки и устройства: микрофон, блок преобразования акустического сигнала в цифровую форму, блок шумоочистки, блок формирования первичного описания, блок акустико-фонетического анализа, блоки обработки верхних уровней: морфологического, лексического, синтаксического, и т.д.

Акустический речевой сигнал, после его ввода в систему, оцифровывается, очищается от шумов, нормализуется по амплитуде и освобождается от коррелированной информации. Затем начинается сравнение его фрагментов со сформированными на этапе обучения эталонами разных уровней. Причем, сформированные на самом нижнем (акустико-фонетическом) уровне гипотезы – цепочки фонем (или любых других фонемоподобных элементов), на следующих уровнях сравниваются с эталонами поуровневых словарей. Например, с эталонами словаря корневых морфем – на нижнем уровне, на следующем уровне – с эталонами словаря слов, и т.д. Влияние более высоких уровней позволяет прекратить рост числа вероятных гипотез.

В случае решения простых задач распознавания, например, команд ограниченного словаря, используются чаще всего одноуровневые статистические подходы. При решении более сложных задач, например, распознавания ключевых слов в потоке слитной речи, требуется привлечение в рамках структурного подхода лингвистической информации всех уровней, от морфологического до синтаксического. А также экстралингвистической информации – семантической и прагматической.



Pages:   || 2 | 3 | 4 | 5 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.