авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |

Математическое и программное обеспечение распознавания многоэлементных зрительных сцен с использованием иерархических нейронных сетей

-- [ Страница 1 ] --

На правах рукописи

АКСЁНОВ Сергей Владимирович

МАТЕМАТИЧЕСКОЕ И ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ РАСПОЗНАВАНИЯ МНОГОЭЛЕМЕНТНЫХ ЗРИТЕЛЬНЫХ СЦЕН С ИСПОЛЬЗОВАНИЕМ ИЕРАРХИЧЕСКИХ НЕЙРОННЫХ СЕТЕЙ

Специальность: 05.13.11 – «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Томск 2008

Работа выполнена в государственном образовательном учреждении высшего профессионального образования Томский политехнический университет

Научный руководитель: НОВОСЕЛЬЦЕВ Виталий Борисович, доктор физико-математических наук, доцент

Официальные оппоненты: МАТРОСОВА Анжела Юрьевна,

доктор технических наук, профессор

КОРИКОВ Анатолий Михайлович, доктор технических наук, профессор

Ведущая организация: Алтайский государственный университет, г.Барнаул

Защита состоится «29» декабря 2008 г. в 14:30 на заседании совета по защите докторских и кандидатских диссертаций Д212.269.06 при Т омском политехническом университете по адресу: 634034, Томск, ул.Советская, 84, Институт «Кибернетический центр» ТПУ.

С диссертацией можно ознакомиться в научной библиотеке Томского политехнического университета по адресу: 634050, г.Томск, ул.Белинского, 55.

Автореферат разослан «28» ноября 2008г.

Ученый секретарь

совета по защите докторских

и кандидатских диссертаций

к.т.н., доцент М.А.Сонькин

1.ОБЩАЯ ХАРАКТЕРИСТИКА ДИССЕРТАЦИИ

Актуальность темы

Существующие в настоящее время системы распознавания на базе искусственных нейронных сетей (ИНС) обладают значительным количеством недостатков. При разработке комплексов, решающих проблему интерпретации изображений, особый упор делается на узнавание определенных групп образов. Таких примеров, достаточно много. Однако, поиск в доступных источниках информации о системах, способных к саморазвитию (к «расширению кругозора»), приводит к крайне скудным результатам. Это объясняется высокой сложностью проектирования и реализации проектов такого класса. Ведь на самом деле реальный процесс распознавания, протекающий в самой совершенной системе анализа – человеческом мозге, не состоит только в том, чтобы проверить сходство анализируемого объекта с запомненным эталоном. Это достаточно сложное взаимодействие между различными подсистемами мозга. Ошибочно также считать, что сигналы от сетчатки до терминальных корковых центров, принимающих решение, распространяются прямолинейно. Распознавание – это итеративный процесс, в котором до принятия окончательного решения не только входной образ сравниваются с эталоном, но и генерируются гипотезы по классификации объекта. Столкновение соответствующих потоков нейронных импульсов приводит к дальнейшему уточнению характеристик образа, до тех пор, пока не произойдет согласования между двумя потоками.



Достаточно часто в процессе классификации случается так, что наш мозг не содержит точного представления эталона, однако это не мешает ему правильно найти результат. Другим немаловажным аспектом является выделение существенных фрагментов сцены для их интерпретации, т.е. должна производиться селекция образов, расположенных на сцене. В противном случае, анализируется вся сцена, со всеми вытекающими последствиями полного перебора пространства решений. Существующие реализации таких комплексов в качестве входных данных требуют практически полностью очищенные от шумов сцены, а при даже незначительных зашумлениях дают неверные результаты.

Таким образом, актуальность исследований обосновывается необходимостью разработки математического аппарата новых программных архитектур, алгоритмов функционирования и обучения ИНС для обеспечения более надежных результатов распознавания сложных объектов, находящихся на произвольном фоне. При этом основные усилия направлены на разработку интеллектуальной составляющей иерархической ИНС, позволяющей программному комплексу анализировать только существенные компоненты входного вектора.

Теоретико-методологической основой диссертационной работы явились исследования в области компьютерного зрения, нашедшие отражение в трудах Хьюбела Д., Визела Т., Фукушимы К., Гроссберга С., ЛеКуна Й., Ризенхубера М., Поггио Т., Карпентер Г.А., Ли Ж., Цоцос Д.К., Итти Л., Бейнке С.

Целью является разработка математической модели иерархической ИНС и программной реализации для решения задач распознавания образов, сгруппированных в произвольную сцену.

В связи с этим в диссертационной работе решаются следующие задачи:

1. Разработка математического описания архитектуры иерархической ИНС, позволяющей представить образ объекта из сцены на разных уровнях обобщенности.

2. Проектирование алгоритма настройки подсистемы распознавания иерархической ИНС.

3. Разработка механизма совместного функционирования подсистем внимания и распознавания.

4. Программная реализация разработанных алгоритмов настройки и функционирования иерархической ИНС.

Методы исследования

В работе использован инструментарий теории алгоритмов, методы объектно-ориентированного проектирования и программирования, теории нелинейной оптимизации, теории распознавания образов, теории функционирования биологических нейронных систем.

Научная новизна

  • Разработана математическая модель системы распознавания связанных фрагментов образов на основе взаимодействия подсистем внимания и распознавания.
  • Предложен оригинальный алгоритм настройки иерархической ИНС с использованием механизмов обучения с учителем и без учителя.
  • Разработан алгоритм функционирования иерархической ИНС, фокусирующийся на значимых характеристиках образа.
  • Предложен алгоритм выделения контрастных связанных фрагментов сцен на базе процессов сегментации и восходящего внимания.
  • Реализован программный комплекс, выполняющий поиск существенных фрагментов сцены с их последующим анализом.

Практическая ценность работы заключается в следующем:

  • Предложенные математические модели и алгоритмы обработки визуальной информации для анализа сцен позволяют эффективно решать задачи распознавания зашумленных образов, расположенных на сложном фоне. Предложен более эффективный по сравнению с существующими моделями иерархических нейронных сетей способ определения класса объекта, расположенного на сцене. Разработанные алгоритмы и их программная реализация внедрены в Научно-исследовательском институте оптики и атмосферы СО РАН.
  • Разработанная автором подсистема внимания позволяет оптимизировать вычислительные ресурсы, направив их исключительно на анализ существенных фрагментов сцены.
  • Предложенный в работе механизм взаимодействия подсистем внимания и распознавания может использоваться отдельно от всего комплекса сторонними разработчиками в собственных исследованиях обработки визуализированных сцен.
  • Отдельные модули разработанного программного комплекса имеют самостоятельное значение и могут использоваться в автономном режиме, что делает данный комплекс (подход) универсальным инструментом построения архитектур и обучения нейронных сетей для решения различных прикладных задач нейрокомпьютинга, таких как классификация, кластеризация, аппроксимация и управление.

Апробация работ

Результаты работы докладывались на: III Всероссийской научно-практической конференции «Научная сессия ТУСУР–2004». – Томск, 2004; VI Всероссийской конференции «Молодежь и современные информационные технологии». – Томск, 2006; V Всероссийской научно-практической конференции студентов, аспирантов и молодых ученых.

«Молодежь и современные информационные технологии». – Томск, 2007; XLV Международной научной студенческой конференции "Студент и научно-технический прогресс". – Новосибирск, 2007; XIII Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». – Томск, 2007; VI Всероссийской научно-практической конференции «Инновационные недра Кузбасса. IT-технологии». – Кемерово, 2007; VI Всероссийской конференции «Молодежь и современные информационные технологии». – Томск, 2008; Всероссийской конференции «Информационные технологии в авиационной и космической технике 2008». – Москва, 2008; XLVI Международной научной студенческой конференции «Студент и научно-технический прогресс». – Новосибирск, 2008; XIII Всероссийской научно-технической конференции «Новые информационные технологии в научных исследованиях и образовании». – Рязань, 2008; III Международной научно-технической конференции «Инфокоммуникационные технологии в науке, производстве и образовании». – Кисловодск, 2008; XV Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов», – Москва, 2008; Всероссийская научно-практическая конференция Информационные технологии в профессиональной деятельности и научной работе – Йошкар-Ола, 2008; XIV Международной научно-практической конференции студентов и молодых ученых «Современные техника и технологии». – Томск, 2008.

Основные положения, выносимые на защиту

  1. Математическая модель иерархической ИНС для анализа сложных изображений, учитывающая взаимодействие процессов фиксации внимания и собственно распознавания.
  2. Алгоритмы обучения и функционирования иерархической ИНС предложенной структуры.
  3. Алгоритм выделения значимых фрагментов сцены подсистемой внимания.
  4. Программная реализация интерпретации сцен на базе взаимодействия подсистем внимания и распознавания.

Публикации

Основные положения диссертационной работы изложены в 14 работах, в том числе 1 монография. Монография награждена дипломом Всероссийского конкурса Фонда развития отечественного образования «За лучшую научную книгу 2006 года». Личный вклад автора в каждой работе составляет 50%100%.

Личный вклад автора

Основные результаты диссертационной работы получены автором лично. Программный комплекс «HNNМeister 1.0» для проектирования архитектур, настройки и использования иерархических нейронных сетей разработан автором лично.

Внедрение результатов

Результаты работы используются в учебном процессе на кафедре Оптимизации систем управления ТПУ, на кафедре Программирования ТГУ, внедрены в Институте оптики атмосферы СО РАН (г.Томск).

Структура и объем диссертации

Диссертация состоит из введения, четырех глав, заключения, списка литературы (136 источников). Материал изложен на 154 страницах, содержит 10 таблиц, 57 рисунков.

2. СОДЕРЖАНИЕ ДИССЕРТАЦИИ

Во введении обосновывается актуальность темы диссертационной работы, определяются предмет и цели исследования, формулируются задачи исследования, а также указываются возможные варианты использования полученных результатов.

В первой главе систематизированы распространенные подходы и методы нейрокомпьютерных вычислений, применяемые для обработки изображений. Представлен достаточно полный, на наш взгляд, аналитический обзор современных направлений исследований в области нейросетевого зрения.

Современная теория нейросетевых вычислений предлагает большое число моделей и алгоритмов НС, в той или иной степени позволяющих распознать образ на сцене. Однако большинство моделей имели значительные ограничения к представлению образа. Другими словами, такие системы могли выполнить распознавание только при условии минимальных шумов, отсутствии трансформации анализируемого объекта, расположенного на «белой» сцене. Кроме этого, образ требовал определенного масштабирования. В конечном счете, подобные ограничения привели к сужению области распространения таких систем. Как показано в материалах главы, для создания систем, обладающих большими возможностями, потребовалось ввести определенную специализацию частей ИНС, задать соответствующую архитектуру, увеличить количество типов нейронов и синаптических связей, используемых внутри модели. Ввиду такого усложнения большинство исследователей сосредоточили свои усилия в относительно узких областях теории распознавания, таких как анализ рецептивных полей или конкурентное взаимодействие нейронов. Однако исследования, ставившие своей целью конструирование универсальной системы распознавания объектов, в результате создали огромные и в значительной степени избыточные архитектуры ИНС. Процесс анализа образа происходил большей частью перебором множества комбинаций соседних нейронов. Таким образом, к главным недостаткам существующих подходов можно отнести отсутствие интеллектуализации (направленного и осмысленного поиска) моделей. Другой недостаток – неассоциативный характер хранения образов, что самым негативным образом сказывается на распознавании.





Исходя из анализа доступных источников, сделано заключение, что предпринимаемые попытки осознать процесс распознавания являются скорее количественным, чем качественным путем решения.

Во второй главе рассматривается предлагаемая математическая модель подсистемы распознавания для выделения существенных фрагментов сцен. Составляющая ядро модели иерархическая ИНС, уровни которой представлены на рис.1, состоит из нескольких слоев, каждый из которых включает группу двумерных плоскостей нейронов. Нейроны, образующие плоскости в слоях, будем называть клетками характеристик (или свойств).

Рис. 1. Уровни иерархической ИНС

Предлагаемое представление дает возможность анализа фрагмента на нескольких уровнях абстракции. С повышением уровня происходит увеличение числа плоскостей с одновременным уменьшением пространственного разрешения. Предложенная организация нейронов в двумерные плоскости в первых трех уровнях, изображенных на рис. 1., и MAX-слоях (дополнительный подуровень в слоях простых и сложных локальных ориентаций), мотивируется тем, что близкорасположенные фрагменты коррелируют в большей степени, нежели более удаленные друг от друга области. Информация о базовых функциях, реализуемых на каждом уровне, приведена в табл. 1.

Клетки простых локальных ориентаций, или S-клетки, (фрагментов прямых линий) обладают рецептивным полем переменного размера, что позволяет выполнить нормирование образа для последующих уровней ИНС и обеспечить в определенной степени инвариантность к масштабированию образов. Расположение нейронов с рецептивным полем переменного размера внутри слоёв простых и сложных характеристик позволяет решить две задачи: во-первых, производится оценка входного вектора нейронами, обладающими различными рецептивными полями, и, во-вторых, плоскости одного слоя включаются в латеральное соревнование. Последнее позволяет более точно определить клетки ИНС с синаптическими соединениями, настроенными на соответствующие компоненты, попавшие в рецептивное поле.

Табл.1. Функции уровней иерархической ИНС

Наименование уровня Функции
Рецептивный уровень Получение фрагмента сцены и хранение его полутонового представления
Слой простых локальных ориентаций Выделение простых локальных ориентаций посредством рецептивных полей на базе дифференциального фильтра Гаусса или фильтра Габора
MAX-слой Нахождение максимального выхода нейронов, расположенных на одной позиции в разных плоскостях, с одинаковой ориентированностью, но обладающих разной толщиной
Слой сложных характеристик Выделение сложных характеристик образа с помощью комбинации простых характеристик предыдущего этапа
Ассоциативная среда Управление генерацией гипотез о природе образа
Уровень видонастра-иваемых клеток Представление образов, основанное на их визуальных характеристиках
Уровень восприятия классов Представление классов образов


Pages:   || 2 | 3 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.