авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |

Синтез информационной системы группировки многомерных данных с использованием кластерного анализа

-- [ Страница 1 ] --

111 На правах рукописи

Бояркин Михаил Игоревич

СИнтез информационной системы группировки многомерных данных с использованием кластерного анализа

Специальность 05.13.01 – Системный анализ, управление и обработка информации (промышленность)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Самара – 2008

Работа выполнена на кафедре «Автоматика и управление в технических системах» ГОУ ВПО «Самарский государственный технический университет».

Научный руководитель: – доктор технических наук Юдашкин Александр Анатольевич
Официальные оппоненты: – доктор технических наук, профессор Батищев Виталий Иванович – доктор технических наук Минаков Игорь Александрович
Ведущая организация: Учреждение Российской академии наук Институт систем обработки изображений РАН, г. Самара

Защита диссертации состоится 23 декабря 2008г. в 9 часов на заседании диссертационного совета Д 212.217.03 в Самарском государственном техническом университете по адресу: 443010, г. Самара, ул. Галактионовская, 141, ауд. 28.

С диссертацией можно ознакомиться в библиотеке Самарского государственного технического университета по адресу: 443100, г. Самара, ул. Первомайская, 18, корп. №1 и на официальном сайте www.samgtu.ru.

Отзывы на автореферат в двух экземплярах заверенные печатью просим направлять по адресу: 443100, г. Самара, ул. Молодогвардейская, 244, СамГТУ, Главный корпус, ученому секретарю диссертационного совета Д 212.217.03.

Автореферат разослан 21 ноября 2008г.

Ученый секретарь

диссертационного совета,

к.т.н., доцент Н.Г. Губанов

общая характеристика работы

Актуальность работы. В настоящее время, на фоне глобальной компьютеризации, возрастает значение различных информационных ресурсов и информационных потоков во всех областях человеческой деятельности и знания. На современных, эффективных и наукоемких производствах различные корпоративные среды, системы управления производством, и даже отдельные рабочие места, интегрируются в общее информационное пространство и обмениваются между собой большими объемами разнообразных данных. На фоне таких тенденций эффективность обработки информации перестает быть пассивной составляющей системы управления, и становиться одним из факторов, существенно влияющих на эффективность промышленного производства в целом.

Современные системы управления, все более активно используемые в последнее время на различных промышленных предприятиях, генерируют большие массивы данных с многомерной структурой, так называемых паттернов или образов. Данная ситуация касается не только всех этапов производства (контроль качества, протоколирование технологических процессов), но и деятельности по развитию промышленного предприятия, в том числе и конструкторской деятельности при создании новых материалов или видов производимой продукции. Вне зависимости от сферы применения, ценность подобной информации определяется возможностью эффективной работы с ней. Для результативной работы с такого рода информацией, она должна быть некоторым образом сгруппирована или классифицирована. Если информация упорядочена, то возможны ее анализ и обработка для решения прикладных задач. Нередко встречается ситуация, когда критерии группировки в подобных объемных выборках основаны на смысловом восприятии содержания образов. Данная информационная составляющая не может быть выражена явно при помощи цифрового или текстового описания, выделить и осознать ее способен лишь мозг человека. В контексте задачи группировки под критериями, в данном случае, понимается сходство смыслового содержания образов. Однако, человеческий труд, который нужно использовать для такой обработки данных, очень ресурсоемок, а объемы данных могут быть очень большими.





Системы управления базами данных, как штатные системы обработки и хранения информации, не годятся для решения подобной задачи, так как упомянутые критерии, основанные на смысловом восприятии содержания образов, не формализуемы в виде логических выражений и четких алгоритмических инструкций.

Модели распознавания образов способны, при правильной настройке, количественно учитывать подобные критерии. Однако, данные модели обладают сложным, практически не масштабируемым на промышленные объемы обрабатываемых данных, математическим аппаратом, и поэтому также не годятся для решения данной задачи.

Наибольший научно-практический интерес данная задача группировки многомерных данных представляет в условиях, приближенных к реальным:

  • обрабатываемая выборка данных имеет большой объем, который увеличивается за счет потока постоянно поступающей информации,
  • не существует заранее классифицированной обучающей выборки,
  • нет предварительной информации о границах, описании и даже количестве классов обрабатываемых многомерных данных.

Речь, в данном случае, идет о задаче классификации со схемой обучения без учителя. Решение подобных задач классификации невозможно без использования бурно развивающихся в последнее время методов кластерного анализа.

В этой связи, актуальными задачами являются: исследование методов кластерного анализа в приложении к решению задачи группировки больших массивов многомерных данных, непрерывно растущих по мере поступления новой информации; разработка и анализ методов количественной оценки уровня ассоциативного сходства многомерных данных; разработка интеллектуальной системы группировки больших массивов многомерных данных, на основе неформализуемых критериев ассоциативного сходства.

Цель работы. Основная цель диссертационной работы состоит в решении научно-технической задачи синтеза системы группировки больших массивов многомерных данных на основе критерия ассоциативного сходства смыслового содержания обрабатываемой информации. Синтезируемая система должна функционировать в условиях непрерывно растущего объема обрабатываемой выборки по мере поступления новых данных, а так же отсутствия обучающей классифицированной выборки и информации о границах и количестве классов многомерных данных.

Для достижения поставленной цели в работе решаются следующие задачи:

  • исследование и анализ существующих методов кластерного анализа;
  • обоснованный выбор моделей кластеризации многомерных векторов, в условиях растущего объема обрабатываемых данных;
  • разработка и анализ метода количественной оценки уровня ассоциативного сходства многомерных данных;
  • разработка модели кластеризации многомерных данных на основе неформализуемого критерия ассоциативного сходства смыслового содержания обрабатываемой информации;
  • разработка вычислительных алгоритмов специального математического и программного обеспечения для автоматизированной группировки специализированных многомерных данных на основе критерия ассоциативного сходства смыслового содержания обрабатываемой информации;
  • анализ и обоснование достоверности полученных результатов.

Методы исследования. Для решения поставленных задач использовались методы системного анализа, включающие методы качественного анализа обыкновенных дифференциальных уравнений, методы статистической обработки данных, методы кластерного анализа и аппарат линейной алгебры. Исследование качества работы разработанных моделей проведено на основе методов теории вероятностей и математической статистики. Для синтеза и анализа системы группировки специализированных многомерных данных использовался пакет инженерных вычислений Matlab®.

Научная новизна.

В диссертации получены следующие основные научные результаты:

  • впервые синтезирована система на основе нового метода совместного использования модели последовательной кластеризации и динамической самоорганизующейся модели распознавания образов. Система выполняет классификацию больших объемов многомерных данных на основе критерия ассоциативного сходства смыслового содержания обрабатываемой информации;
  • предложена форма меры близости в модели кластеризации, зависящей от топологических свойств фазового пространства динамической системы распознавания образов.
    Функция меры близости позволяет количественно оценивать уровень ассоциативного сходства смыслового содержания данных с существенно меньшим объемом вычислений, по сравнению с существующими моделями распознавания образов;
  • предложена и исследована математическая модель кластеризации данных с многомерной структурой, позволяющей, в отличие от классических моделей кластеризации, учитывать уровень ассоциативного сходства смыслового содержания данных на большом объеме обрабатываемой выборки, растущей по мере поступления новой информации.

Практическая полезность работы. Прикладная значимость проведенных исследований определяется следующими результатами:

  • предложенный в диссертации метод совместного использования модели последовательной кластеризации и динамической самоорганизующейся модели распознавания образов, позволяет синтезировать для производственных задач автоматизированные системы группировки промышленных объемов многомерных данных, на основе неформализуемых критериев ассоциативного сходства смыслового содержания данных;
  • разработан алгоритм индексации графической информации с учетом критерия визуального сходства изображений. Показана эффективность работы алгоритма индексации, выполняющего качественную классификацию графической информации со значительно меньшими затратами вычислительных ресурсов по сравнению с системами распознавания образов. Алгоритм использован в виде компонентов автоматизированной системы индексации и поиска графической информации;

Реализация результатов работы. Результаты диссертационных исследований использованы при разработке автоматизированной системы индексации больших массивов графических данных с учетом критерия визуального сходства изображений с данными, поступающими в режиме реального времени, в конструкторском отделе промышленного предприятия ООО «Эллипс» (г. Самара), а также в учебном процессе подготовки магистрантов по направлению 22.00.00 «Автоматика и управление» в дисциплинах «Интеллектуальные технологии в системах управления» и «Системное моделирование» в ГОУ ВПО «Самарский государственный технический университет».

Апробация работы. Основные положения и результаты работы докладывались и обсуждались на XXXI Самарской областной научной конференции (Самара, 2005); II Всероссийской научной конференции «Математическое моделирование и краевые задачи» (Самара, 2005); V Всероссийской межвузовской конференции «Практика применения научного программного обеспечения в образовании и исследованиях» (Санкт-Петербург, 2007); VI Всероссийской научно-технической конференции «Научное программное обеспечение в образовании и научных исследованиях» (Санкт-Петербург, 2008); X Международной конференции «Проблемы управления и моделирования в сложных системах» (Самара, 2008). Работа поддержана грантом РФФИ по проекту 07-08-00401-а.

Публикации. По теме диссертации опубликовано 9 печатных работ.

Структура и объем работы. Диссертация состоит из введения, четырех глав и заключения, изложенных на 115 страницах машинописного текста, содержит 21 рисунок, 1 таблицу, список литературы из 80 наименований и 2 приложения.

Основные положения, выносимые на защиту:

  • Метод совместного использования модели последовательной кластеризации и динамической самоорганизующейся модели распознавания образов, ориентированный на решение задачи синтеза алгоритмов группировки больших массивов многомерных данных на основе неформализуемых критериев ассоциативного сходства смыслового содержания данных.
  • Форма меры близости в модели кластеризации, зависящей от топологических свойств фазового пространства динамической системы распознавания образов.
  • Математическая модель и алгоритм последовательной кластеризации больших массивов многомерных данных на основе неформализуемого критерия ассоциативного сходства смыслового содержания данных.
  • Программное обеспечение индексации и поиска графической информации использующее алгоритм группировки многомерных данных с учетом критерия ассоциативного сходства смыслового содержания данных.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении показана актуальность темы, сформулирована цель работы, её научная новизна и практическая полезность.

В первой главе приведен обзор работ, посвященных методам решения задач классификации со схемой обучения без учителя – методам теории кластерного анализа. Выполнен анализ специфики задачи группировки больших объемов многомерных данных на основе критерия ассоциативного сходства. Сделан обоснованный выбор методов теории кластерного анализа для решения данной задачи, а также, показана необходимость коренной модификации данных методов.

Кластерный анализ – методика исследования данных при помощи разбиения заданной выборки объектов на непересекающиеся подмножества, называемые кластерами, так, чтобы каждый кластер состоял из «схожих» объектов, а объекты разных кластеров существенно отличались. Математическая модель кластеризации непосредственно работает с векторами различных свойств или признаков кластеризуемых объектов, для данных векторов в теории кластерного анализа используется название «образ». Центральное понятие кластерного анализа - кластеры можно определить как «замкнутые области в пространстве образов с относительно высокой плотностью точек, разделенные друг с другом областями с относительно низкой плотностью точек».

В процедуре кластерного анализа данных существует ряд основных этапов-составляющих:

  1. Выбор учитываемых свойств кластеризуемых объектов. Основная цель этого этапа – правильный выбор признаков и избегание избыточности данных. Набор выбранных признаков должен достаточно полно характеризовать объект с интересующей исследователя точки зрения.
  2. Выбор меры «близости». Мера близости – это функция, которая количественно определяет насколько «схожи» или «различны» два образа.
  3. Алгоритм кластеризации – некоторая алгоритмическая схема, которая в совокупности с мерой различия и критерием кластеризации, выявляет кластерную структуру данных в пространстве учитываемых признаков образа.
  4. Контроль правильности результатов кластеризации – проверка корректности разбиения выборки образов на кластеры. То есть, установление факта адекватности результата и его соответствия исходным ожиданиям исследователя.
  5. Интерпретация результатов. Итоговая задача исследователя, это интегрировать полученные результаты кластеризации с другими имеющимися сведениями, сделать правильные и полезные выводы с учетом природы данных.

Основным функциональным ядром данной процедуры является модель кластеризации образов, которая формируется на основе выбора свойств составляющих образы, меры и алгоритмической схемы. Модель кластеризации непосредственно решает задачу разбиения заданной выборки образов на кластеры в пространстве выбранных признаков. Неудачный выбор учитываемых свойств, функции меры различия или алгоритмической схемы, может вызвать отсутствие положительного или ожидаемого результата кластеризации. Поэтому, данная работа должна выполняться экспертом в прикладной области, с учетом природы исходных данных и специфики решаемой задачи. Специфика поставленной задачи группировки многомерных данных так же накладывает некоторые ограничение на выбор элементов модели кластеризации.

Первой важной особенностью, в данном случае, является большой объем кластеризуемых образов. И без того большой объем, может продолжать постоянно увеличиваться за счет непрекращающегося потока данных, что не влияет на необходимость актуальной кластерной структуры образов в любой момент времени, то есть обработка должна выполняться в режиме реального времени. По этим причинам использование методов, связанных с жестким ограничением количества кластеров, невозможно. То же самое касается методов, в которых изменение объема кластеризуемых образов ведет к полному пересчету всей кластерной структуры. Исходя из количественных особенностей исходной выборки кластеризуемых образов, можно сделать вывод, что для решения поставленной задачи лучше всего подходит использование последовательных алгоритмических схем кластеризации, обладающих всеми необходимыми свойствами.

Другой важной особенностью является неформализуемость критерия кластеризации, основанном на сходстве смыслового содержания образов. Использование классических подходов для определения меры близости, являющейся ключевым классифицирующим элементом, не позволяет производить оценку контекстно-ассоциативного сходства смыслового содержания образов. Однако, универсальная модульная структура кластерного анализа позволяет ввести на уровне алгоритма методы и модели для корректировки работы кластеризации, в необходимом для решения задачи ключе.

Работу по распознаванию образов хорошо выполняют сложные автоматизированные системы на основе интеллектуальных обучающихся моделей классификации. Широко распространенными моделями такого типа являются активно развивающиеся искусственные нейронные сети.

В данной работе, впервые принято решение о совместном использовании модели последовательной кластеризации и динамической модели распознавания образов. Более конкретно, данное совместное использование подразумевает ведение в модель кластеризации, в качестве элемента, некоторой нейронной сети, которая, в отличие от классической меры близости, способна оценивать ассоциативное сходство смыслового содержания образов. При помощи последовательной схемы кластеризации, в данном случае, происходит предварительная фильтрация кластеров, в которые может попасть классифицируемый образ. Далее, при помощи механизма распознавания модели нейронной сети, происходит поиск наиболее подходящего кластера для образа в значительно более суженной области кластерной структуры. Данный подход позволяет эффективно учитывать неформализуемые критерии на основе ассоциативного сходства образов только на завершающих этапах классификации образа, без масштабирования довольно требовательной в вычислительном плане нейронной сети на всю исходную выборку образов. Модель нейронной сети должна обладать свойствами быстрого обучения и распознавания, чтобы существенно не снижать эффективность алгоритма кластеризации. Модель нейронной сети Хакена обладает всеми нужными качествами.



Pages:   || 2 | 3 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.