авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 | 3 | 4 | 5 |   ...   | 6 |

Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования

-- [ Страница 1 ] --


На правах рукописи

НАЙХАНОВА ЛАРИСА ВЛАДИМИРОВНА

МЕТОДЫ И МОДЕЛИ

АВТОМАТИЧЕСКОГО ПОСТРОЕНИЯ ОНТОЛОГИЙ НА ОСНОВЕ ГЕНЕТИЧЕСКОГО И АВТОМАТНОГО ПРОГРАММИРОВАНИЯ

Специальность 05.13.11 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей»

Автореферат

диссертации на соискание ученой степени

доктора технических наук


Красноярск – 2008

Работа выполнена в Восточно-Сибирском государственном

технологическом университете

Официальные оппоненты: доктор физико-математических наук, профессор

Пальчунов Дмитрий Евгеньевич

доктор технических наук, профессор

Шалыто Анатолий Абрамович

доктор технических наук, профессор

Доррер Георгий Алексеевич

Ведущая организация: Таганрогский технологический институт ФГОУ ВПО «Южный федеральный университет»

Защита состоится 26 марта 2009 года в 14:00 на заседании диссертационного совета ДМ 212.098.05 при Сибирском федеральном университете по адресу: ул. академика Киренского, 26, Красноярск, 660074, ауд. УЛК 1-15.

С диссертацией можно ознакомиться в библиотеке Сибирского федерального университета по адресу: Киренского, 26, Красноярск, 660074, ауд.Г 2-74.

Автореферат разослан

Учёный секретарь
диссертационного совета
к.т.н. Е.А.Вейсов

Общая характеристика диссертации

Актуальность исследования. Понятие онтологии, заимствованное из философии (введено немецким философом R. Goclenius), в настоящее время активно используется в искусственном интеллекте и информатике. Все больше интеллектуальных задач, связанных с обработкой знаний, решаются с применением онтологий. В недалекой перспективе онтологии будут использоваться при решении очень многих задач.

Самым распространенным определением онтологии на данный момент является определение T.R. Gruber, согласно которому онтология является точной спецификацией концептуализации. С этой точки зрения для каждой из баз данных, или баз знаний, или систем, основанных на знаниях, или агентов знаний должны быть построены спецификации, основанные на некоторой концептуализации. Множества объектов и отношений между ними должны быть описаны в некотором словаре, в котором система, основанная на знаниях, представляет свои знания.

На сегодняшний день известен ряд зарубежных и отечественных систем (Ontolingua и Protg – разработки Стенфордского университета, OntoEdit – разработка университета Karlsruhe, OilEd – разработка Манчестерского университета, ВИКОНТ – разработка Санкт-Петербургского института высокопроизводительных вычислений и баз данных, Web-Deso – разработка Санкт-Петербургского института информатики и автоматизации РАН и др.), предназначенных для построения онтологий. В основе этих систем находятся различные формализмы описания знаний, разнообразные модели понятий и отношений, разные методы обработки знаний. В качестве формализма используется, в основном, логика предикатов первого порядка. Нередко встречаются в данной роли объектно-ориентированные сети ограничений, Description Logic, ОКВС-совместимая или RDF-совместимая фреймовая модель знаний. Понятия и отношения моделируются, как правило, в виде таксономии. Для объединения онтологий применяются методы интеграции и соединения.

К настоящему времени на основе этих и других систем созданы различные онтологии, многие из которых размещены в сети Интернет. В России к наиболее известным и качественным онтологиям можно отнести лингвистическую онтологию по естественным наукам и технологиям, многоуровневую онтологию химии, онтологию по медицинской диагностике и другие.

Анализ существующих методик и методологий построения онтологий показал, что процесс разработки онтологии включает следующие обязательные стадии: спецификации, концептуализации, формализации, объединения и реализации. Известно, что в основе концептуализации лежат некоторые категории абстракций, которые, по мнению ряда исследователей, носят субъективный характер, и каждая онтология обладает собственными категориями абстракций. Именно по этой причине разработка онтологии верхнего уровня является серьезной проблемой, решение которой пока не найдено. Все наиболее известные методологии создания онтологий объединяет то, что описание общих понятий, отношений между ними и утверждений при создании онтологии выполняется в интерактивном режиме с привлечением ручного труда экспертов. Более эффективное автоматическое построение онтологий основано на использовании методов искусственного интеллекта, способных извлекать из текста элементы знаний и нетривиально их перерабатывать.

В настоящее время методы автоматического построения онтологий развиваются недостаточно быстро, что обусловлено двумя факторами: слабым распространением систем лингвистического анализа текста, способных интерпретировать семантические отношения между словами, и относительно низкой достоверностью автоматически извлекаемых из текста утверждений и фактов, что обусловливается как несовершенством алгоритмов анализа текста, так и качеством источников информации.

Естественно, что любая научная дисциплина постепенно вырабатывает свои основные положения, понятия и средства их наименования. Результатом их анализа, состоящем в выявлении терминологии, её упорядочении, доведении до уровня, делающего эту терминологию доступной для освоения людьми, желающими приобрести соответствующие профессиональные знания, являются терминологические словари, которые и должны быть источниками знаний при формировании ядра онтологии. А извлечение знаний из научных текстов позволит расширить это ядро.

Выполненный обзор технологий, методов и средств автоматического создания онтологий актуализирует необходимость разработки методов автоматического построения онтологий.

В настоящее время достаточно широко используются технологии генетического и автоматного программирования, позволяющие максимально возможно автоматизировать процесс создания программного обеспечения. Надо отметить, что среди отечественных ученых в развитие данного направления исследований большой вклад внес А.А. Шалыто.

Таким образом, существует техническая проблема, заключающаяся в разработке технологии создания методов автоматического построения онтологий, позволяющей сформировать библиотеку методов, которую достаточно просто развивать и совершенствовать. Решение данной проблемы позволит в автоматическом режиме извлекать знания о терминах и отношениях между ними из терминологических словарей и научных текстов, что повысит эффективность построения онтологий.

Научная проблема заключается в разработке теоретических основ для решения технической проблемы. Разработка теоретических основ состоит в создании моделей и методов, необходимых для автоматического построения онтологий.

Работы исследователей в области автоматического построения онтологий частично решают научную проблему. В проекте «Система ONTOGRID для построения онтологий», выполняемая под руководством Н.Г. Загоруйко, реализованы: морфологическая база русского языка; блоки морфологического и статистического анализа; программы выделения устойчивых словосочетаний в тексте и выявления аномалий в позиционном распределении лексем по тексту, построение семантических сетей текстовых документов, которое выполняется в полуавтоматическом режиме.

Настоящая работа более близка к этой работе, так как предлагаемые методы построения онтологий основаны на естественно-языковой обработке научного текста, в которую также включены наряду с другими методами методы морфологического и статистического анализов, выделения устойчивых словосочетаний. Существенным отличием настоящей работы является разработка методов автоматического построения онтологий в виде систем продукций и применении генетического и автоматного программирования для создания требуемых моделей.

Объект исследований – естественно-языковая обработка научных текстов для построения онтологий.

Предмет исследований – методы и модели автоматического построения онтологий.

Целью работы является разработка и исследование методов и моделей автоматического построения онтологий, позволяющих ускорить процесс создания онтологий и повысить их качество.

Для достижения поставленной цели в работе решаются следующие задачи:

1. Обзор и анализ существующих решений в области автоматического построения онтологий.

2. Разработка категориального аппарата, как результата концептуализации знаний онтологий, на основе исследования языка научного текста и семиотического моделирования.

3. Разработка декларативных методов построения онтологий с использованием продукционной модели знаний.

4. Разработка и исследование модели генерации систем продукций на основе генетического программирования.

5. Разработка и исследование модели генерации преобразователя продукционных правил с применением генетического и автоматного программирования.

6. Разработка и исследование модели аппарата активации, как модуля управления продукционными знаниями, с применением генетического и автоматного программирования.

7. Апробация разработанных моделей и методов.

Основная идея диссертации. В основе автоматического построения онтологий находится естественно-языковая обработка научного текста, в большей мере связанная с методами извлечения и представления знаний. Однако такие методы невозможно построить без понимания того, какими именно знаниями необходимо оперировать. В связи с этим необходимо заранее решить, какой подход будет использован при концептуализации онтологии. Концептуализация, обеспечивая структурирование предметных знаний в рамках эксплицитной модели, предопределяет задачу построения категориального аппарата онтологии. При решении данной задачи выполняется классификация понятий и отношений между ними, которая чётко определяет семантику компонентов онтологии и возможные диагностические семантические конструкции, позволяющие в итоге извлечь знания из предложений научного текста. Компоненты онтологии и семантические конструкции, в свою очередь, оказывают значительное влияние не только на содержание методов извлечения и представления знаний, но и на принципы их построения.

Анализ трудов в области естественно-языковой обработки научного текста выявил существенное преобладание использования различных правил при решении задач в данной области. Этот факт и декларативный характер представления методов автоматического построения онтологий обуславливают применение систем продукций в качестве модели представления знаний о методе. Вместе с тем, продукционная модель имеет одно отрицательное качество, связанное с тем, что в истории использования продукций они всегда создавались экспертами. Однако известен, по крайней мере, один случай, когда правила создавались на основе генерации методами эволюционных вычислений. В связи с этим при разработке методов построения онтологий необходимо исследовать вопросы генерации систем продукционных правил на основе применения технологий генетического программирования.

Такой подход к созданию систем продукций как методов построения онтологий обуславливает решение задач, связанных с преобразованием продукционных правил в формальный вид и последующим определением их корректности. Достаточно распространенное применение симбиоза технологий генетического и автоматного программирования для создания систем со сложным поведением при решении широкого спектра задач определяет направление исследований, связанное с разработкой моделей преобразователя и аппарата активации продукций.

Таким образом, для создания методов автоматического построения онтологий необходимо разработать модель генерации систем продукций на основе применения генетического программирования, модель генерации преобразователей на основе генетического и автоматного программирования, модель генерации систем логического вывода на основе генетического и автоматного программирования и модель аппарата активации продукций на основе применения автоматного программирования. Аппарат активации может быть использован как для проверки систем продукций на корректность, так и для функционирования в реальном режиме. Предложенная технология обеспечит наиболее доступное совершенствование разработанных методов и моделей, что очень важно для новых направлений исследований, к которым относятся и исследования, связанные с созданием онтологий.

Методы исследований. Методологической и теоретической основой выполненного исследования послужили положения теории искусственного интеллекта, логики предикатов первого порядка, нечеткой логики, семиотического и ситуационного моделирования, генетического программирования, формальных грамматик и автоматов, математической лингвистики.

Для исследования понятий и отношений использованы методы анализа естественно-языковых текстов, рассмотренные в работах N.Chomsky, I.Dalberg, W. Humboldt, C.Fillmore, R.Schank, Н.Д.Арутюновой, Л.А.Беловольской, А.А.Залевской, С.Е.Никитиной, Ю.С.Степанова, В.А.Тузова и других. Построение методов извлечения и представления знаний базировалось на трудах M.Minsky, В.Н.Вагина, Е.П.Куршева, Г.С.Осипова, Д.А.Поспелова, В.Ф.Хорошевского и других. Моделирование понятий и отношений в виде сети знаков-фреймов базируется на применении аппарата семиотического моделирования как одного из наиболее приемлемых для символьной системы моделирования. Для логического вывода на ядрах классических продукций применяется эвристический метод линейной резолюции Д.Лавленда, Р.Ковальского и Д.Кюнера; для логического нечеткого вывода на ядрах нечетких продукций – метод нечеткого регулирования А.Kaufmann, E.Mamdani, L.A.Zadeh. Создание методов построения онтологии базировалось на трудах И.Л.Артемьевой, Т.А.Гавриловой, Б.В. Доброва, А.Е.Ермакова, Н.Г.Загоруйко, Ю.А.Загорулько, А.С.Клещева, Н.В.Лукашевич, А.С. Нариньяни, В.Ш. Рубашкина, А.В.Смирнова, В.Ф.Хорошевского, T.R.Gruber, N.Guarino, J.F.Sowa, M.Uschold, B.J.Wielinga и многих других. Построение моделей генераторов систем продукций и модели преобразователя основывалось на трудах М.Л.Кричевского, В.М.Курейчика, В.В.Курейчика, Л.Д.Гладкова, А.А.Шалыто, J.Holland, D.Goldberg, J.Koza, M.A.Lankhorst, S.M.Lucas, А.Naidoo и других.

Научная новизна. Научная новизна работы заключается в развитии теоретических основ проектирования и разработки технологии создания методов автоматического построения онтологий с применением генетического и автоматного программирования, что позволило автоматизировать процесс создания программного обеспечения. Данное утверждение формируется из следующих положений.

1. Новизна разработанных методов создания онтологий в виде классических и нечетких систем продукций заключается в развитии методов извлечения знаний о терминах и семантических отношениях между ними, построения семантической сети знаков-фреймов и соединения онтологий, которое состоит в уточнении представления ядра продукционного правила за счет использования простой ядерной конструкции языка ситуационного моделирования и в структуризации компонентов простой ядерной конструкции, что позволило выделить динамическую часть, содержание которой зависит от конкретного метода, и статическую часть – одинаковую для всех методов. Такой способ построения методов обеспечивает возможность их автоматической генерации.

2. Новизна предложенной модели генерации систем продукций заключается в том, что в ней с одной стороны, продукция как любое выражение представляется в виде дерева. С другой стороны, конструктивные знания эксперта, выявленные на основе анализа научного текста и разработанных методов, формализованы в виде конструкций и тоже представлены деревьями. Это определило структуру хромосомы и Fitness-функцию, что позволило применить генетическое программирование для генерации систем продукций. Разработанный генетический алгоритм обладает свойством универсальности по отношению к методу, настраиваясь на него посредством спецификации метода, содержащей конструктивные знания эксперта.

3. Новизна предложенной модели генерации преобразователя продукционных правил состоит в том, что она позволяет порождать модели конечных преобразователей, способных отображать классические и нечеткие продукции, представленные на ограниченном подмножестве естественного языка, в формулы логики предикатов, а их, в свою очередь, во множества дизъюнктов. Особенностью модели генератора является то, что порожденный преобразователь может переводить символы входного алфавита в символы выходного алфавита без явного задания грамматики перевода. Грамматики перевода определяются неявно посредством задания исходных объектов, описанных в символах входного алфавита, и эталонных объектов, описанных в символах выходного алфавита. Достижению такой универсальности генетического алгоритма в рамках класса задач преобразования с неявно заданной грамматикой способствовали направленный поиск и ряд генетических операторов, типовых по выполняемому действию. Кроме того, для получения кода конечных преобразователей применены технологии автоматного программирования.

4. Новизна разработанной автоматной модели аппарата активации состоит в том, что следование единообразию представления методов в виде классических и нечетких продукций определило необходимость реализации нечеткого логического вывода на основе применения методов нечеткого регулирования, которые хорошо вписались в предложенную технологию. Это позволяет разрешать конфликтные ситуации, возникающие при использовании классического логического вывода, а также решать задачи в условиях неопределенности. Реализация аппарата активации выполнена на основе применения технологий генетического и автоматного программирования.

Значение для теории. Разработанные модели и методы построения онтологий составляют теоретическую основу для разработки технологий автоматизированного решения различных задач, для которых в качестве моделей решения можно использовать системы продукций. Кроме этого, появилась возможность дальнейшего их развития с точки зрения объективизации категориального аппарата, уточнения множества типов предикатов, типов семантических отношений и исследования их свойств, необходимых для анализа онтологий.

Значение для практики. Разработка онтологий по предложенной технологии позволит облегчить процесс их создания, повысить доверие к хранилищам знаний и информации, снизить издержки на разработку программного обеспечения, обеспечить дальнейшее развитие информационных и интеллектуальных технологий. Кроме того, результаты, полученные в работе, окажут положительное влияние на конгломерацию частных онтологий в систему знаний, поскольку в настоящее время средств, позволяющих создать полную систему знаний («модель мира»), не существует.



Pages:   || 2 | 3 | 4 | 5 |   ...   | 6 |
 





 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.