авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |

Математическое моделирование и программная реализация семантического преобразования поисковых запросов

-- [ Страница 1 ] --

На правах рукописи

Кириллов Антон Владимирович

Математическое моделирование и программная реализация семантического преобразования поисковых запросов

Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ
диссертации на соискание ученой степени

кандидата технических наук

Москва - 2012

Работа выполнена на кафедре инноваций и бизнеса в сфере информационных технологий Национального исследовательского университета «Высшая школа экономики»

Научный руководитель доктор технических наук
Фомичёв Владимир Александрович
Официальные оппоненты: Норенков Игорь Петрович доктор технических наук, профессор, заслуженный деятель науки и техники РФ, МГТУ им. Н. Э. Баумана, зав. кафедрой "Системы автоматизированного проектирования"
Толчеев Владимир Олегович, доктор технических наук, доцент, Национальный исследовательский университет Московский энергетический институт, профессор кафедры управления и информатики
Ведущая организация: Институт системного анализа РАН

Защита состоится «16» мая 2012 г. в 15:00 на заседании диссертационного совета Д 212.048.09 при Национальном исследовательском университете «Высшая школа экономики» (НИУ ВШЭ) по адресу: 105187, г. Москва, ул. Кирпичная, д.33, ауд. 505.

С диссертацией можно ознакомиться в библиотеке НИУ ВШЭ по адресу: 101990, г. Москва, ул. Мясницкая, д. 20.

Автореферат разослан « » апреля 2012 г.

Ученый секретарь
диссертационного совета,
доктор технических наук Фомичёв Владимир Александрович
  1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. В настоящее время параллельно с ростом объемов информации в Интернете происходит разработка новых и совершенствование существующих подходов к ее поиску. Все большую актуальность приобретают средства семантического поиска, под которыми понимаются системы, принимающие на вход некоторый запрос, обрабатывающие его с использованием рассуждений над специфичной базой знаний и возвращающие совместимые результаты. Входным запросом может являться, например, вопрос на естественном языке (ЕЯ), представление вопроса при помощи триплетов, графическое представление, набор ключевых слов, отдельные фразы и т.д. В роли базы знаний могут выступать онтологии, аннотированные массивы текста, текстовые документы, Веб, XML- документы, RDF документы, HTML документы и т.д. В нашей стране значительный вклад в развитие семантического поиска внесли Э.Э. Гасанов, А.Е. Ермаков, А.Н. Королев, И.П. Кузнецов, Д.Г. Лахути, Н.Н. Леонтьева, М.Г. Мальковский, А.Г. Мацкевич, А.С. Нариньяни, И. С. Некрестьянов, Г.С. Осипов, И.В. Сегалович, А.В. Сокирко, Н.В. Перцов, Н.Н. Перцова, Э.В. Попов, В.Ш. Рубашкин, И.А. Тихомиров, В.О. Толчеев, В.А. Тузов, В.А. Фомичёв, Н.П. Харин, В.Ф. Хорошевский и другие учёные.





Однако, несмотря на большое разнообразие методов и подходов к семантическому поиску, у существующих поисковых систем имеется ряд недостатков. К ним можно отнести отсутствие семантического описания электронных документов (в большинстве случаев), высокую трудоемкость алгоритмизации автоматизированного создания данного описания, большой разрыв между технологиями семантического веба и гипертекстового поиска (развиваются параллельно и независимо друг от друга), недостаточные интеллектуальные возможности анализаторов естественно-языковых запросов вопросно-ответных систем.

Объект исследования: методы семантической обработки поисковыми системами естественно-языковых запросов.

Предмет исследования: методы применения формальных средств для семантического анализа и преобразования поисковых запросов на естественном языке, проектирования лингвистической базы знаний, а также баз знаний для поддержки преобразования запросов и поиска.

Цель исследования: разработать такой метод семантического преобразования важных с практической точки зрения естественно-языковых поисковых запросов в форму (множество производных запросов), позволяющую традиционным системам поиска обнаружить наиболее релевантные результаты, который предусматривает применение формальных средств для описания (а) системы концептуальных единиц первичного уровня, (б) логической структуры базы знаний для поддержки преобразования запросов и поиска.

Задачи исследования:

1.Провести анализ состояния исследований по семантической обработке поисковыми системами вопросов на естественном языке (ЕЯ) с целью выявления классов вопросов, недостаточно проработанных в научной литературе и имеющих большую практическую значимость для систем естественно-языкового поиска.

2. По результатам проведенного анализа разработать метод семантического преобразования, который бы позволил трансформировать поданный на вход естественно-языковой запрос в форму (множество производных запросов), позволяющую повысить релевантность документов, выдаваемых системами поиска по ключевым словам.

3. Выбрать наиболее соответствующую предложенному методу методологическую основу исследования для построения математических моделей компонентов базы знаний, необходимых для семантического преобразования естественно-языковых запросов.

4. Построить математические модели  компонентов базы знаний, необходимых для семантического преобразования поисковых запросов для выбранных типов вопросов. Построить итоговую математическую модель для поддержки семантического преобразования запросов и поиска.

5. На основе предложенных моделей разработать алгоритмы анализа и преобразования поисковых запросов в форму (множество производных запросов), позволяющую повысить релевантность документов, выдаваемых системами поиска по ключевым словам. Разработать алгоритм ранжирования результатов по степени релевантности поисковому запросу.

6. Разработать программный комплекс, реализующий предложенный метод семантического преобразования поисковых запросов.

7. Провести тестирование разработанного программного комплекса и проанализировать полученные результаты.

Теоретико-методологическую основу исследования составляют теория алгоритмов, теория графов, теория контекстно-свободных грамматик, теория К-представлений, методы теоретического программирования и Веб программирования.

Достоверность и обоснованность научных положений подтверждается корректным применением математического аппарата теории К-представлений, теории контекстно-свободных грамматик, теории алгоритмов и результатами тестирования разработанной компьютерной программы.

В ходе исследования была решена научная задача создания такого метода семантического преобразования естественно-языковых запросов в расширенную форму, позволяющую традиционным поисковым системам получать более релевантные результаты, который предусматривает применение формальных средств для описания (а) системы первичных единиц концептуального уровня, (б) логической структуры базы знаний для поддержки преобразования запросов и поиска, (в) шаблонов семантических трансформаций, необходимых для преобразования поисковых запросов.

Теоретическая значимость исследования. Впервые предложен базирующийся на математической модели подсистемы базы знаний метод  семантического преобразования ЕЯ-запросов поисковых систем (ПС) в форму (множество производных запросов), позволяющую повысить релевантность результатов работы системы поиска по ключевым словам.

Практическая значимость исследования состоит в том, что предложен новый подход к анализу и преобразованию ЕЯ-запросов поисковых систем в такую форму (множество производных запросов), которая позволяет повысить релевантность документов, получаемых от традиционных поисковых систем. Данный подход базируется на построении математических моделей семантических и семантико-синтаксических объектов, которые используются алгоритмами построения множества преобразованных запросов. Разработанные алгоритмы позволяют определять типы и подтипы ЕЯ-запросов ПС, а также выделять объекты интереса запросов. На основе разработанной модели базы знаний для поддержки преобразования запросов и поиска в зависимости от типа запроса и выделенных объектов интереса происходит построение множества семантически преобразованных запросов, которые подаются на вход традиционной ПС. Разработанный алгоритм ранжирования результатов поисковой выдачи позволяет повысить релевантность результатов по сравнению с системами поиска по ключевым словам. Математический подход, базирующейся на теории К-представлений, является предметно независимым и может быть использован при проектировании базы знаний для поддержки преобразования запросов и поиска в разных предметных областях. Важным аспектом практической ценности разработанного комплекса является возможность его интеграции с любым количеством поисковых систем, а также возможность управления информацией в базе знаний с целью повышения соответствия результатов поиска информационной потребности пользователей, что не требует внесения изменений в разработанные алгоритмы.

Полученные в диссертации результаты использованы в научных и проектных исследованиях компании «Вокском – Голосовые Телекоммуникации» (Москва), а также в лекционных и лабораторных занятиях по дисциплине «Проектирование лингвистических процессоров» на кафедре «Информационные технологии» «МАТИ» – Российского государственного технологического университета им К.Э. Циолковского.

Основные положения, выносимые на защиту:

1. Разработан комплекс математических моделей семантических и семантико-синтаксических объектов, предназначенных для расширения пользовательских поисковых запросов:

1.1. Математическая модель проблемно-ориентированной системы первичных единиц концептуального уровня, используемой для построения множества преобразованных аспектно-ориентированных запросов.

1.2. Математическая модель концептуальной базы целей, используемая для преобразования запросов достижения целей.

1.3. Математическая модель концептуальной базы знаний об изменениях множеств, используемой для поддержки преобразования запросов об изменениях состава множеств.

1.4. Итоговая математическая модель базы знаний для поддержки семантического преобразования запросов и поиска.

2. Разработан комплекс из двух алгоритмов, обеспечивающих анализ поисковых запросов на соответствие рассматриваемым типам и подтипам поисковых запросов, а также позволяющий определить значимые объекты интереса поисковых запросов.

3. Разработаны метод и алгоритм построения множества преобразованных запросов.

4. Разработан программный комплекс, реализующий предлагаемый метод семантического преобразования поисковых запросов и использующий разработанные алгоритмы. Разработанный программный комплекс был успешно развернут по адресу http://www.aosengine.ru.

5. Разработана КС-грамматика в форме Бэкуса-Наура для описания входного языка поисковых запросов пользователей.

Апробация и внедрение результатов исследования. Основныерезультаты работы представлялись и получили одобрение на научно-практической конференции студентов и аспирантов «Информационные технологии в экономике, бизнесе, управлении» (ГУ-ВШЭ, 2010), на IX Международной научно-технической конференции «Новые информационные технологии и системы» (НИТиС-2010), на молодежной научной конференции «Гагаринские чтения» в МАТИ (2011) и на научном семинаре «Математические модели информационных технологий» Отделения прикладной математики и информатики факультета бизнес-информатики НИУ ВШЭ в 2012 году. По теме диссертационной работы опубликовано 7 научных работ, включая две статьи в изданиях из списка изданий, рекомендованных ВАК РФ. Разработанный в диссертации программный комплекс был развернут по адресу http://www.aosengine.ru/.

Структура диссертации: основной текст диссертации изложен на 156 страницах, состоит из введения, четырёх глав, заключения, списка литературы из 100 наименований и девяти приложений.

  1. ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цели и задачи работы, определены ее теоретическая и практическая значимость, приведены сведения об апробации и внедрении работы, о структуре диссертации и о публикациях по теме диссертации.

В первой главе анализируется современное состояние исследований по разработке систем синтаксического и семантического поиска информации во Всемирной Паутине (Вебе) и корпоративных внутренних сетях. Детально рассматриваются принципы поиска по ключевым словам и логика, применяемая в системах такого класса, а также наиболее распространенные методы ранжирования результатов поиска. Проводится обзор и классификация систем, реализующих принципы семантического поиска. Значительное внимание уделяется описанию принципов разработки естественно-языковых поисковых систем и анализу характеристик основных представителей систем данного класса. Рассматриваются отечественные разработки в области семантического поиска, методы и модели, применяемые в данных системах. Формулируется цель диссертационного исследования.

Во второй главе в параграфе 2.1 выделяются для исследования три класса важных для приложений, но недостаточно исследованных в научных публикациях естественно-языковых запросов: (1) аспектно-ориентированные запросы (касающиеся характеристик объекта интереса либо его особенностей). Примеры: «Каковы особенности компьютера iMac?», «Как устроен мейнфрейм?»; (2) запросы о достижении целей (связанные с успехами и неудачами тех или иных интеллектуальных систем). Примеры: «Каковы успехи компании Oracle?», «Какие неудачи были у компании Microsoft два года назад?»; (3) запросы, касающиеся сохранения или изменения состава того или иного множества. Примеры: «Какие изменения были в прошлом году в руководстве компании Google?», «Какие изменения были в компании Яндекс в департаменте эксплуатации?».

В параграфах 2.2 - 2.3 предлагаются принципы нового подхода к семантически-ориентированному поиску информации в Интернете, основанного на семантическом преобразовании входного запроса в форму (множество производных запросов), позволяющую традиционной поисковой системе найти более релевантные (семантически) документы. Для каждого из выделенных классов запросов предлагаются принципы семантического преобразования.

Характеристическим объектом, или характеристическим словом, будем называть слово запроса, позволяющее охарактеризовать его принадлежность тому или иному типу. Объектами интереса запроса будем называть те слова запроса, которые составляют непосредственную информационную потребность пользователя. Дополнительными объектами интереса будем называть дополнительные элементы запроса, важные для пользователя. Например, характеристическим объектом запроса «Каковы характеристики процессора Cray?» является слово «характеристики», а объектом интереса - «процессор Cray». Для запроса «Какие успехи были у компании Cloudera в 2010 году» характеристическим объектом является слово «успехи», объектом интереса - «компания Cloudera», а дополнительным объектом интереса - «2010 год».

Значительную ценность для практики представляют методы семантического поиска, инвариантные по отношению к предметной области либо способные работать в широком диапазоне предметных областей. В связи с этим в параграфе 2.4 сделан вывод о целесообразности разработки новых методов семантического поиска информации в Сети на основе широко применимой математической модели, описывающей (а) систему первичных информационных единиц, используемых поисковой системой (что означает перечисление таких единиц и описание их взаимосвязей); (б) цели людей и организаций; (в) динамику изменений различных множеств (совета директоров фирмы и т.д.). Проведенный анализ научной литературы показал, что в настоящее время в доступной литературе опубликована только одна теория, предоставляющая возможности построения математических моделей, удовлетворяющих требованиям (а) - (в), это теория К-представлений (концептуальных представлений). Данная теория изложена в большой серии публикаций В.А. Фомичева на русском и английском языках.

Основной предлагаемый принцип расширения аспектно-ориентированных запросов (АО-запросов) заключается, во-первых, в построении семантических производных первоначального запроса. Для преобразования такого рода необходимо учитывать концептуальное окружение характеристического слова, специфическое для определенного типа запроса, т. е. его синонимы, гипонимы и гиперонимы. Использование синонимичных запросов позволит расширить спектр релевантных по ключевым словам документов и обнаружить необходимую информацию. Гипонимы и гиперонимы характеристических слов используются с той же целью, но имеют несколько другой смысл: в некотором документе может присутствовать информация, касающаяся объекта интереса запроса в контексте рассмотрения его либо как составляющего элемента (гипонима) более общей сущности, либо, наоборот, может рассматриваться составляющая часть понятия (в данном случае характеристическое слово будет выступать в качестве гиперонима). Например, для понятия «компьютер» гипонимами являются понятия «сервер» и «ноутбук»; для понятия «сервер» гиперонимом является понятие «компьютер». Концептуальное окружение позволит строить семантически близкие запросы, а также анализировать возвращаемые документы на соответствие запросу.

В параграфе 2.5 построена математическая модель проблемно-ориентированной системы первичных единиц концептуального уровня с целью создания основы для разработки алгоритмов семантического преобразования АО-запросов. Модель описывает новые классы формальных объектов, названных размеченными концептуально-объектными системами (р.к.о.с.) и расширенными концептуальными базисами (р.к.б.).



Pages:   || 2 | 3 |
 



Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.