авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 | 4 |

Разработка представления семантикиценностно-ориентированных текстов в базе знаний (на материале русских пословиц)

-- [ Страница 1 ] --

На правах рукописи

Малкова Анастасия Сергеевна

Разработка представления семантики
ценностно-ориентированных текстов
в базе знаний (на материале русских пословиц)

Специальность 05.13.17 – «Теоретические основы информатики»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Москва 2011

Работа выполнена в Институте лингвистики федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Российский государственный гуманитарный университет».

Научный руководитель: доктор физико-математических наук,
доцент О.М. Аншаков

Официальные оппоненты: доктор технических наук,
профессор О.П. Кузнецов

кандидат физико-математических наук,
старший научный сотрудник
Д.В. Виноградов

Ведущая организация: Институт системного анализа
Российской академии наук

Защита состоится 14 ноября 2011 г. в 16 часов на заседании диссертаци­онного совета Д.212.198.13 при Российском государственном гуманитарном университете по адресу: г. Москва, Миусская пл., д. 6, ауд. 206.

С диссертацией можно ознакомиться в библиотеке Российского государственного гуманитарного университета.

Автореферат разослан 7 октября 2011 г.

Ученый секретарь

диссертационного совета

кандидат технических наук

Д.Б. Халяпин 

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность

Представление знаний в настоящее время является одним из центральных направлений развития информационных технологий. Основная цель направления – разработка методических оснований и прикладных средств, позволяющих использовать вычислительные машины для решения интеллектуальных задач, требующих глубоких знаний о предметной области, таких как принятие экспертных решений, интеллектуальный поиск, извлечение актуальных знаний из больших объемов необработанных данных.

Ядром интеллектуальных систем, основанных на знаниях, является формализованная модель реальности – структурное описание, в котором основные закономерности строения и функционирования элементов предметной области описаны в терминах формальных объектов и отношений. Строгое формальное описание позволяет формулировать алгоритмы для манипулирования знаниями: вывода новых знаний на основе имеющихся, выдачи ответов по запросам, сканирования на предмет наличия противоречий и т.п.

Системы, основанные на знаниях, в настоящее время разрабатываются в таких областях, как медицина1, экономика, анализ новостных лент. Представление знаний является одним из перспективных направлений развития сети Интернет (проект Semantic Web).

Анализ семантики ценностно-ориентированных текстов (ЦОТ) – это одна из областей, где методы представления знаний до сих пор не использовались. Термин ценностно-ориентированные применяется в настоящей работе для обозначения текстов, описывающих явления, лежащие в области этики и морали. Это пословицы, басни, притчи, афоризмы. Семантическую основу ЦОТ составляет проблемная ситуация или комплекс проблемных ситуаций: реализация морального выбора, разрешение социального конфликта, предписание поведенческого сценария, этическая оценка людей и событий.





Актуальность создания семантических моделей для ЦОТ обусловлена тем, что ЦОТ являются важным компонентом языка, как самостоятельно, так и входя в состав других, более крупных текстов, где они часто занимают акцентные позиции: заголовки, эпиграфы, резюме (мораль) и т.п. Адекватная формальная модель семантики ЦОТ позволит автоматизировать целый ряд процедур интеллектуальной обработки ЦОТ, таких как семантический поиск, машинный перевод, культурологический анализ статистическими методами и другие.

Отсутствие практики применения методов представления знаний для анализа семантики ЦОТ связано с объективной сложностью выделения формальных объектов в данной предметной области. При разработке семантической модели в настоящей работе были использованы и адаптированы методы, сформировавшиеся в дисциплинах, для которых ЦОТ является традиционным объектом исследования: филологии, отчасти психологии, когнитивной лингвистики. В том числе был рассмотрен ряд структурных семантических моделей пословицы (Г.Л. Пермяков2, В.С. Баевский3, А.К. Жолковский4, М. Черкасский, Т.С. Зевахина5, А. Дандес6, Н.Барли7 и другие), максимы (Ю.С. Мартемьянов, Г.В. Дорофеев8), исследованы основные положения концептуальной теории метафоры Дж. Лакоффа и Т. Джонсона9 и фундаментальных трудов по теории мифа (К. Леви-Стросс10, О.М. Фрейденберг11, Е.М. Мелетинский12).

В работе была осуществлена формализация структурного подхода, развившегося на базе классической филологии и структурной антропологии (О.М. Фрейденберг, К. Леви-Стросс) и когнитивной лингвистики (Дж. Лакофф) для построения формальной семантической модели частного случая ЦОТ – пословицы.

Цели и задачи диссертационной работы

Целью диссертационной работы является построение базы знаний (описание объектов, отношений и ограничений на значения, а также аналитического аппарата) для формализованного представления семантики ценностно-ориентированных текстов (пословиц) и ее программная реализация в информационной системе «МЕТАФОРА – тезаурус русских пословиц».

Для достижения заявленной цели были поставлены и решены следующие задачи.

  1. Анализ научно-методических основ формального представления семантики ЦОТ:
    1. обзор и анализ методов представления знаний в направлении Искусственный интеллект.
    2. анализ существующих подходов к описанию семантики ЦОТ в дисциплинах, для которых ЦОТ является традиционным объектом исследования (структурной фольклористике, лингвистической семантике, когнитивной лингвистике);
  2. Разработка методологического подхода к формальному представлению семантики пословицы:
    1. разработка и обоснование общей структуры базы знаний для представления семантики ЦОТ;
    2. разработка формальной модели семантики пословицы, в том числе составление словарей элементов модели, формулировка правил построения формального описания по тексту на естественном языке.
  3. Разработка методики интеллектуального анализа семантики пословиц с помощью базы знаний, включая:
    1. формальное описание критериев семантического сходства текстов;
    2. описание алгоритмов поиска по ключевым словам.
  4. Разработка концепции, схемы данных информационно-справочного Интернет-ресурса «МЕТАФОРА – тезаурус русских пословиц», реализующего формальную модель пословицы (включая аппарат интеллектуального анализа семантики пословиц).

Методы исследования

В диссертационной работе используются методы, характерные для трех дисциплин: представления знаний (направление Искусственный интеллект), концептуального моделирования (когнитивная лингвистика) и структурной нарратологии (фольклористика, филология).

Объект и предмет исследования

Объектом исследования являются русские пословицы. В качестве экспериментальной выборки использован словарь современных русских пословиц под ред. В.М. Мокиенко13, содержащий 505 единиц. Выбор обусловлен тем, что словарь снабжен обширным справочным аппаратом, включающим толкования, культурологическую справку, примеры употреблений в художественной литературе, а также тем фактом, что при относительно сжатом объеме словарь охватывает большое тематическое многообразие пословиц. Также в экспериментальную выборку вошли 100 случайно отобранных английских пословиц.



Предметом исследования является семантика пословицы.

Результаты, выносимые на защиту

Получены лично автором и выносятся на защиту следующие научные результаты:

  1. Методологический подход к проектированию базы знаний для представления семантики ЦОТ:
    1. общая структура базы знаний для данной предметной области
      (принципы выделения формальных объектов и отношений);
    2. формальная модель семантики частного случая ЦОТ – пословицы.
  2. Методика интеллектуального анализа семантики пословицы с помощью базы знаний, включающая:
    1. формальные критерии семантического сходства пословичных высказываний;
    2. язык поисковых запросов (поиск по ключевым словам).
  3. Концепция, структура данных, аппарат интеллектуального анализа
    информационно-справочного Интернет-ресурса «МЕТАФОРА».

Научная новизна

Научная новизна результатов диссертационной работы заключается в следующем.

  1. Разработан новый подход к представлению знаний в ЦОТ, объединяющий методы структурной фольклористики, когнитивной лингвистики и Искусственного интеллекта.
  2. Построена новая формальная модель пословицы, позволяющая формально описывать критерии семантического сходства высказываний и осуществлять поиск по запросам.
  3. Создана информационная система, включающая уникальный интеллектуальный поисковый аппарат.

Теоретическая значимость и практическая ценность

Теоретическая значимость работы заключается в разработке методологического подхода к представлению семантики ЦОТ в базе знаний, отражающего характерные особенности предметной области и, как следствие, позволяющего эффективно решать специфические задачи интеллектуального поиска и анализа.

Практическая ценность работы заключается разработке средств семантического анализа пословичных высказываний, которые могут быть использованы в электронных словарях и тезаурусах ЦОТ, системах поддержки перевода, поисковых машинах, в программном обеспечении филологических, этнографических (в т.ч. кросскультурных) исследований, а также для решения других задач интеллектуального семантического анализа ЦОТ.

Апробация полученных результатов

Результаты диссертационной работы докладывались и обсуждались на конференциях: XL Международной филологической конференции СПбГУ (2011), КИИ-2010, «История и математика-2007», «Рефлексивные процессы и управление-2007»; на семинарах ИСА (2010, 2009), ВИНИТИ (2009), «Искусственный интеллект» в Политехническом музее (2009), «Искусственный интеллект» ВМиК МГУ (2008), «Фольклор и постфольклор» Центра Типологии и Семиотики Фольклора РГГУ (2007, 2010).

Публикации

Научные результаты были опубликованы в журналах, рекомендованных ВАК: «Научно-техническая информация» Сер.2 «Информационные процессы и системы», «Моделирование и анализ информационных систем» (ЯрГУ), Вестник РГГУ серия «Информатика, защита информации, математика» (в печати); в сборниках трудов: Двенадцатой национальной конференции по искусственному интеллекту КИИ-2010, конференции «Математическая история-2008», конференции «Курдюмовские чтения-2007» а также в тезисах трех конференций. Список публикаций приведен в конце автореферата.

Структура и объем работы

Диссертация состоит из введения, четырех глав, заключения, библиографического списка и двух приложений. Объем основного текста работы – 154 страницы. В тексте содержатся 47 рисунков и диаграмм, 20 таблиц, список литературы включает 111 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность выбранной темы; формулируются цель и задачи исследования, показана научная новизна, теоретическая значимость и прикладная ценность результатов. Кратко излагается содержание диссертации по главам.

Первая глава посвящена анализу научно-методических основ и формированию структуры диссертационного исследования.

Раздел 1.1 посвящен описанию современного состояния исследований в области формального представления знаний в искусственном интеллекте: приводятся основные определения, области применения, принципы функционирования каждого из методов.

В разделе 1.2 дается характеристика объекта исследования, рассматриваются существующие подходы к представлению семантики ЦОТ, сформировавшиеся в рамках специальных дисциплин: структурной фольклористики, лингвистической семантики, когнитивной лингвистики.

В разделе 1.3 вводятся понятия базы знаний и модели знаний: существующие определения, способы представления, области применения. Обсуждается роль модели знаний для решения задач структуризации данных, семантического поиска, вывода новых знаний. Показывается целесообразность применения данного формального аппарата для представления семантики ЦОТ.

В заключительном разделе формулируется цель работы: создание базы знаний для представления семантики ЦОТ (на примере частного случая ЦОТ – пословицы), излагаются основные задачи и структурно-логическая схема исследования.

Вторая глава посвящена решению второй задачи диссертационного исследования: разработке формальной модели семантики пословицы (как частного случая ЦОТ) и решению ряда сопутствующих задач: построения модели реальности для пословичного текста, формирования словаря базовых элементов модели, описания правил построения формальных описаний по текстам на ЕЯ.

Согласно правилам проектирования баз знаний, основанных на онтологической модели представления знаний, которые были сформулированы в работе Н. Ной и Д. МакГинесс14, структура базы знаний зависит от многих факторов: устройства предметной области, требуемого уровня абстракции, широты охвата материала, комплекса практических задач, которые предполагается решать с помощью БЗ, намеченной степени формализации. Таким образом, постановка задачи и описание требований к базе знаний являются важным этапом, определяющим ее структуру и конечный вид.

В разделе 2.1 детально рассматривается объект исследования (пословица), исследуется ее семантическая организация.

Пословица была избрана в качестве объекта исследования, поскольку из всех ЦОТ малых жанров (басни, притчи, афоризмы) она является наиболее компактной, стабильной, универсальной. Под стабильностью понимается тенденция к дублированию одной и той же (или близкой) семантики в целых кластерах квазисинонимичных текстов, прослеживаемая не только в рамках одного фонда, но и на многонациональном материале. Под универсальностью – минимизация авторского, индивидуального начала, которая отличает фольклорные произведения от авторских. Несмотря на возможное появление у пословицы в различных ситуационных контекстах окказиональных значений, существует одна (в редких случаях две-три) базовая интерпретация, зафиксированная в толковом словаре.

Пословица хорошо изучена и описана в филологии. Это позволяет задействовать в диссертационном исследовании обширный справочно-методический материал, наработанный данной специальной дисциплиной: толковые словари, системы классификации пословиц, существующий опыт формализации.

Все перечисленные факторы позволяют говорить о принципиальной возможности создания адекватной формальной семантической модели пословицы.

В п. 2.1.2 формулируются практические задачи, которые возможно будет решить на выбранном корпусе текстов с помощью базы знаний. Их постановка также оказывает влияние на структуру базы знаний. К ним относятся следующие задачи интеллектуальной обработки корпусов ЦОТ:

  1. Семантический поиск текстов, находящихся между собой в различных семантических отношениях: сходства, противоположности, частичного сходства, противоречивости. Для пословиц эта задача наиболее актуальна в контексте создания электронных мультиязычных словарей.
  2. Семантический поиск по ключевым словам (например: пословицы о труде, о дружбе, о беспечности, о смирении с судьбой и т.п.). При этом ключевые слова интерпретируются не как теги, а как семантические конструкты, которые соотносятся со структурой проблемной ситуации, отраженной в пословицах.

Указанные задачи могут быть решены (т.е. разработаны формальные процедуры анализа), если в результате выделения объектов семантика отдельного текста пословицы (также как структура поискового запроса) будет представима в виде набора однозначно интерпретируемых семантических единиц. Тогда сходство двух пословичных высказываний может быть интерпретировано как полное или частичное совпадение наборов их составляющих, а соответствие поисковым запросам будет понято как вхождение элементов запроса в состав высказывания.

При этом большое значение имеет однозначность семантических описаний. Если один и тот же смысл может быть выражен несколькими различными способами, то это приведет к резкому усложнению алгоритмов семантического анализа. Таким образом, семантическое сходство двух высказываний должно необходимо влечь за собой совпадения в их формальной структуре, и при этом ни один из базовых элементов модели не может быть выражен через комбинацию других.

Обобщая, можно сказать, что критерием успешности модели является формирование системы классов подобия, сохраняющей семантические отношения (частичного сходства, противоположности и др.) на множестве пословичных текстов.

 Формирование классов подобия в-0

Рисунок 1. Формирование классов подобия в процессе моделирования.

Итак, словарь модели формирует очень компактный набор элементов, описанных на высоком уровне абстракции. Малое количество элементов упрощает описание аксиоматики, классификацию объектов, хотя и снижает точность семантических описаний отдельных высказываний.

Необходимо отметить, что экспериментальная выборка текстов специально была подобрана таким образом, чтобы в ней были представлены не одна или несколько тематических групп, а все многообразие пословичных текстов. Это необходимо для того, чтобы модель и алгоритмы поиска на ней обладали свойствами универсальности.

В последнем пункте раздела (п. 2.1.3) осуществлен детальный анализ объекта исследования (пословицы) с целью выявления его семантической структуры: определения сущности базовых элементов модели и природы связывающих их отношений.

В пункте показано, что лингвистические методы анализа недостаточны для адекватного представления семантики ЦОТ, поэтому теоретической базой для исследования послужили труды филологов и антропологов, в частности работы представителей французского и отечественного структурализма (К.Леви-Стросс, О.М.Фрейденберг). Согласно их выводам, со структурной точки зрения фольклорные произведения представляет собой последовательность элементарных микросюжетов. Их строение подчинено двум базовым ментальным механизмам: мифологическому отождествлению (уподоблению) и оппозиционному противо­поставлению. В разделе рассмотрена суть этих механизмов.



Pages:   || 2 | 3 | 4 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.