авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |

Николай дмитриевич     теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация     

-- [ Страница 1 ] --

На правах рукописи   

Москин Николай Дмитриевич
 
 
 
Теоретико-графовые модели структуры
фольклорных текстов, алгоритмы поиска
закономерностей и их программная реализация
 
 
 
Специальность 05.13.18 – математическое моделирование, численные методы и комплексы программ
 
 
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
 


 

Петрозаводск – 2006

Диссертация выполнена в государственном образовательном учреждении высшего профессионального образования Петрозаводский государственный университет.

Научный руководитель:

к. ф.-м. н., доцент Варфоломеев Алексей Геннадьевич

Официальные оппоненты:

д. т. н., доцент Рогов Александр Александрович,

к. т. н. Сидоров Юрий Владимирович

Ведущая организация:

Институт прикладных математических исследований
Карельского научного центра РАН, г. Петрозаводск

Защита диссертации состоится 3 ноября в 10 часов на заседании Диссертационного совета Д212.190.03 при Петрозаводском государственном университете по адресу: 185910, г. Петрозаводск, пр. Ленина, д. 33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан «___»____________ 2006 г.

Ученый секретарь

диссертационного совета Поляков В. В.

Общая характеристика работы

Актуальность исследования. Данная работа посвящена применению математических методов и компьютерных технологий при исследовании фольклорных текстов. Уже достаточно давно в лингвистических, исторических и социальных науках для формализации текстов применяется контент-анализ, который сводится к подсчету частот встречаемости в тексте определенных словосочетаний (индикаторов). Другой метод, часто применяемый в подобных ситуациях, – это представление объекта исследования в виде типологической формулы, похожей на формулу библиотечной классификации УДК. Однако такие методы, заменяющие текст набором из нескольких чисел или символов (вектором), вряд ли достаточны для отражения его содержания. Поэтому на сегодняшний день актуальным является разработка новых методов и технологий анализа текстов.

На наш взгляд, адекватной моделью для представления текста является граф, который определяется как конечное множество объектов (вершин) и множество пар различных вершин (ребер). Такая структура хорошо изучена с точки зрения математики и часто служит удобным средством представления структурированной информации для дальнейшего анализа. Графы используются в гуманитарных областях знаний для автоматической обработки текстов, информационного поиска, реферирования и индексирования текстов, автоматического перевода, стилистической диагностики, в задачах атрибуции анонимных текстов и т. д.
В фольклористике графы применялись крайне мало, такие работы единичны.

Другим важным направлением является разработка специализированного программного обеспечения для гуманитарных исследований с применением современных компьютерных технологий. Об этом, в частности, свидетельствуют проходящие в последнее время конференции по данной тематике: «ДИАЛОГ: Компьютерная лингвистика и интеллектуальные технологии», «АДИТ: Информационные технологии: доступ к культурному наследию», «Проблемы компьютерной лингвистики и фольк-лористики», конференции Ассоциации «История и компьютер» и т. д.





Объект исследования. Объектом исследования являются теорети-ко-графовые модели фольклорных текстов и методы их анализа.

Цель и задачи диссертации. Целью работы является разработка новых моделей и методов анализа фольклорных текстов, реализованных в виде информационной системы для исследования фольклорных коллекций с теоретико-графовой формализацией текстов.

Для этого необходимо решить следующие задачи:

  • Разработать теоретико-графовые модели структуры фольклорных текстов.
  • Разработать новые и модифицировать существующие методы анализа построенных моделей.
  • Создать информационную систему для хранения и исследования фольклорных коллекций с теоретико-графовой формализацией текстов.
  • Описать результаты применения данных методов на примере конкретных коллекций фольклорных текстов.

Методы исследования. В работе применяются следующие методы:

  • Методы визуализации, аппроксимации и сравнения графов.
  • Методы многомерного статистического анализа данных.
  • Современные возможности среды и языка программирования Delphi 7.0.

Научная новизна. В диссертации впервые отражены следующие научные результаты:

    1. Разработана теоретико-графовая модель семантической структуры фольклорных песен, рассмотренная на примере коллекции бесёдных песен Заонежья XIX – начала XX века.
    2. Предложены и апробированы следующие методы анализа графов:
    1. Метод визуализации теоретико-графовых моделей фольклорных песен.
    2. Модификация метода аппроксимации для графов с упорядоченными вершинами.
    3. Метод сравнения текстов, основанный на модификации метрик для графов с упорядоченными ребрами.
    1. Разработан язык теоретико-графовой разметки текстов TextGML на основе XML, предназначенный для описания теоретико-графовых моделей текстов.
    2. Создана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов на языке визуального программирования Delphi 7.0.

Практическая значимость работы. Практически результаты диссертации могут быть использованы для решения вопросов жанровой дифференциации и атрибуции текстов, составления тематических указателей, указателей фольклорных мотивов и формул.

Основные положения диссертации, выносимые на защиту:

  1. Разработана теоретико-графовая модель семантической структуры фольклорных песен.
  2. Предложен метод визуализации теоретико-графовых моделей фольклорных песен.
  3. Предложена модификация метода аппроксимации для графов с упорядоченными вершинами.
  4. Предложена модификация метрик на множестве графов с упорядоченными ребрами.
  5. Разработан язык теоретико-графовой разметки текстов TextGML на основе XML, предназначенный для описания теоретико-графовых моделей текстов.
  6. Разработана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов.

Структура и объем диссертации. Работа состоит из введения, четырех глав, заключения, списка литературы и приложения. Общий объем диссертации составляет 121 страница, включая 16 страниц приложения, 44 иллюстрации и 5 таблиц. Список литературы содержит 97 наименований источников.

Апробация работы и публикации. Основные результаты диссертации были представлены в виде докладов на III, IV и V Всероссийских конференциях RCDL «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (2001 г. – Петрозаводск, 2002 г. – Дубна, 2003 г. – Санкт-Петербург), на Седьмой конференции АДИТ «Информационные технологии: доступ к культурному наследию» (2003 г. – Пушкинские Горы), на XII Научных чтениях Даугавпилсского университета (2003 г. – Даугавпилс, Латвия), на IV Международной конференции «Рябининские чтения: Локальные традиции в народной культуре Русского Севера» (2003 г. – Петрозаводск), Международной школе молодых фольклористов (2003 г. – Пушкин), Летней школе «Формальные методы анализа и дескрипции фольклорного текста» (2004 г. – Псков), Всероссийской конференции «Проблемы компьютерной лингвистики и фольклористики» (2004 г. – Воронеж), Международной конференции «Русская и сопоставительная филология: состояние и перспективы» (2004 г. – Казань), на Х Международной конференции Ассоциации «История и компьютер» (2006 г. – Москва), на научных семинарах кафедры информатики и математического обеспечения Петрозаводского государственного университета (2000–2006 гг. – Петрозаводск). По теме диссертации опубликованы 4 статьи и 5 тезисов докладов, а также получено свидетельство об официальной регистрации информационной системы в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатенте).



Содержание диссертации

Во введении обосновывается актуальность темы диссертации и её научная новизна, формулируются цели и задачи исследования, описывается структура работы и определяется её практическая значимость.

В 1 главе рассмотрены основные теоретико-графовые модели языковой структуры текстов, описанные в работах А. М. Пешковского, И. П. Севбо, Э. Ф. Скороходько, А. В. Гладкого, А. И. Новикова, А. Я. Шай-кевича и др. К таким моделям относятся лексические сети, деревья зависимостей, деревья составляющих, семантические сети и т. д. Основной особенностью данных графов является упорядоченность вершин и ребер, что соответствует последовательности появления элементов модели в тексте.

Для хранения и изучения подобных моделей предлагается использовать язык теоретико-графовой разметки TextGML (Textual Graph Modelling Language), разработанный на основе XML. Этот язык позволяет описывать теоретико-графовые модели текста, построенные по различным принципам. В его основе лежат следующие элементы (теги):

tgml – корневой элемент.

text – элемент, определяющий границы текста. Элемент text имеет два атрибута: name – название текста и type – тип текста (например, «стихотворение», «басня», «статья», «эссе» и т. д.).

text_parameter – характеристики текста (например, автор, год и место издания), которые определяются в виде элементов parameter. Каждому параметру соответствует два атрибута: id – идентификатор параметра и name – название параметра.

graph – граф, соответствующий тексту. Каждый граф задается набором вершин (node) и ребер (link), соединяющих эти вершины. У элемента graph три атрибута: id – идентификатор графа, name – название графа (например, «дерево зависимостей первого предложения»), type – тип графа и directed – индикатор, указывающий, является ли граф ориентированным.

node – структурные единицы текста. У этого элемента пять атрибутов: id – идентификатор вершины, name – название вершины (например, «основная форма слова»), type – тип вершины, order – порядок вершины в графе и id_graph – ссылка на идентификатор графа-потомка. Последний параметр позволяет организовать в тексте иерархию уровней графа, где граф низшего уровня является вершиной графа более высокого уровня.

link – отношения между единицами текста. У данного элемента семь параметров: id – идентификатор ребра, name – название ребра, source и target – ссылки на идентификаторы вершины-источника и вершины-приемника, type – тип ребра (например, «однородность слов»), cost – сила связи и order - порядок ребра в графе.

В качестве примеров такой формализации в диссертации рассмотрены деревья зависимостей, описывающие синтаксическую структуру духовного стиха о Голубиной книге, и текстовая семантическая сеть притчи «Уличная торговля».

Из лингвистики принципы структурного анализа были перенесены в смежные гуманитарные науки: этнографию, фольклористику и литературоведение. Развитие структурной фольклористики шло в основ-ном за счет синтеза синтагматического структурного анализа В. Я. Проппа и парадигматического – К. Леви-Строса. При этом в фольклорных текстах были выделены свои особые единицы: функция, мотив, мотифема и т. д.

В диссертации предложена теоретико-графовая модель семантической структуры фольклорных песен, рассмотренная на примере коллекции бесёдных песен Заонежья XIX – начала XX века, собранной Р. Б. Калашниковой из архивных фондов музея-заповедника «Кижи» и дореволюционных публикаций. Бесёдными назывались песни, исполнявшиеся в закрытом помещении – избе – во время заонежских молодежных вечеринок в осенне-зимний период. В основе этой модели лежит понятие мотива, который, по выражению Б. Н. Путилова, является «узловой категорией художественной организации произведения фольк-лора».

Содержательную основу мотива можно представить в виде помеченного мультиграфа, в узлах которого находятся основные персонажи песни, животные, явления природы, предметы обихода и т. д. Между объектами устанавливаются связи двух видов: локальные и глобальные, соответствующие синтагматическим и парадигматическим отношениям в тексте. Если связать графы мотивов, объединив одинаковые персонажи в одну вершину, то подобную структуру можно изобразить в виде единого графа сюжета песни. На рисунке 1 приведен пример теоретико-графовой модели песни «Все мужовья до жон добры» из сборника Ф. Студитского:

Все мужовья до жон добры, Леную побуживала.

Покупили жонам тафты; Вы белила, румяна мои

Ещё мой муж не доброй до меня, Дороги были покупленныя,

Он купил, мутил, На вини были развожены,

Коровушку купил, На бело лицо положены;

Жены лишнюю работу снарядил; Вы белила, румяна мои,

Он бы лучше пуд масла купил, Сокатитесь со бела лица долой,

Полтора пуда крупищатой муки. Скажут: едет не милой муж домой,

Я младешенька стряпейку наняла, Не в любовь везет подарок дорогой -

Стряпеюшка постряпливала, Шелковую плеть не хлыстанную,

Я по горенке похаживала, Молоду жону не биваную.

Каблучками притолачивала, Не убыток шелковая плеть купить,

Стряпейку принаряживала, Не безчестье молода жена учить.

 Граф песни

Рис. 1. Граф песни "Все мужовья до жон добры"

2 глава посвящена методам и алгоритмам анализа теоретико-графовых моделей текстов.

К первой группе относятся методы визуализации графов на плоскости и в трехмерном пространстве, которые позволяют оценить сложность структуры и ее основные особенности. Однако большинство разработанных методов предназначены для изображения абстрактных графов, не привязанных к тексту. Поэтому при визуализации теоретико-графовых моделей фольклорных песен необходимо учитывать дополнительные критерии качества получаемого изображения:

  • Упорядочение элементов графа по мере их появления в сюжете песни.
  • Группировка вершин и ребер графа согласно структуре мотивов песни и их функциональному весу.

Чтобы учесть данные критерии, необходимо модифицировать существующие методы визуализации. Наиболее подходящим для этой цели является метод, основанный на физических аналогиях. Граф рассматривается как система объектов с силами, взаимодействующими между этими объектами, где, например, вершины графа считаются телами, а ребра – пружинами. В этом случае алгоритм находит конфигурацию тел с локально минимальной энергией – так называемую конфигурацию равновесия сил, в которой каждое тело занимает такую позицию, что сумма всех сил, приложенных к телу, равна нулю.

При модификации этого метода будем использовать следующие закономерности:

  1. Вероятность того, что два объекта принадлежат одному мотиву, больше, если они находятся в тексте ближе друг к другу. Тогда модифицируем формулу, по которой вычисляется сила притяжения . Пусть и – номера слов в тексте песни, соответствующие объектам и . Если один объект определяется несколькими словами, то вычисляется среднее арифметическое значение их номеров. Определим естественную длину пружины между вершинами и при помощи следующей формулы:

,

где – минимальная длина пружины, а – коэффициент, характеризующий значимость данного критерия. Чем меньше , тем сильнее сила будет притягивать объекты, расположенные близко в тексте. Тогда для вычисления -й координаты силы можно использовать следующую формулу:

,

где – расстояние между вершинами и , а – коэффициент жесткости (упругости) пружины.

  1. Чем больше степень объекта, тем вероятнее, что он принадлежит сразу нескольким мотивам. Поэтому вершины с большой степенью следует располагать в центре, а вершины с меньшей степенью ближе к границам экрана. Обозначим – число ребер, инцидентных вершине . Тогда определим коэффициент силы отталкивания между объектами и по следующей формуле:

,

где - коэффициент отталкивания, постоянный для всех вершин. В этом случае -ая координата силы отталкивания будет определяться по формуле:

.

3. Чтобы учитывать порядок появления связей в сюжете песни, для каждого ребра введем дополнительную силу . Эта сила будет стремиться расположить ребра графа как можно ближе к установленным заранее упорядоченным точкам . Точки следует расположить последовательно на одинаковом расстоянии друг от друга по окружности (или полуокружности) с центром в середине экрана. Радиус окружности подбирается таким образом, чтобы полученный граф не выходил за границы экранной области.

Тогда значение для -й координаты силы найдем следующим образом:

,

где – центральная точка ребра (центр ребра), координаты которой вычисляются как среднее арифметическое координат вершин и , а – коэффициент силы притяжения между и . Чем он больше, тем сильнее ребро стремится к точке .

В результате, общая сила , приложенная к вершине , будет находиться как сумма трех сил:

.



Pages:   || 2 | 3 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.