авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 | 4 |

Разработка семантико-синтаксических схем индексирования информации в документальных системах (прагматический аспект разработок)

-- [ Страница 1 ] --

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

На правах рукописи

Пименов Евгений Николаевич

Разработка семантико-синтаксических схем индексирования

информации в документальных системах

(прагматический аспект разработок)

Специальность 10.02.21

“Прикладная и математическая лингвистика”

Автореферат

диссертации на соискание ученой степени

доктора филологических наук

Санкт-Петербург

2007 г.

Диссертация выполнена в Научно-исследовательском отделе информатики и автоматизации Библиотеки Российской академии наук

Официальные оппоненты:

доктор филологических наук, профессор Мартыненко Григорий Яковлевич

доктор филологических наук, профессор Шайкевич Анатолий Янович доктор педагогических наук, профессор Соколов Аркадий Васильевич

Ведущая организация: Российский государственный педагогический университет им. А.И. Герцена.

Защита состоится 8 ноября 2007 г. 16 часов на заседании диссертационного совета Д 212.232.18 по защите диссертаций на соискание ученой степени доктора филологических наук при Санкт-Петербургском государственном университете по адресу: 199034, г. Санкт-Петербург, Университетская набережная, 11, филологический факультет СПбГУ.

С диссертацией можно ознакомиться в Научной библиотеке им. А.М. Горького Санкт-Петербургского государственного университета

Автореферат разослан: “ ”____________2007 г.

Ученый секретарь

диссертационного совета

д.ф.н., проф. П.А. Скрелин

1. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Объектом исследования в диссертации являются вербальные языки индексирования. Предмет составляет прагматика разработки и применения данных ИПЯ. Непосредственной целью исследования ставилось:

  • исследование семантических схем информации и наиболее известной из них – предметно-аспектной модели S-Attr-P-Instr-Loc при разработке дескрипторных языков индексирования. Это – задача исследования в узком значении слова;
  • исследование прагматической стороны разработки вербальных ИПЯ. Это – задача исследования в широком ее понимании диссертантом.

Актуальность и практическая значимость диссертации заключается в том, что в связи с бурным развитием сети Интернет и также активной на переломе веков разработкой в России автоматизированных библиотечно-информационных систем (АБИС, электронные каталоги) объемы индексационных, а также словарных (тезаурусы, авторитетные файлы) работ постоянно растут. Вместе наблюдавшееся в 90-е годы прошлого века сокращение исследований и числа публикаций по этой тематике имели следствием уменьшение качества индексирования во многих отечественных ИПС (Ф.С. Воройский).

Научная новизна диссертации заключается в том, что впервые с позиций лингвистической прагматики описаны все основные виды работ по созданию лингвистических средств ИПС. Это – фасетный анализ и классификация документов, их индексирование, разработка тезаурусов и других словарей, типизация и обработка информационных запросов. Все вышеназванные элементы ЛО в двух разработанных диссертантом системах (по огнеупорам и по сохранности документов) построены на одном лингвистическом основании – схеме анализа информации S-Attr-P-Instr-Loc, что обеспечивает их хорошую согласованность и сбалансированность. Новым является также описание внелингвистических факторов, влияющих на разработку дескрипторных и предметизационных систем.



Основные решения и выводы диссертации апробировались на лингвистическом материале двух сравнительно небольших по объемам документального ввода систем. Это система по огнеупорам, работавшая в 1976-94 гг. во Всесоюзном институте огнеупоров и БД по сохранности документов, в настоящее время растиражированная на CD-ROM. Результаты исследований регулярно докладывались на конференциях по лингвистическому обеспечению ИПС.

Методологической основой исследования являются общесистемное положение, согласно которому в языке все взаимосвязано, и некоторые общелингвистические, в основном – синтаксические установки таких крупных лингвистов, как Ф. де Соссюр, Ю.Д. Апресян, И.А. Мельчук. Вторым столь же общим методологическим принципом являлась известная по исследованиям представителей Пражского лингвистического кружка (Ф. Данеш и др.) и другим теориям грамматики (А.В. Бондарко, В.Г. Гак) идея разграничения центра и периферии языковых единиц, где хорошо структурированным (и структурируемым) является их центральная часть. Периферийную часть лингвистических категорий, единиц и структур отличает аморфность, размытость. Этот принцип, который мы формулируем также, как “у каждого правила есть исключения”, ставит известный предел излишне прямолинейному структурированию информации при разработках ИПЯ. Другие методологические установки связаны с семиотической теорией языкового знака, в содержании которого различаются денотат, синтаксис и прагматика,

и знаки могут быть нулевыми, словесно не выраженными.

Более частный, используемой в диссертации метод, можно определить как фасетный, или категориальный анализ (Ш. Ранганатан, А.В. Соколов, А.И. Черный и мн. др.) с использованием семантической схемы S-Attr-P-Instr-Loc. При обосновании данной модели потребовался выход в теорию предложения (рассмотрение поверхностных и глубинных структур предложения, актуальный синтаксис) и синтаксис связного текста, включая теорию дискурса Т.А. ван Дейка.

На защиту выносятся следующие положения:

1. Изоморфная предложению семантико-синтаксическая модель S-Attr-P-Instr-Loc является универсальной, и универсальность ее проявляется в двух отношениях. Во-первых, эта модель применима для обработки лексического материала систем самого разного профиля и назначения, во-вторых, ее можно использовать не только для индексирования (для структурирования синтагматического плана ИПЯ), но и при создании тезаурусов (для структурирования парадигматических отношений).

2. Семантически позитивную характеристику в этой модели имеет аспектная часть информации, то есть позиция Р, соответствующая операциям, и обстоятельственные характеристики Loc и Instr. Понятие ‘предмет информации’ (S) как абстрактная категория семантически позитивного содержания не имеет. В конкретных информационных системах ключевые слова, выступающие в функции предметов, не сводимы к какой-то одной лексико-семантической категории, как, например, категории ‘документы’, ‘вещество’, ‘оборудование’, ‘персонал’, ‘персоналии’ в БД по сохранности документов.

3. Семантически негативный характер позиции S объясняется тем, что, являясь одной из исходных и системообразующих для индексирования категорий, это понятие относится к классу таких же нечетких понятий тех дисциплин, объекты (предметы) которых определяют как “черный ящик”. Это – такие понятия, как “электричество” в физике, “язык”, “фонема” в лингвистике и мн. др., окончательные дефиниции которых едва ли когда-нибудь получены. Отсутствие семантически позитивной характеристики S объясняется также тем, что его содержание лежит в основном в области синтагматики (определяется связью S-P) и лингвистической прагматики. Синтагматика и прагматика номинаций “предмет” и “предмет индексирования” накладывают, каждый со своей стороны, ограничения на их содержание, и вследствие этого чрезвычайно широкое и в указанном отношении “пустое” содержание понятия ‘предмет’ получает свою семантическую определенность.

4. Применительно к ИПЯ за понятием ‘нормативность’ стоят две взаимосвязанных, но не всегда совпадающих вида оценок. Имеется нормативность общеязыковая, определяемая правилами образования единиц естественного, например, русского литературного языка, и есть нормативность внутрисистемная, это – правила построения того или иного тезауруса и других словарей. Из-за того, что имеется два разных уровня структурирования языковых единиц (в ЕЯ и ИПЯ), такие оценки в ряде случаев могут не совпадать, а иногда даже противоречить друг другу.

2. ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Диссертация состоит из введения, четырех глав, заключения и списка использованной литературы.

Во Введении обосновывается актуальность работы, и описываются три вида прагматики, наиболее значимой при разработке ИПЯ.

Главное содержание понятия ‘прагматика’ применительно к ИПЯ составляют условия разработки или эксплуатации систем разного типа и назначения. Конечные результаты работ по созданию и использованию ИПЯ зависят от многих условий и факторов, при этом различные факторы, элементы и подсистемы систем должны быть между собой хорошо сбалансированными.

К прагматике во втором ее понимании относятся различного рода оценки, как, например, оценки информативности терминов при проведении поиска информации. Через понятие ‘информативность’ элемент субъективной оценки имплицитно присутствует в содержании термина “ключевые слова”. С этим видом прагматики связаны также выбор (критерии выбора) дескрипторов для представления словарных статей ИПТ и оценки языковой нормативности терминов и их связей в тезаурусе.

В третьей интерпретации данного термина прагматика определяет выбор решений по соображениям удобства, получения каких-либо преимуществ, полезности в самом широком значении слова. В таком понимании прагматики в ее содержание войдут такие характеристики разных систем, как технологичность, простота и удобство в создании и в использовании лингвистических средств ИПС. В данном аспекте прагматика иногда означает бульшие или меньшие отклонения от требования нормативности единиц ИПЯ, иногда допускаемые для решения более важной задачи, чем разработка ИПЯ, – задачи создания эффективно работающей ИПС. Прагматически ориентированными на удобство работы являются также решения, направленные на уменьшение объемов ИПЯ и обеспечение простоты и прозрачности его понятийной структуры. Прагматичность создания лингвистических средств заключается также в том, что обычно они создаются путем разумного компромисса между двумя с трудом совместимыми и разнонаправленными прагматическими установками. Одна из них, установка на то, чтобы система могла обеспечивать хорошие показатели точности и полноты, предполагает усложнение ИПЯ, вторая – желательность повышения технологичности ИПС, требует разработки небольших по объемам и простых языков индексирования. Противоречие между данными установками в большой мере снимается в небольших по объемам специализированных ИПС, где лингвистический материал хорошо структурируется. В крупных универсальных системах, где обычно используются предметизационные или классификационные ИПЯ и количество индексов (рубрик) является очень большим, говорить о простых языках не приходится.

В первой главе диссертации обосновывается предметно-аспектный подход к информации. В соответствии с этим подходом в информации всегда выделяются два элемента: предмет информации (S) и сторона его рассмотрения или аспект информации (P). В системах по огнеупорам и по сохранности документов, где разрабатывался данный подход, в схему анализа информации входят еще локализаторы места и времени (Loc), аналог обстоятельства образа действия (Instr) и аналог функции определения (Attr). Из указанных элементов и образуется изоморфная предложению предметно-аспектная схема S-Attr-P-Instr-Loc.

В литературе по информатике данные элементы как наиболее важные при индексировании в том или ином виде представлены в схемах анализа информации Ю.А. Шемакина, А.Г. Ханжина, в индексационных моделях, построенных на основе системного рассмотрения информации, в моделях предметных рубрик предметизационных ИПЯ, в фасетных формулах информации, в описаниях предикатных структур и семантических падежей, в информационно-поисковом языке СИНТОЛ и в теории дискурса Т. ван Дейка и др. К предметно-аспектным моделям близко стоят также другие семантико-синтаксические представления ИПЯ, с применением которых результаты индексационных работ предстают “в виде графа, дерева зависимостей, матрицы или другим сходным образом организованного множества синтагматических (контекстуальных) отношений между ЛЕ” 1. К предметно-аспектной модели близки, например, описания языков индексирования, в которых каким-либо образом различают понятия предмет и аспект, и с последним понятием связывается главным образом процессная лексика. На указанной оппозиции построена, например, кандидатская диссертация В.В. Отрадинского, и имеется много статей, где предметно-аспектный подход к индексированию в явном виде не сформулирован, но хорошо эксплицируется при рассмотрении списков аспектов и их содержательных характеристик.





______

1 Проблемы автоматизации индексирования и реферирования / Н.А. Пащенко, Л.В. Кнорина, Т.В. Молчанова и др. // Итоги науки и техники. Информатика. – М., 1983. – Т. 7. – C. 66.

Анализ литературы показывает, что модель информации S-Attr-P-Instr-Loc и ее элементы можно рассматривать с разных сторон и интерпретировать следующим образом:

  • как разновидность мешочной грамматики, не имеющей явного выражения в поисковых образах документов;
  • как структуру, которую образуют наиболее общие по содержанию фасеты из классификации Ш. Ранганатана. Это – такие абстрактные категории, как ‘материя’, ‘энергия’, ‘время’ и ‘место’, близкие к семантическим функциям S, P и Loc;
  • как фасетную формулу, с применением которой регламентируется процесс индексирования (А.И. Черный);
  • как модель построения сложных предметных рубрик в предметизационных ИПЯ;
  • как предикатное выражение с элементами, соответствующими семантическим падежам Ч. Филлмора;
  • как структуру с концептуально-синтагматическими отношениями (R. Green); Данные отношения одновременно относятся и к синтагматике, и к парадигматике ИПЯ;
  • как суперструктуру дискурса Т.А. ван Дейка;
  • как модель, изоморфную предложению и “накладываемую” на индексируемый текст с целью обеспечения простоты и единообразия его индексирования (Е.Н. Пименов).

Последнее понимание отличается прагматичностью и имеет своим преимуществом то, что с этих позиций не очень существенно, относятся ли эта структура к области онтологии или же это понятие – метаязыковое и относится только к ИПЯ. Применительно к документальным системам этот вопрос не имеет большого значения, коль скоро, как это показано в диссертации, использование данной модели дает положительные результаты при разработке ЛО ИПС.

Во второй главе диссертации описываются возможные применения предметно-аспектной модели, и показывается, как она вырабатывалась в двух разработанных диссертантом системах. В диссертации описано применение данных моделей при фасетной классификации ЛЕ, при типизации документов, при разработке тезаурусов и других словарей, при анализе и обработке информационных запросов.

Предметно-аспектный подход к информации обосновывался тем, что ключевые слова и дескрипторы, рассматриваемые сами по себе и безотносительно к какой-либо схеме, не выражают информации в обиходном и полезном для информатики смысле как сообщения чего-то о чем-то. Индексирование по предметно-аспектным моделям (когда индексаторы должны выявить в документах и описать ключевыми словами по возможности все элементы структуры S-Attr-P-Instr-Loc) обеспечивает единообразное индексирование, оптимизирует глубину индексирования и способствуют выявлению и отражению в ПОДах “скрытой”, вербально не выраженной информации.

Выбор предметно-аспектной модели в начальный период работы с ней определялся не столько принципиальными (теоретическими) соображениями, сколько ее общеизвестностью и простотой, поскольку она изоморфна строению предложения, а модель предложения знакома практически каждому индексатору, хотя бы по школьной грамматике. В дальнейшем, когда был накоплен значительный опыт работы с рассматриваемой семантической схемой, потребовалось ее усложнение путем обращения, в частности, к теории актуального синтаксиса и разграничение формальных предметов, определяемых в соответствии с предметно-аспектной моделью, и актуальных предметов, репрезентируемых в таком качестве индексируемым текстом.

Вторым дополнением структуры S-Attr-P-Instr-Loc являлось введение в нее синтагматической позиции Ш, обозначающей нулевые, отсутствующие элементы модели. В применении к индексированию и ИПЯ нулевые позиции являются семиотически значимыми и обычно имеют значение, сопоставимое со значением квантора всеобщности, то есть “всякий, любой” S, Attr, P, Instr или Loc. Эта позиция хорошо выявляется при индексировании документов, в словарных статьях ИПТ и особенно часто – в информационных запросах. Предметно-аспектный анализ при обработке запросов является способом экспликации или учета в их содержании “информационных нулей” и в таком его применении является средством определения и уточнения информационных потребностей пользователей. Кроме названных элементов, потребовалась дополнение модели еще одним синтаксическим членом – модальной рамкой S-P.

Содержание элементов предметно-аспектной модели.

Предметы информации (S). Лексико-семантические категории таких единиц в большой степени задаются по определению, “назначаются” для соответствующей роли. Вместе с тем выбор предметов не является полностью произвольным и зависит от большого числа описанных в диссертации прагматических факторов.

Содержание понятия ‘предмет информации’ осмыслено только тогда, когда это понятие рассматривается в линейном ряду ‘предмет’ – ‘аспект’ информации, то есть оно относится к числу таких парных понятий, как подлежащее и сказуемое, тема и рема и др. Для выстраивания семантических схем по предметно-аспектной модели необходимо (удобно, естественно), чтобы в позиции Р выступали слова с категориальным значением ‘операция’ или ‘процесс’. Это значения требует семантического дополнения аспектов актантами предикатов, как ‘время’, ‘место’, ‘среда’, ‘условия’ и ‘способы’ выполнения операций и протекания процессов. В лингвистическом отношении позиция Р является структурообразующим элементом в семантической схеме S-Attr-P-Instr-Loc. При процессной семантике функции Р, представленной иногда нулевым выражением, единообразие категориальной семантики S на уровне частных лексических категорий в общем случае не является обязательным.

Некоторые термины и категории предметных ЛЕ имеются в очень малом числе или представлены только одном документе. Поскольку, наверное, в любой ИПС можно выделить неопределенно большое число малозначимых для системы предметов и, соответственно, схем индексирования редко встречающейся информации, составление полного списка и детальное описание всех применяемых в ИПС, и особенно – уникальных моделей, нецелесообразно по прагматическим соображениям. Использование при индексировании информации слишком большого числа семантических схем вело бы к излишнему переусложнению методики индексирования информации, но из-за малых объемов такой информации почти не влияло бы на показатели точности и полноты предоставляемой пользователям информации.



Pages:   || 2 | 3 | 4 |
 

Похожие работы:








 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.