авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ

Pages:   || 2 | 3 |

Разработка лингвосемантических методов обработки экспертной информации для ситуационных центров органов государственной власти

-- [ Страница 1 ] --

На правах рукописи

Тарасов Елизар Саввич

Разработка лингвосемантических методов обработки экспертной информации

для ситуационных центров

органов государственной власти

Специальность 05.13.01 – «Системный анализ, управление и обработка информации (информационные и технические системы)»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Краснодар – 2011

Работа выполнена в ГОУ ВПО «Кубанский государственный технологический университет»

Научный руководитель: доктор технических наук, профессор Симанков Владимир Сергеевич
Официальные оппоненты: доктор технических наук, профессор Ключко Владимир Игнатьевич кандидат технических наук, Мягкий Алексей Евгеньевич
Ведущая организация: ГОУ ВПО «Кубанский государственный университет», г. Краснодар

Защита диссертации состоится «2» марта 2011 г. в 12.00 часов на заседании диссертационного совета Д 212.100.04 в ГОУ ВПО «Кубанский государственный технологический университет» по адресу: 350072,
г. Краснодар, ул. Московская, 2, Г-251

С диссертацией можно ознакомиться в библиотеке Кубанского государственного технологического университета по адресу: 350072,
г. Краснодар, ул. Московская, 2А

Автореферат разослан «31» января 2011 г.

Ученый секретарь

диссертационного совета Д 212.100.04

канд. техн. наук, доцент Власенко А.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы

Современный этап развития государства в условиях высокой динамики экономической ситуации и правовой базы требуют от руководителей органов государственной власти (ОГВ) постоянного внимания к различным аспектам рассматриваемых проблем в ходе принятия управленческих решений. Особую важность в данных условиях играет возможность эффективной обработки информации и принятия обоснованных решений в условиях нечеткости, неопределенности, неполноты и противоречивости исходных данных либо условий окружающей среды, специфики проблемной области.

В этой ситуации аппарат руководителя ОГВ нуждается не только в традиционных системах сбора и обработки информации, но и в аналитических моделях, позволяющих оперативно оценить реальное состояние проблемной области, предусмотреть тенденции развития и проанализировать возможные последствия управленческих решений. Этот комплекс задач позволяют решить ситуационные центры (СЦ), которые представляют собой автоматизированный информационно-аналитический комплекс для принятия стратегических решений и управления всеми аспектами деятельности ОГВ.

В современных системах обработки информации и получения знаний в условиях нечеткости, неполноты или противоречивости исходной информации о рассматриваемой проблеме, преимущественно естественно-языковых (ЕЯ) форм ее представления, а также связи со многими предметными областями, актуальным становятся ряд вопросов, связанных с привлечением к процедуре групповой экспертной оценки квалифицированных специалистов в различных предметных областях и обработкой получаемой экспертной информации.





Однако недостаточная эффективность существующих методов информационно-аналитического обеспечения в СЦ обуславливает необходимость дальнейшей разработки методологии и прикладных алгоритмов системного подхода, практической реализации процедур получения знаний и обработки разнородной информации, что повысит адекватность и обоснованность принимаемых в ОГВ решений по задачам оперативного, стратегического и ситуационного управления.

В рамках решения этих задач особый интерес представляет круг вопросов, связанный с формализацией естественно-языковых описаний проблем в рамках интересующей предметной области исследования, их последующего анализа и моделирования, а также дальнейшего использования в процедурах организации и проведения экспертизы, анализа и обобщения получаемой информации. Необходимо разработать методики и алгоритмы применения набора формальных и неформальных подходов к анализу ЕЯ- описания проблемы, ее формализации, оценке и впоследствии – к подбору специалистов в состав экспертных групп, обработке и обобщению поступающей информации по разработанным методикам.

Выбор лингвосемантического подхода в качестве платформы для разрабатываемых методик и алгоритмов обусловлен его эффективностью в обработке ЕЯ-описаний, возможностью интеграции с другими методами получения и аналитической обработки знаний, гибким математическим и алгоритмическим аппаратами.

Целью работы является разработка методического аппарата лингвосемантического анализа и оценки экспертной информации, подходов к его применению в контуре принятия решений ситуационных центров органов государственной власти.

Объектом исследования является комплекс информационно-аналитических систем в составе ситуационных центров ОГВ.

Предмет исследования – математическое, алгоритмическое и программное обеспечение процедур лингвосемантического анализа естественно-языковых описания проблемы и экспертной информации, система соответствующих подходов, методов и моделей.

Основными задачами исследования являются следующие:

  1. Разработка подходов, методик и алгоритмов лингвосемантического анализа и формализации информации, представленной на естественном языке с учетом факторов ее неопределенности, неполноты и противоречивости;
  2. Разработка методик и алгоритмов формирования тезаурусных описаний экспертной информации;
  3. Разработка методик построения моделирующих семантических сетей для формального представления ЕЯ-описаний и экспертной информации;
  4. Разработка методики формирования проблемно-ориентированных экспертных групп в СЦ ОГВ, анализа, обобщения и формализации результатов экспертизы;
  5. Программная реализация модуля с использованием архитектуры клиент-сервер и технологий интеллектуального анализа данных с поддержкой распределённых режимов работы комплекса.
  6. Оценка эффективности разработанных методик, алгоритмов и программного комплекса.

Методы исследования включают: методы семантического, синтаксического, лингвистического и морфологического анализа, теории семантических сетей, кластерного анализа, теории графов, интеллектуального анализа данных (Data Mining).

Положения, выносимые на защиту.

К основным научным результатам, изложенным в диссертационной работе и выносимым на защиту, относятся:

  • подходы, методики и алгоритмы лингвосемантического анализа естественно-языковых описаний проблемы и получаемой экспертной информации в контуре принятия решений СЦ ОГВ;
  • методика практической реализации математических моделей и алгоритмов процедур морфологического, синтаксического и лингвосемантического анализа, построения моделирующих семантических сетей обработки экспертной информации;
  • программный комплекс «Эксперт», реализующий разработанные методики, модели и алгоритмы, интегрированный в структуру СЦ и обеспечивающий автоматизацию процедур организации и проведения групповых экспертиз;
  • клиент-серверная архитектура программного комплекса, механизмы его интеграции в СЦ ОГВ, подходы и результаты оценки его эффективности, подтверждающие адекватность полученных в работе результатов.

Научная новизна работы:

  • усовершенствованные математические модели и алгоритмы лингвосемантического анализа, формализации и обобщения естественно-языковых описаний проблемы и экспертной информации;
  • оптимизация методик и алгоритмов формирования тезаурусных описаний, определения мер семантической близости моделей ЕЯ-информации, их кластеризации и ранжирования;
  • подходы к практическому использованию разработанных методик в ситуационных центрах органов государственной власти;
  • архитектура программного комплекса «Эксперт», методика его интеграции в состав ситуационных центров органов государственной власти; модель информационного взаимодействия участников контура принятия решений.
  • оценка эффективности разработанных методик на примере формирования проблемно-ориентированных экспертных групп, анализа и обобщения получаемой экспертной информации;

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается тщательным анализом состояния результатов российских и зарубежных исследований в областях теории прикладной лингвистики и семантического анализа, организации и проведения экспертиз, проектирования и реализации ситуационных центров.

Практическая значимость. Разработана совокупность теоретических положений и реализован специализированный программный комплекс, позволяющий осуществлять лингвосемантический анализ, формализацию и построение тезаурусов экспертной информации, представленной в естественно-языковой форме с учетом специфики решаемых задач, ограничений и условий внешней среды, сформирована методика его интеграции и использования в составе ситуационных центров органов государственной власти.

Усовершенствование научно-методического аппарата информационно-аналитического обеспечения и частичной автоматизации процедур экспертного принятия решений в СЦ ОГВ дает возможность повысить функциональность и оперативность процедур управления.

Публикация результатов и апробация работы. По результатам диссертации опубликовано 10 печатных работ, из них 5 статей (2 статьи в издании из Перечня ВАК для публикации научных результатов диссертаций на соискание ученой степени доктора и кандидата наук), 6 тезисов докладов в материалах Международных, Всероссийских и внутривузовских конференций, а также 1 свидетельство о государственной регистрации программы для ЭВМ. Восемь работ выполнены в соавторстве; личный вклад соавтора (научного руководителя) заключался в постановке задач и общем руководстве.

Основные результаты работы обсуждались на следующих Международных, Всероссийских и внутривузовских конференциях: международная научно-практическая конференция «Информационная безопасность» (Таганрог, 2005); международная заочная научно-практическая конференция «Прогрессивные технологии развития» (Томск, 2008); конференция получателей грантов регионального конкурса «ЮГ» Российского фонда фундаментальных исследований» (Краснодар, 2008); всероссийская конференция с элементами научной школы для молодёжи «Проведение научных исследований в области обработки, хранения, передачи и защиты информации» (Ульяновск, 2009); научно-практическая конференция «Научно-техническое творчество молодежи – путь к обществу, основанному на знаниях» (Москва, 2009); научно-практическая конференция «Ситуационные центры 2009» (Москва, РАГС 2010); международная научно-практическая конференция «Молодёжь и наука: реальность и будущее» (2010 г, Невинномысск).

Реализация и внедрение результатов работы.

Проведение исследований, отражённых в диссертации, было поддержано в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг., ГК № П742 «Разработка теоретических основ и построение интеллектуальной информационно-аналитической системы как основы региональных ситуационных центров органов государственной власти».

Часть результатов была использована при выполнении работ по ГК
№ П2026 "Разработка подходов к анализу и практической реализации интеллектуальных информационно-аналитических систем органов власти на основе ситуационного моделирования"; ГК №П2378 «Разработка теоретических основ и построение интеллектуальной информационно-аналитической системы как платформы поддержки принятия решений в органах государственной власти"; проекта РФФИ № 08-07-99030, «Разработка теоретических основ и построение интеллектуальных систем мониторинга, анализа и поддержки принятия политических, социально-экономических и технологических решений регионального уровня для ситуационных центров органов власти».

Объем и структура работы. Диссертация включает в себя введение, 5 глав, заключение, список используемых источников из 108 наименований. Работа изложена на 198 страницах, содержит 42 рисунка и 12 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, сформулированы цели и задачи диссертационного исследования, основные положения, выносимые на защиту, определена научная новизна и практическая значимость, содержание и методы выполнения работы, кратко изложены основные результаты.

В первой главе «Аналитический обзор проблем информационно-аналитического обеспечения деятельности ситуационных центров органов государственной власти» приведено краткое описание состояния и результатов российских и зарубежных исследований в области проектирования и реализации ситуационных центров, роли и места информационно-аналитического обеспечения в контуре принятия решений, а также проблем автоматизированной обработки естественно-языковой информации, существующих методов и подходов лингвистического, семантического и других направлений анализа, теории прикладной лингвистики и семантики.

Обоснована необходимость и актуальность разработки методик повышения эффективности подбора экспертов с учетом специфики решаемых проблем, целесообразность частичной автоматизации этих процессов на основе методов обработки естественно-языковых (ЕЯ) описаний, предложены обобщенные структурно-функциональные и информационные модели контуров взаимодействия участников организации и проведения экспертиз.

Показано, что процедура экспертного оценивания обладает рядом специфических черт: слабая формализуемость, противоречивость, значительная нечеткость, неполнота, неопределенность исходных данных и получаемых рекомендаций, необходимость их обобщения, согласования с учетом как требований регламента, так и специфики решаемой проблемы. Указанные особенности налагают ряд ограничений и требований на подходы и методики автоматизации процедур экспертизы, обуславливая необходимость использования методов системного анализа, нечеткой логики и обработки, формализации ЕЯ-описаний объектов. В этой связи предложено использование лингвосемантических подходов к обработке информации, обоснована их адекватность и эффективность для решения сформулированных задач.

Взаимосвязь решаемых задач в ходе функционировании СЦ на примере контура экспертного оценивания приведена на рис. 1.

Рисунок 1 – Задачи лингвосемантической обработки ЕЯ-информации в СЦ на примере контура экспертного оценивания

Проведен анализ методов, существующего математического аппарата и алгоритмического обеспечения лингвосемантического подхода к анализу и формализации ЕЯ-объектов. Формально поставлен ряд задач:

  • лингвосемантический анализ разнородной информации, представленной на естественном языке, построение моделирующих семантических сетей;
  • выделение ключевых слов, словосочетаний и семантических ареалов из полученных описаний (модели «Онтология - Тезаурус»);
  • определение мер семантический близости, ранжирование, кластеризация модельных и ЕЯ-описаний (модели «Semantic Similarity/Clustering»);
  • формирование итоговых обобщений имеющихся описаний и получаемой экспертной информации;
  • разработка «обобщенного» лингвосемантического алгоритма анализа, формализации и обработки ЕЯ-информации с учетом факторов неполноты, нечеткости и противоречивости;

Во второй главе «Разработка методов, моделей и алгоритмов лингвосемантического анализа и обработки естественно-языковой информации» исследованы теоретические аспекты обработки знаний в ИАС; особенности архитектуры и функционирования ситуационных центров ОГВ; разработаны модели потоков данных, исследованы особенности представления и использования естественно-языковой информации в рамках информационно-аналитического обеспечения деятельности СЦ, которая рассмотрена как объект моделирования, управления и автоматизации. В результате определен ряд существенных недостатков традиционно используемых подходов, сформулированы предложения по частичной автоматизации и повышению его эффективности на базе лингвосемантического подхода к анализу и обработке информации об объектах управления и окружающей среде.

На этапе предварительной обработки и предметной классификации будем рассматривать текст как «набор слов», используя численные характеристики употребления тех или иных терминов, вне зависимости от порядка их употребления. Тогда вероятность того, что термин w, принадлежащий формируемому тезаурусу W, встречается в описании проблемы или корпусе анкет экспертов d (множества D тематического классификатор), т.е. принадлежит той или иной предметной области t:

(1),

где t – элемент множества T предметных областей.

Для оценки максимального правдоподобия параметров модели, зависящей от скрытых переменных, используем EM-алгоритм. Параметры предварительного семантического анализа P(w|t) и P(t|d) определим следующим образом. Пусть r – число итераций. На E-шаге вычислим P(t | w,d)(r):

(2)

На M-шаге оценим параметры:

(3), (4)

где N(w,d) – число вхождения элемента тезауруса w в рассматриваемый текст d. Процесс обучения повторяется до сходимости параметров. Однако параметры часто попадают в область локального оптимума, эффективность не улучшается в результате обучения. Введен параметр 0<1 для управления скоростью обучения. Выражение для M-шага примет вид:

(5)

Для достижения глобального оптимума изначально принимаем =1 с уменьшением умножением на 0<<1, пока оценки не улучшатся.

Определим суммарные вероятности W(w,t) и D(d,t) следующим образом:

(6) (7)

По формуле (5) получим:

(8) (9)

Алгоритм лингвосемантического анализа примет вид (рис. 2).

T – множество предметных областей; M – число обрабатываемых (буферных) документов; Z – массив размера M с парами (w, d) «номер термина – номер документа»; Q(m,t) – массив для m-х промежуточных значений рассматриваемой t-области SumAll(m,QS,QT) – коммуникационная процедура, получает массив QS, передает для вычисления суммы всех значений ото всех процессов, и возвращает их в массив QT.


Pages:   || 2 | 3 |
 

Похожие работы:







 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.