авторефераты диссертаций БЕСПЛАТНАЯ РОССИЙСКАЯ БИБЛИОТЕКА - WWW.DISLIB.RU

АВТОРЕФЕРАТЫ, ДИССЕРТАЦИИ, МОНОГРАФИИ, НАУЧНЫЕ СТАТЬИ, КНИГИ

 
<< ГЛАВНАЯ
АГРОИНЖЕНЕРИЯ
АСТРОНОМИЯ
БЕЗОПАСНОСТЬ
БИОЛОГИЯ
ЗЕМЛЯ
ИНФОРМАТИКА
ИСКУССТВОВЕДЕНИЕ
ИСТОРИЯ
КУЛЬТУРОЛОГИЯ
МАШИНОСТРОЕНИЕ
МЕДИЦИНА
МЕТАЛЛУРГИЯ
МЕХАНИКА
ПЕДАГОГИКА
ПОЛИТИКА
ПРИБОРОСТРОЕНИЕ
ПРОДОВОЛЬСТВИЕ
ПСИХОЛОГИЯ
РАДИОТЕХНИКА
СЕЛЬСКОЕ ХОЗЯЙСТВО
СОЦИОЛОГИЯ
СТРОИТЕЛЬСТВО
ТЕХНИЧЕСКИЕ НАУКИ
ТРАНСПОРТ
ФАРМАЦЕВТИКА
ФИЗИКА
ФИЗИОЛОГИЯ
ФИЛОЛОГИЯ
ФИЛОСОФИЯ
ХИМИЯ
ЭКОНОМИКА
ЭЛЕКТРОТЕХНИКА
ЭНЕРГЕТИКА
ЮРИСПРУДЕНЦИЯ
ЯЗЫКОЗНАНИЕ
РАЗНОЕ
КОНТАКТЫ


Pages:   || 2 |

Автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде интернет

-- [ Страница 1 ] --

На правах рукописи

Рощин Сергей Михайлович

АВТОМАТИЗАЦИЯ МОНИТОРИНГА И СИСТЕМНОГО АНАЛИЗА РАСПРЕДЕЛЕННОЙ ПРОБЛЕМНО-ОРИЕНТИРОВАННОЙ ИНФОРМАЦИИ В СРЕДЕ ИНТЕРНЕТ










Специальность 05.13.01 – Системный анализ, управление и обработка информации (по техническим наукам)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени
кандидата технических наук







Брянск 2005

Работа выполнена на кафедре «Компьютерные технологии и системы»
Брянского государственного технического университета

Научный руководитель: заслуженный деятель науки РФ, д.т.н, профессор

В.И. Аверченков





Официальные оппоненты: д.т.н, профессор А.В. Андрейчиков

к.т.н., доцент Б.И. Квитко



Ведущая организация: Орловский государственный

технический университет









Защита состоится 21 июня 2005 года в 15 часов на заседании
диссертационного совета К212.021.01 при Брянском государственном техническом университете по адресу: 241035, Брянск, бульвар 50-летия Октября, д. 7.

С диссертацией можно ознакомиться в библиотеке Брянского
государственного технического университета.

Автореферат разослан «20» мая 2005 года.

Ученый секретарь

диссертационного совета к.т.н., доцент В.А. Шкаберин



ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации.

В настоящее время в России принимаются законы, регулирующие действия с информацией. Правительство РФ придает огромное значение научно-техническому прогрессу. Первостепенной задачей становится, прежде всего, его дальнейшее ускорение, направленное на повышение эффективности производства и достижение высокой производительности труда.

Вследствие этого во многих сферах деятельности (промышленности, образовании, и др.) начался процесс освоения новых информационных технологий, в которых компьютерные средства используются не столько для вычислений, сколько для хранения информации и обеспечения доступа к ней. Организации создают информационные системы, переводят информационные ресурсы в электронную форму и устанавливают связи в массиве информации. Электронные информационные ресурсы ежегодно создаются, приобретаются и накапливаются, образуя большие объемы неструктурированной информации. Использование электронной информации требует решения проблемы поиска нужных пользователю сведений в большом объеме неструктурированной информации, хранящейся в компьютерах и компьютерных сетях.

Одной из главных особенностей развития информационно-телекоммуникационных технологий в промышленности, образовании и др. сферах деятельности в последние годы явилось широкое использование информационных ресурсов, доступных через сеть Интернет.

Наиболее распространенной и популярной службой в Интернете является WWW (World Wide Web). Информация в WWW представлена в виде гипертекста. Работа в WWW происходит посредством навигации. Однако поиск информации посредством навигации нельзя признать эффективным.

Другой значимой и популярной службой Интернета является FTP. Использование информации из FTP-ресурсов затруднено ввиду следующих причин. Принятая классификация файлов в каталоге может быть непонятна пользователю, не соответствовать тематике исследуемой предметной области или документы могут быть недостаточно структурированными.

Важной особенностью сети Интернет является то, что информация в ней постоянно изменяется. Предпринимаемые попытки улучшить данную ситуацию (разработка средств поиска, семантической Web, сети знаний и др.) не решают данную проблему, а лишь автоматизируют отдельные ее части.

Таким образом, быстрое развитие глобальной компьютерной сети Интернет обострило проблему поиска содержащейся в ней информации. Из-за изменения информации, доступной через сеть Интернет, навигационные методы поиска быстро достигают предела своих функциональных возможностей и эффективности применения. Основа Сети – протоколы, используемые для передачи информации, – не обеспечена достаточными встроенными функциями поиска. В сложившихся условиях потребность в использовании новых средств поиска информации в глобальной компьютерной сети Интернет становится особенно актуальной.

Приведенные особенности глобальной компьютерной сети Интернет ведут к необходимости проведения исследования процессов мониторинга и системного анализа распределенной проблемно-ориентированной информации в компьютерных сетях, а также создания программных продуктов, обеспечивающих точный и оперативный доступ к слабоструктурированной или неструктурированной информации.

Целью диссертационной работы является автоматизация мониторинга и системного анализа распределенной проблемно-ориентированной информации в сети Интернет на основе разработки новых подходов к построению методов информационного поиска, формирования и управления знаниями.

Для достижения указанной цели в работе решались следующие задачи:

  1. Построение структуры модели предметной области для автоматизации мониторинга и системного анализа информации.
  2. Разработка метода автоматизации мониторинга проблемно-ориентированной информации в сети Интернет.
  3. Разработка метода автоматического индексирования текстовой информации.
  4. Структурирование (классификация, кластеризация) информации с использованием семантических сетей для построения на основе этого хранилища данных.
  5. Представление информации на запрос пользователя в виде, удобном для восприятия и анализа, на основе технологий когнитивной графики.
  6. Разработка программного обеспечения, автоматизирующего процессы управления информацией (сбор информации, ее анализ и хранение, представление информации пользователю на запрос).

Объектом исследования является обработка распределенной проблемно-ориентированной информации. Предмет исследования: автоматизация мониторинга и системного анализа информации в среде Интернет.

Методы исследования. Для достижения поставленной цели использованы теория поиска и классификации информации; теория систем и системного анализа; математическое моделирование; теория графов; математический аппарат и методы теории множеств, в том числе и нечетких; теория и методы построения экспертных оценок. В разработанном программном обеспечении использовались технологии реляционных баз данных, а также методы структурного и объектно-ориентированного подхода для проектирования и реализации программных систем.

Научная новизна работы состоит в следующем:

  1. Предложены модель и алгоритм мониторинга распределенной, проблемно-ориентированной информации в сети Интернет, которые основаны на комплексном анализе рассматриваемых информационных ресурсов.
  2. Разработаны и применены методы системного анализа (индексирование, классификация и кластеризация) для обработки проблемно-ориентированной информации в среде Интернет.
  3. Предложены модель и алгоритмы автоматизации системного анализа проблемно-ориентированной информации.
  4. Введены инвариантные понятия и структура системы формирования знаний, показаны пути их использования в различных предметных областях.

Практическая полезность работы

  1. Создан программный комплекс для автоматизации мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет, позволяющий реализовать доступ к большим неструктурированным массивам информации, обеспечивая пользователю удобные средства анализа информации всего информационного массива.
  2. Разработанное программное обеспечение было проверено при решении задач на машиностроительном предприятии и в медицинских учреждениях, о чем имеются соответствующие акты внедрения. Его применение при поиске и анализе информации Интернета позволило сократить время, затрачиваемое на выполнение этих операций и тем самым ускорить процесс получения информационных ресурсов специалистами и снизить стоимость данной работы.

Публикации. Основные положения диссертационной работы были изложены в двух учебных пособиях. Также докладывались на следующих международных, всероссийских и региональных конференциях и семинарах: международной научно-технической конференции «Машиностроение и техносфера на рубеже XXI века» (Севастополь-2001), всероссийском научно-методическом семинаре «Менеджмент качества подготовки специалистов в техническом вузе» (Брянск-2001), молодежной научно-технической конференции вузов приграничных регионов славянских государств (Брянск-2002), всероссийской научно-методической конференции «Телематика’2004» (Санкт-Петербург-2004) и др.

Всего опубликовано более 30 печатных работ, из них по теме диссертации – 20 работ.

Структура и объем работы. Диссертационная работа состоит из введения, пяти глав, выводов, списка литературы и 3 приложений. Работа изложена на 172 страницах формата А4 и включает 36 рисунков, 4 таблицы, список литературы из 164 наименований и приложения на 25 страницах. Общий объем работы – 197 страниц.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность проводимой работы, а также необходимость разработки новых подходов и исследования процессов мониторинга и системного анализа распределенной проблемно-ориентированной информации в компьютерных сетях, а также создания программных продуктов обеспечивающих быстрый доступ к слабоструктурированной или неструктурированной информации. Здесь сформулирована цель работы и задачи, которые необходимо решить для достижения поставленной цели, указана научная новизна и приводится краткий обзор структуры работы.

В первой главе анализируются проблемы разработки и применения методов системного анализа обработки распределенной проблемно-ориентированной информации в среде Интернет. На основании работ В.Н. Волковой, А.А. Денисова, О.Г. Тайца, С. Оптнера, Д. Клиланда, Н.Н. Моисеева, Ю.И. Черняка, Ф.И. Перегудова и других ученых рассмотрены подходы к выполнению системного анализа информационных ресурсов. Также рассмотрены подходы и пути автоматизации анализа данных (работы: И.Ф. Кодда, Н. Пендса, С.К. Дулина, И.А. Киселева, А.В. Заболеева-Зотовой, А.В. Андрейчикова, Т.А. Гавриловой, В.Ф. Хорошевского и др.), мониторинга информации (работы: С.В. Кузнецова, О.Б. Сладковой, С.К. Дулина, Т.Я. Ашихминой, Б.А. Баллода, Э.С. Манелиса и др.), теории информационного поиска (работы: Дж. Солтона, К. Спарк-Джоунз, И.И. Попова, А.Г. Романенко, О.Ф. Самойлюка, В.А. Копылова, Ю.И. Шемакина, П.Б. Храмцова и др.)

Анализ результатов научных исследований в области мониторинга и системного анализа информационных ресурсов, а также информации web-серверов компаний–производителей современных средств поиска и систем управления знаниями («Microsoft», «IBM», «Google», «Яndex», «Рамблер Интернет Холдинг» и др.) показал наличие в них средств, позволяющих решать отдельные задачи обработки информации. В связи с этим были сделаны следующие выводы:

  1. Ввиду специфики темы работы, ориентированной на обеспечение постоянного мониторинга и системного анализа информации, проанализированы подходы к организации хранения и анализа данных на основе использования технологий хранилищ данных.
  2. Методы, используемые для обработки информации Интернета, в том числе для поиска информации, и созданные с их использованием автоматизированные программные системы реализуют лишь часть реально необходимых в организациях функций по управлению информацией. К основным нереализуемым современными подходами и системами функциям относятся:
  • описание проблемы в соответствии со структурой предметной области;
  • автоматическое расширение накопленных знаний полученных из информации сети Интернет;
  • автоматизированный анализ всего перечня результатов в
    средствах поиска;
  • централизованное управление запросами и результатами поиска из различных систем.

На рис. 1 представлен сравнительный анализ основных параметров существующих систем и разработанной в рамках диссертационной работы системы формирования знаний, а также определено место данной информационно-аналитической системы среди этих систем.

Система формирования знаний является для организации связующим звеном между системами информационного поиска Интернета и системами управления знаниями, позволяя накапливать необходимые информационные ресурсы. Проведенный на рис. 1 сравнительный анализ рассматриваемых систем выявил их основные отличительные признаки: использование модели предметной области, возможность кластеризации информации и анализа результата поиска.

 Место системы формирования-0

 Место системы формирования знаний-1

Рис. 1. Место системы формирования знаний среди подобных систем
и их характеристики

Вторая глава посвящена постановке задачи мониторинга и системного анализа распределенной проблемно-ориентированной информации в среде Интернет.

В этой главе приводится обоснование выбора и анализ свойств объекта исследования. Вводится новый тип систем – системы формирования знаний (knowledge forming system), под которыми понимается программное средство, выполняющее специально организованное, систематическое наблюдение за состоянием проблемно-ориентированных данных и получение из них знаний на основе моделей, методов и алгоритмов, опирающихся на комплексный подход и учет взаимосвязей между данными (рис. 2).

Система формирования знаний должна обеспечивать следующие функциональные возможности:

  1. описание предметной области;

  1. мониторинг проблемно-ориентированной информации;
  2. индексирование информации;
  3. предварительная обработка собранной и индексированной информации (очищение, согласование, агрегирование и др.);
  4. структурирование (кластеризация, классификация) информации для построения на основе этого хранилища данных;
  5. хранение и управление информацией в хранилище данных;
  6. понимание запроса, сформулированного пользователем, причем от пользователя не требуется знание способа организации информации в системе;
  7. выборка информации, релевантной запросу пользователя, представленной разнотипными документами;
  8. представление информации на запрос пользователя в виде удобном для восприятия и анализа.

Рассмотрен принцип работы данного типа систем, которые автоматизируют процесс сбора и анализа информации из сети Интернет, что значительно облегчает работу пользователя. Общая схема работы предлагаемой системы включает два этапа:

1. Периодически с использованием модуля управления системы запускаются на выполнение модули мониторинга и индексирования. Цель работы данных модулей – найти новые и измененные информационные ресурсы в сети Интернет относящиеся к тематике предметной области, на которую ориентирована система, скорректировать хранилище данных системы и базу знаний в соответствии с текущим состоянием информационных ресурсов.

2. Параллельно с модулями мониторинга и индексирования и независимо от них в системе выполняются другие два модуля – модуль аналитики и модуль поиска. Цель этих модулей – отобрать данные, соответствующие запросам пользователей и провести их аналитическую обработку, используя для этого многомерное хранилище данных системы и базу знаний. При этом в ответ на запрос выдаются только те данные, информация о которых уже известна системе к моменту поступления запроса, т.е. эти данные проиндексированы и занесены в хранилище данных.

Следует отметить, что разработанная система универсальна в том смысле, что подходы, используемые в ней, не зависят от конкретной предметной области. Система может быть настроена на работу с информацией из широкого спектра различных предметных областей.

Рассмотренный тип систем, основанный на формировании знаний, позволяет эффективно выполнять мониторинг и системный анализ проблемно-ориентированной информации и таким образом способствует решению многих задач в организации.

Были разработаны общие принципы математического моделирования системы формирования знаний (рис 3.). Математическая модель включает модель предметной области, а также модели процессов мониторинга, индексирования, классификации и кластеризации.

Документы, поступающие на вход в систему, проверяются на соответствие предметной области. Все соответствующие заданной предметной области документы образуют множество проблемно-ориентированных документов, каждый из которых в системе представляется в виде поискового образа. Документы классифицируются в соответствии с построенной моделью. Значительные по объему группы документов разделяются на более мелкие на основе алгоритмов кластеризации.

Сделано описание модели предметной области, на которую ориентирована система. В основе модели, описываемой предметной области, была положена семантическая сеть S:

S = <N, RN, D, RND >, (1)

где N = {N1, N2, …, NK} – множество элементов, отражающих понятия предметной области;

RN = RN ( Ni, Nj ) – отношение задающее тип и силу взаимодействия между понятиями.

D = {D1, D2, …, DL} – множество документов, относящихся к заданной предметной области;

RND = RND ( Ni, Dj ) – отношение сопоставляющее понятиям предметной области документы.

Третья глава посвящена исследованию системных связей и закономерностей функционирования процессов мониторинга и анализа распределенной проблемно-ориентированной информации в среде Интернет.

Мониторинг распределенной проблемно-ориентированной информации в сети Интернет осуществляется в разработанной системе формирования знаний на основе модели предметной области (основной частью которой является классифицирующая структура), которая формируется экспертом и выполняется путем взаимодействия системы с существующими в Сети системами информационного поиска (информационно-поисковые системы, каталоги, метапоисковые системы), а также самостоятельного исследования всего информационного пространства.

Для формализованного описания процесса мониторинга путем навигации в данных службах используется аппарат теории графов.



Pages:   || 2 |
 





 
© 2013 www.dislib.ru - «Авторефераты диссертаций - бесплатно»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.