(ехнический университет) лобанов валерий юрьевич методы оценки силы связей с участием нечисловых факторов, характеризующих состояние объекта принятия решений
111На правах рукописи
Московский энергетический институт
(технический университет)
Лобанов Валерий Юрьевич
Методы оценки силы связей с участием нечисловых факторов, характеризующих состояние объекта принятия решений
Специальность 05.13.01. – ”Системный анализ, управление и обработка информации (информатика)”
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Москва, 2011
Работа выполнена на кафедре Управления и информатики Московского энергетического института (технического университета)
Научный руководитель: кандидат технических наук
доцент
Фомин Геннадий Александрович
Официальные оппоненты: доктор технических наук
профессор
Лецкий Эдуард Константинович
кандидат технических наук
Некрасов Иван Валериевич
Ведущая организация: Федеральное государственное бюджетное научное учреждение «Государственный научно-методический центр»
Защита состоится “13” октября 2011 г. в 16 часов 00 мин. на заседании диссертационного совета Д 212.157.08 при Московском энергетическом институте (техническом университете) по адресу: 111250, Москва, ул. Красноказарменная, д. 14, Малый актовый зал.
С диссертацией можно ознакомиться в библиотеке Московского энергетического института (технического университета).
Отзывы в двух экземплярах, заверенные печатью, просьба направлять по адресу: 111250, Москва, ул. Красноказарменная, д. 14, Ученый совет
МЭИ (ТУ).
Автореферат разослан “ ” _________________ 2011 года
Ученый секретарь
диссертационного совета Д 212.157.08
кандидат технических наук
доцент Д.Н.Анисимов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ.
Диссертационная работа посвящена разработке и исследованию статистических методов оценки силы связей, содержащих нечисловые факторы.
Актуальность работы. Одной из наиболее актуальных областей применения современных информационных технологий при решении задач управления сложными объектами как технической, так и нетехнической природы стало в последнее время создание систем поддержки принятия решений (СППР). Основу СППР составляют средства сбора, обработки и анализа данных об объектах управления. Развитость средств анализа данных характеризует общий уровень реализации СППР, поэтому в последние годы в мире активно ведется разработка новых методов, средств и технологий анализа данных, которые в литературе часто объединяются под общим названием «добыча данных» (Data Mining).
Во многих системах управления накопились значительные объемы данных, отражающие их деятельность за предыдущие периоды времени функционирования. Есть основания полагать, что в этих массивах присутствует очень важная информация, использование которой может позволить существенно повысить эффективность деятельности, обеспечить её более высокое качество. Вопрос состоит в том, как выделить эту полезную информацию.
СППР, как правило, применяется при решении задач управления сложными объектами. Под сложностью понимаются:
- многоаспектность происходящих в объекте процессов и их взаимосвязанность; в силу этого невозможно вычленение и детальное исследование отдельных явлений – все происходящие в них явления должны рассматриваться в совокупности;
- отсутствие достаточной количественной информации об объекте, что вынуждает переходить к его качественному анализу.
В качественных моделях объект описывается в терминах некоторого набора его характеристик – факторов, между которыми устанавливаются связи.
При анализе связей в сложных объектах можно выделить три последовательных этапа. Сначала выясняется сам факт наличия связи между факторами, в терминах которых описывается объект. Если установлено наличие связи, выясняют, какова сила этой связи. Если необходима дальнейшая детализация описания связи, переходят к разработке ее математической модели.
Построение полноценной математической модели связи зачастую является крайне трудоемким процессом, поэтому второй шаг, на котором происходит анализ связей на качественном уровне и которому посвящено данное исследование, является крайне важным с точки зрения эффективного распределения ресурсов исследователя – математическая модель будет строиться только в тех случаях, когда это действительно целесообразно.
Выделение факторов и выдвижение гипотез о наличии связей между ними осуществляется экспертом, строящим модель. Одной из основных характеристик связи между факторами является её сила. Она может быть оценена двумя методами – экспертным (на основании знаний эксперта) и формальным (на основании анализа данных наблюдений факторов). До сих пор при качественном моделировании в основном применялись экспертные методы, что во многом обусловлено широтой области их применения и относительной простотой. Однако в настоящее время в данной задаче становится весьма перспективным и формальный метод – ввиду объективности результатов, которые могут быть получены на основе анализа накопленных данных наблюдений.
Оценка силы связи между количественными факторами формальным методом может быть осуществлена с использованием получившего особенно широкое распространение в технических дисциплинах анализа корреляций. В литературе, посвященной анализу данных, рассматриваются меры, позволяющие оценивать силу связи между факторами, измеренными в нечисловых шкалах: порядковой и номинальной.
Связи, в которых типы шкал факторов совпадают, будут называться однородными. В практической работе часто требуется анализировать неоднородные связи, то есть связи, в которых типы шкал факторов не совпадают. Эти связи, естественным образом, содержат нечисловые факторы. Анализ литературы не позволяет выявить каких-либо мер или четких рекомендаций по оценке силы неоднородных связей, поэтому становится актуальной задача их разработки и исследования.
Среди всех возможных типов связей с участием нечисловых факторов особый интерес представляют связи между количественным и номинальным факторами, что обусловлено их широкой распространенностью.
Цель диссертационной работы
Разработка и исследование методов оценивания силы связей между количественным и номинальным факторами и создание средств автоматизации процесса вычисления оценок силы этих связей с использованием данных наблюдений, полученных на объекте управления.
Задачи исследования
- Нахождение методов преобразования типов шкал факторов для приведения задачи оценивания силы неоднородных связей к задаче оценивания силы однородных связей.
- Разработка мер силы связи между количественным и номинальным факторами для расчета оценок этой силы без использования преобразования типов шкал.
- Систематизация методов оценки силы однородных и неоднородных связей и разработка методических рекомендаций по выбору мер для оценивания силы связей, содержащих нечисловые факторы.
- Разработка программного средства поддержки анализа межфакторных связей и исследования их статистических свойств.
Научная новизна
- Предложены не рассматривавшиеся ранее в литературе методы приведения задачи оценивания силы связи между факторами, измеренными в количественной и номинальной шкалах, к задачам оценивания однородных связей за счет преобразования шкал факторов.
- Разработана новая мера силы направленной связи между влияющим количественным и зависимым номинальным факторами на основе расстояния Бхаттачария, дающая возможность вычислять оценки без использования преобразования шкал факторов.
- Разработана новая мера силы направленной связи между влияющим номинальным и зависимым количественным факторами на основе соотношения компонентов дисперсии количественного фактора, также дающая возможность вычислять оценки силы связи без использования преобразования шкал.
- С использованием имитационного моделирования обоснованы условия применения различных мер силы связи.
Достоверность и обоснованность научных результатов и положений диссертации подтверждается использованием методов статистического анализа данных, планирования имитационных экспериментов, а также совпадением результатов, полученных с помощью предлагаемых мер и с помощью известных мер силы связи на задачах, в которых такие меры могли одновременно применяться.
Практическая ценность результатов
- Разработаны методические рекомендации по выбору метода оценивания силы связи в зависимости от типов входящих в нее факторов, а также от имеющихся предположений о ее свойствах.
- Для автоматизации процесса расчета оценок сил межфакторных связей разработана библиотека программ для среды MATLAB, позволяющая оценивать силы однородных и неоднородных связей.
- Получены оценки сил ряда связей между факторами, описывающими задачу организации научно-исследовательских работ в России.
- Создано программное средство учебного назначения, реализующее функции расчета оценок силы однородных и неоднородных межфакторных связей, предназначенное для использования при проведении лабораторных работ по дисциплине «Системы поддержки принятия решений».
Апробация работы.
Результаты работы обсуждались на XVIII научно-техническом семинаре «Современные технологии в задачах управления, автоматики и обработки информации» в г. Алушта в 2009г., на XVIII международной научно-технической конференции «Информационные средства и технологии» в г. Москва в 2010г, а также на XVI международной научно-технической конференции студентов и аспирантов «Радиоэлектроника, электротехника и энергетика» в г. Москва в 2010г.
Получено свидетельство о регистрации разработанного программного средства учебного назначения в Объединенном Фонде Электронных Ресурсов «Наука и Образование» (ОФЭРНиО) Института Научной Информации и Мониторинга (ИНИМ)
Публикации.
По материалам диссертации было опубликовано 7 работ, в том числе – 2 работы в журналах из перечня ВАК.
Структура и объем работы.
Диссертационная работа состоит из введения, 5 глав, заключения, списка библиографических источников из 168 наименований. Общий объем работы составляет 120 страницы.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ:
Во введении дается обоснование актуальности темы, рассматриваются предпосылки для проведения исследований, приводится научная новизна и практическая значимость работы.
В первой главе приведен аналитический обзор литературы по методам оценки силы однородных межфакторных связей, рассмотрены основные подходы к анализу неоднородных связей, а также дано описание современного программного обеспечения, которое может быть использовано для оценки силы связей.
Основной характеристикой связи является ее сила, описывающая степень влияния одного фактора на другой. Сила связи задается с помощью числа на интервале [0,1]. «0» соответствует отсутствию связи. Для направленной связи «1» соответствует ситуации, когда значения зависимого фактора полностью определяются значениями влияющего, а для ненаправленной, когда значения каждого из двух факторов полностью определяют значения другого.
Состояние объекта управления описывается K факторами, которые могут быть измерены в трех типах шкал: количественной, порядковой и номинальной. Факторы рассматриваются как случайные. Между ними существуют парные связи, среди которых могут быть как однородные, то есть связи между факторами, измеренными в однотипных шкалах, так и неоднородные, то есть связи между факторами, измеренными в разнотипных шкалах. При рассмотрении отдельной связи будем обозначать влияющий фактор через X, а зависимый – через Y. Значения факторов X и Y подчиняются совместному распределению f(X,Y), которое является неизменным в процессе функционирования объекта.
Эмпирическая информация о совместном распределении факторов доступна в виде данных наблюдений, каждое из которых представляет пару значений факторов, измеренных в соответствующих им шкалах в некоторый фиксированный момент времени: , где N – количество наблюдений, а xi и yi – значения факторов в i-ом наблюдении. В данных наблюдений отсутствуют измерительные ошибки. Они обладают свойством представительности, то есть достаточно полно отражают характеристики связи.
На рис. 1 приведена классификация методов анализа однородных и неоднородных связей. Анализ литературы показал, что для однородных связей все достаточно хорошо изучено. Для неоднородных связей это не так.
В работе рассматриваются два подхода к решению задачи оценки силы неоднородных связей: путем преобразования типов шкал факторов для сведения к задаче оценивания однородных связей, меры силы связи для которых известны, и без него. Первый подход упоминается в литературе, но при этом не приводится конкретных процедур, поэтому требуется их создание и детальное описание. Второй подход требует разработки специализированных мер.
Рис. 1. Методы анализа парных межфакторных связей
В настоящее время на рынке программного обеспечения (ПО) существует большое количество разнообразных средств, позволяющих проводить статистический анализ данных. Хотя, в основном, данное ПО направлено на анализ зависимостей, оно содержит также и некоторые функции, применимые для оценки силы связей.
Было произведено сравнение ПО общего назначения Microsoft Excel, среды для технических вычислений MathWorks MATLAB и двух статистических пакетов StatSoft Statistica и IBM SPSS. Во всех четырех продуктах наблюдается недостаток следующих функций:
- меры для неоднородных связей
- возможности преобразования типов шкал
В связи с указанным недостатком функциональности существующих программных средств практический интерес представляет задача разработки отдельного программного средства или же расширения функциональности существующих.
Во второй главе разрабатываются две группы методов оценивания связи между количественным и номинальным факторами: с преобразованием типов шкал факторов и, тем самым, со сведением задачи к оцениванию однородной связи и с использованием специализированных мер силы неоднородной связи.
С использованием процедур преобразования типов шкал факторов задача оценки неоднородных связей может быть сведена к задаче оценки однородных связей. Были разработаны два типа преобразований: однофакторные и двухфакторные. Однофакторные используется при преобразовании количественной шкалы к порядковой, количественной к номинальной и порядковой к номинальной, а двухфакторные – при преобразовании номинальной шкалы к порядковой, номинальной к количественной и порядковой к количественной. Если однофакторные преобразования оказываются относительно простыми, то для двухфакторных необходимо решать оптимизационную задачу численными методами, что приводит к значительным затратам вычислительных ресурсов и, в общем случае, не гарантирует поиска глобального экстремума.
В качестве примера однофакторного преобразования рассмотрим преобразование количественной шкалы фактора X к номинальной.
- Зададимся количеством номиналов m, кодами номиналов
и вероятностями появления номиналов
- Значения количественного фактора X расположим в вариационный ряд:
23
- Разобьем вариационный ряд на m интервалов таким образом, чтобы каждому из первых (m-1) интервалов принадлежало по
значений из ряда, где
обозначает округление к ближайшему целому вниз, а последнему интервалу –
значений
- Значениям фактора X, принадлежащим i-ому интервалу, будем ставить в соответствие номинал
и вместо количественных значений xj использовать соответствующие им номиналы
С помощью разработанной процедуры задача оценки силы неоднородной связи между количественным и номинальным факторами сводится к задаче оценки силы однородной связи между двумя номинальными факторами, меры силы связи для которой известны.
В качестве примера двухфакторного преобразования рассмотрим преобразование номинальной шкалы фактора Y к порядковой. При этом предполагается, что второй фактор Х, участвующий в связи, также измерен в порядковой шкале
Для преобразования номинальной шкалы к порядковой предложено установить на номиналах Y такое отношение порядка Omax, которое будет отвечать максимуму оценки коэффициента Спирмена . Для этого разработана следующая процедура:
- Установим на множестве номиналов
фактора Y некоторое отношение порядка O1
- С учетом O1 рассчитаем оценку коэффициента Спирмена
, где Y(O1) – значения Y в порядковой шкале, полученные с использованием установленного отношения порядка O1
- Последовательно перебирая все m! возможных отношений порядка Oi, будем вычислять значения коэффициента Спирмена
- Среди всех возможных отношений порядка Oi выберем такое, отношение Omax, которое максимизирует значение коэффициента Спирмена
- В качестве искомой оценки силы связи будем использовать
Рассмотрим подход к оценке силы связи между количественным и номинальным факторами без использования преобразования типов шкал. В рамках этого подхода рассматривается две задачи. В первой задаче влияющий фактор X измерен в количественной шкале, а зависимый фактор Y – в номинальной шкале. При этом множество возможных значений (номиналов) Y известно:
Распределение фактора X представляет собой взвешенную с вероятностями появления номиналов сумму m условных распределений
, соответствующих отдельным номиналам фактора Y:
, 4 5
Подобная связь традиционно рассматривается в задачах классификации. При этом данные наблюдений называются обучающей выборкой, и ставится задача на основании данных обучающей выборки построить правило, способное по значению количественного фактора X указать наиболее вероятное значение номинального фактора Y.