Новая схема применения автоматической классификации для анализа социально-экономических систем



Скачать 56.21 Kb.
Дата06.06.2016
Размер56.21 Kb.
НОВАЯ СХЕМА ПРИМЕНЕНИЯ АВТОМАТИЧЕСКОЙ КЛАССИФИКАЦИИ ДЛЯ АНАЛИЗА СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ СИСТЕМ

Александр Рубчинский
Аннотация

Для социально-экономических систем, чьё функционирование определяется поведением лю-дей, трудно надеяться на получение количественных зависимостей между их параметрами на ос-нове стандартных (даже достаточно изощренных) статистических методов. Более того, во многих случаях само выделение описывающих такие системы параметров является весьма проблематич-ным. Эти, как и многие другие, обстоятельства уже довольно давно вызвали к жизни методы структурной обработки данных, среди которых автоматическая классификация (далее для краткос-ти АК) играет важную роль.

В наиболее распространенной постановке задача АК состоит в разбиении исходного множест-ва объектов (вариантов, точек и т.д.) на классы (часто называемые кластерами) таким образом, чтобы близкие (похожие) объекты попадали в один и тот же класс, а дальние (непохожие) объекты – в разные классы. При этом само разбиение исходного множества, часто содержащего многие ты-сячи объектов, на небольшое число хорошо различимых классов, позволяет сформулировать ра-зумные гипотезы о рассматриваемой системе, формализовать её описание, выделить небольшое число важных параметров и т.д., - словом, как говорил замечательный математик И.И. Пятецкий-Шапиро, понять, «как устроен мир в этом месте».

Многочисленные успешные примеры использования автоматической классификации для ана-лиза разнообразных систем, в том числе не только социально-экономических, хорошо известны и подробно описаны в литературе. Однако опыт работы как с модельными, так и с реальными систе-мами позволяет сделать вывод о других возможностях применения АК, отличных от построения одной, наиболее разумной в том или ином смысле, классификации исходного множества объектов. Суть дела состоит в построения некоторого, достаточно широкого, семейства классификаций ис-ходного множества и в определении по этому семейству одного числового показателя. Введенный показатель характеризует сложность данной задачи АК в целом, а не той или иной конкретной классификации. Оказалось, что он представляет собой важную характеристику исходной системы. В зависимости от специфики рассматриваемых систем, данный показатель может иметь различ-ные содержательные интерпретации. Однако в общем случае все же можно говорить об их слож-ности, запутанности, неясности и пр. – показателям важным, но с трудом поддающимся точным определениям.



Изложение предложенного подхода к задачам АК, а также полученных в его рамках ре-зультатов, и является целью настоящего доклада.

Как упомянуто выше, в основе предложенного подхода лежит построение семейства класси-фикаций. Оно строится следующей трехуровневой процедурой, которая кратко описана ниже.

На внешнем уровне осуществляется несколько прогонов алгоритма, работающего с одними и теми же исходными данными, но при разных инициализациях случайного датчика. Он назван ди-визимно-агломеративным алгоритмом (далее для краткости ДАА). Результатом его работы на каждом прогоне является семейство классификаций. В наиболее простых случаях эти семейства совпадают, но в большинстве реальных и модельных задач АК это не так. Единственным парамет-ром на этом уровне является число прогонов r.

На промежуточном уровне на каждом прогоне работает ДАА, который строит одно семейст-во классификаций. Единственным параметром на этом уровне является число последовательных дихотомий k. После каждой дихотомии производится последовательное объединение полученных классов, так что общее число построенных на этом уровне классификаций равно .

ДАА основан на новом алгоритме дихотомии графов. Алгоритм дихотомии многократно при-меняется при работе ДАА; он представляет собой внутренний уровень предложенной трёхуров-невой процедуры.

После построения указанного семейства делается следующее. Находим число d всех различ-ных классификаций среди всех g = классификаций, построенных описанной выше проце-дурой. Сложность Q исходной задачи АК определяется как отношение чисел d и g: Q = d g. По построению, 0 < Q ≤ 1.

Интуитивно ясно, что малые (близкие к 0) значения Q соответствуют сравнительно простым задачам АК, в которых разными являются только k классификаций, получаемых при последова-тельном делении исходного множества объектов на 2, 3, …, k частей. Объединения на агломера-тивных шагах и прогоны при разных инициализациях случайного датчика не добавляют новых классификаций. Большие (близкие к 1) значения Q соответствуют сравнительно сложным задачам, в которых все найденные классификации оказываться существенно зависящими от инициализации случайного датчика, а агломерации приводят к различным классификациям.

Легко видеть, что указанным образом определенная сложность Q зависит от обоих параметров r и k. Однако при их росте величина Q достаточно быстро стабилизируется. Для рассмотренной ниже реальной ситуации сходимость имеется уже при r = k = 10. В предложенной процедуре эти параметры выбираются адаптивно, т.е. вычисления прекращаются при достижении разумной ста-бильности.

Разработанный подход к определению сложности задачи АК был применен к анализу голосо-ваний во 2-ой, 3-ей и 4-ой Думе РФ (1996 – 2007 гг.). Для каждого месяца работы были рассмотре-ны результаты всех голосований. Каждому i-му депутату (i = 1, 2, …, m) был сопоставлен вектор vi = (, , …, ), где n – число голосований в данном месяце, m – число депутатов.

Положим


=

Несходство dst между s-ым и t-ым депутатами определялось как обычное евклидово расстоя-ние между векторами vs и vt. Матрица несхожести D = (dst) была исходной для определения се-мейств классификаций описанной выше процедурой.



Сложность была подсчитана для каждого месяца работы Думы в течение рассматриваемого 12-летнего периода. В таблице приведены усредненные значения сложности: за каждые год и за пе-




1-ый год

2-ой год

3-ий год

4-ый год

Дума 2

0.606

0.332

0.415

0.320

Дума 3

0.190

0.145

0.096

0.151

Дума 4

0.249

0.252

0.217

0.217



Дума 2

Дума 3

Дума 4

0.418

0.147

0.235



риод работы каждой Думы. Минимальное значение по годам относится к 2002 году – сразу после объединительного съезда «Единой России» 01.12.2001. Здесь сложность менее 0.1. Представляет-ся, что низкое значение сложности в 2002 году связано с созданием партии «Единая Россия» и свя-занными с этим событием успешными попытками наведения порядка в работе Думы. Интересно, что в 4-ой Думе при конституционном большинстве «Единой России» уровень сложности заметно выше, чем в 3-ей Думе (0,235 против 0,147), в которой не было большинства ни у одной партии. Такого рода выводов не было получено при анализе деятельности Думы за тот же период другими методами. Можно сказать, что для голосующих органов высокая сложность соответствующих за-дач АК означает несогласованности, непоследовательность, нерациональность всего органа, а не только отдельных фракций и депутатов.



Каталог: uploads
uploads -> Черноземова Е. Н. История английской литературы: Планы. Разработки. Материалы. Задания. 2-е изд., испр
uploads -> Учебное пособие характеризует экзистенциализм в русском информационном пространстве как специфический принципа создания произведения и комплекса идей. Через ответ на этот вопрос делается выход на социальное значение журналистики
uploads -> Ч. А. Тукембаев реинкарнация – ключ к истине
uploads -> Русский хит а – Студио – Fashion Girl
uploads -> Репертуар группы cosa nostra русский хит
uploads -> Современные хиты Зарубежные хиты
uploads -> Испанский язык с любовью Caridad Bravo Adams. Corazón salvaje
uploads -> 100 книг, которые нужно прочесть «Заводной апельсин» Энтони Берджесс


Поделитесь с Вашими друзьями:


База данных защищена авторским правом ©uverenniy.ru 2019
обратиться к администрации

    Главная страница