Реферат по предмету "Математика"


Характеристика моделирования, понятия модели

--PAGE_BREAK--
16. Оценка существенности связи

Точность или надежность изучения результатов корреляционной связи зависит от количества сопоставимых данных, число которых очень часто бывает ограниченно, поэтому полезно рассчитать погрешность вычисленного kкорреляции или его сущность.

Сущность линейного kкорреляции рассчитывают на основе критерия Стьюдента, при этом проверяется гипотеза равенства kкорреляции = 0,   для этого рассчитывается t-расчетное, которое должно быть > t-табличного:

, mr– среднеквадратическая ошибка, которая рассчитывается  (при большом V выборки), и  (при малом Vвыборки).

Если t-расчетное > t-табличного – существенность kкорреляции, Vвыборки достаточен.

Если   t-расчетное
17. Построение модели множественной регрессии

Построение модели множественной регрессии включает в себя несколько этапов:

1)Выбор формы связи

2)Отбор факторных признаков

3)Обеспечение достаточного Vсовокупности для получения несмещенных оценок.

1 этап: сущность метода связана с выбором функции, заключается в том, что из большого числа уравнения регрессии, которая предлагается ПО на ЭВМ необходимо отобрать ту, которая описывает связи соц-экономических явлений.

Выбор функции сопровождается проверкой через показатели t-критерий Стьюдента и F-критерий Фишера.

Для описания соц-эконом. явлений более всего подходят 5 основных моделей:

— линейное уравнение y=a+a1x1+…+anxn

— степенное уравнение

— гиперболическое

— параболическое

— экспонециональное

2 этап: важным этапом построения уже выбранного уравнения является отбор факторных признаков, т.е определение размерности моделей.

Проблема отбора факторных признаков для построения моделей связи может быть решена на основе эвристических методов (метод экспертных оценок) или с использованием многомерных статистических методов анализа.

Наиболее распространенный метод пошаговой регрессии. Сущность метода пошаговой регресс заключается в последовательном включении факторных признаков в уравнение регрессии и последующей проверки их значений.

При проверке значимости введенного фактора определяется на сколько уменьшается сумма квадратов остатков и растет величина множественного коэффициента корреляции [R].

Фактор является не значимым, если его включают в уравнение регрессии только изменяет значение kрегрессии не уменьшая при этом сумму квадратов остатков и не увеличивая R.
18. Отбор факторных признаков для включения в модель множественной регрессии

 Важным этапом построения уже выбранного уравнения является отбор факторных признаков, т.е определение размерности моделей.

Проблема отбора факторных признаков для построения моделей связи может быть решена на основе эвристических методов (метод экспертных оценок) или с использованием многомерных статистических методов анализа.

Наиболее распространенный метод пошаговой регрессии. Сущность метода пошаговой регресс заключается в последовательном включении факторных признаков в уравнение регрессии и последующей проверки их значений.

При проверке значимости введенного фактора определяется на сколько уменьшается сумма квадратов остатков и растет величина множественного коэффициента корреляции [R].

Фактор является не значимым, если его включают в уравнение регрессии только изменяет значение kрегрессии не уменьшая при этом сумму квадратов остатков и не увеличивая R.

Если при включении в модель факторного признака величина R увеличивается, а kрегрессии не меняются или меняются не значительно, то данный признак существенен и его включают в уравнение регрессии и наоборот.
19. Понятие мультиколлинеарности. Причины возникновения и способы устранения.

Под мультиколлинеарностью понимают тесноту зависимости между факторными признаками включенными в модель.

Наличие мультиколлинеарности между признаками приводит к следующему:

1)Искажается величина, параметров модели которые имеют тенденцию к завышению

2)Изменяется смысл экономической интерпретации kрегрессии (коэффициенты при х – а1, а2)

3)Усложняется процесс определения наиболее существенных факторных признаков, поэтому при решении проблем мультиколлинеарности выдерживаются несколько этапов:

— установление наличия М

— определение причин возникновения М

— разработка мер по ее устранению

                        Возникновение М вызвано следующими причинами:

-Факторные признаки отображают одну и ту же сторону процесса

-В качестве факторного признака используются показатели, суммарное значение которых представляет собой постоянную величину

-Факторные признаки являются составными элементами друг друга

-Факторные признаки по экономическому смыслу дублируют друг друга

Индикатором определения наличия М между факторными признаками является парный коэффициент корреляции между 2-мя факторными признаками.

Если он превышает величину 0,8, то М присутствует.

Для устранения М необходимо из корреляционной модели исключить один из признаков или преобразовать факторный признак в новый.

Выбор какой из факторных признаков необходимо исключить осуществляется на основе логического анализа.

Для этого сравнивается линейный kкорреляции данных факторных признаков с результативным, исключают тот факторный признак, у которого линейный kкорреляции с результативным признаком меньше.
21. Меры тесноты связей в многофакторной системе

Многофакторная система требует не одного, а несколько показателей тесноты связи. Основой изменения связи является матрица парных коэффициентов корреляции.

На основе этой матрицы можно судить о тесноте связи факторов с результативным фактором при включении их в уравнение регрессии.

При множественной регрессии тесноту связи характеризует множественный коэффициент корреляции [R]. Помимо Rмерой тесноты связи является коэффициент детерминации [R2]. Также нормируемый коэффициент регрессии [β].
22. Множественный коэффициент корреляции, проверка значимости

При множественной регрессии тесноту связи характеризует множественный коэффициент корреляции [R]. Рассчитывается при наличии линейной связи между результативным признаком и несколькими факторами.

Rвсегда положителен, изменяется [0;+1]. Приближение Rк 1 свидетельствует о сильной зависимости между признаками.

Проверка значимости Rосуществляется по F-критерию Фишера.

,

Где R2 – kдетерминации, n– количество наблюдений, m– количество факторных признаков.
23. Коэффициент детерминации. Коэффициент эластичности

Помимо множественного коэффициента корреляции мерой тесноты связи является и коэффициент детерминации [R2]. Коэффициент детерминации характеризует какая доля вариации результативного признака обусловлена изменением факторных признаков включенных в модель (уравнение множественной регрессии).

Для анализа также используется частный коэффициент эластичности рассчитывается по формуле:




Где эi– kэластичности

аi– kрегрессии при соответствующем факторном признаке

 – среднее значение факторного признака

  — среднее значение результативного признака

Коэффициент эластичности показывает на сколько % в среднем изменится значение результативного признака при изменении факторного признака на 1 %.
24. Коэффициенты регрессии. Нормированные коэффициенты регрессии

Для экономического анализа используют коэффициенты регрессии, поэтому подбирают уравнение множественной регрессии. Регрессионная модель позволяет количественно оценить действия факторов, kрегрессии позволяют судить об относительном вкладе факторного признака в регрессию.

Значимость коэффициента регрессии определяется также нормированным коэффициентом регрессии [β].

Существует простая связь между нормированным и ненормированным коэффициентами регрессии:


25. Корреляционно-регрессионная модель

Корреляционно-регрессионной моделью в системах взаимосвязанных признаков является такое уравнение регрессии, которые включают основные факторы, влияющие на вариацию результативного признака и обладает высоким коэффициентом детерминации (не менее 0,5) и значимыми kрегрессии.

Коэффициент детерминации >0,5 означает, что результативный признак У должен зависеть более чем на 50% от совокупности факторов включенных в модель из этого следовательно не любое уравнение регрессии можно считать моделью.

Существует ряд рекомендаций для построения корреляционно-регрессионной модели:

1)Признаки-факторы должны находится в причинной связи с результативным признаком, т.е должна быть  в наличии корреляционная связь.

2)Признаки не должны быть составными частями результативного признака или его функции

3)Признаки-факторы не должны дублировать друг друга, т.е быть коллинеарными.

Использование корреляционно-регрессионной модели для прогноза состоит в подстановке уравнения регрессии, ожидаемых значений факторных признаков для расчета точечного прогноза результативного признака.
26. Стадии оптимизационного моделирования

1- изучение экономического процесса или объекта моделирования

2- постановка э-м задачи с четким определением цели

3- определение переменных и ограничений задачи

4- математическая запись модели через буквенные символы

5- сбор информации и разработка технико-экономических коэффициентов

6- разработка числовой развернутой эм модели

7- решение задач на ПК, анализ результатов, корректировка модели, решение с учетом корректировки

8- экономический анализ выполненных расчетов и выбор оптимального варианта решения задач

1Отвечает на вопрос что мы могли получить

2Постановка задачи имеет решающее значение, от этого зависит в каком виде будет представлена модель. При подстановке выявляются не известные параметры, а также вся совокупность факторов, влияющих на размер тех параметров, которые представлены в качестве неизвестных. Очень важный момент – выбор функции цели (критерия opt) Критерий optвыступает как признак, по которому осуществляется выбор наилучшего варианта.

3После начального анализа и выбора критерия optустанавливается, что же будет неизвестной величиной. Неизвестное обозначается xj, при этом j(1;n). Переменные могут быть как основными так и дополнительными. Основные переменные могут отображать искомые площади по видам использования, видам угодий, площади под с/х культурами, V производства того или иного вида продукции, Vпроизводства в стоимостном выражении. Состав и количество переменных зависят от продуктивного планового периода, степенью детализации, размера объекта. Одновременно с определением переменных устанавливается их единица измерения, при выборе единицы измерения следует руководствоваться некоторыми принципами:

— размерность переменных должна быть удобной для получения необходимой информации, для расчета ТЭК

— принятая размерность не должна требовать дополнительной сложности расчетов

— следует избирать однотипные единицы измерения, они должны быть такими чтобы одноименные показатели не отличались между собой

После установления переменных определяется состав ограничений. Состав ограничений охватывает следующие группы условий:

1По использованию ресурсов (производственные, земельные)

2По обязательному производству продукции

3Устанавливающие пропорции между используемыми ресурсами, между отраслями

4По гарантируемому производству специфической продукции

5Взаимосвязи между отдельными переменными

Ограничения, которые накладываются на все или большинство переменных, выражают основные условия задачи.

Дополнительные ограничения накладываются на отдельные переменные или на небольшое количество переменных, эти ограничения обычно учитывают особенности процесса, отдельные требования по производству продукции.

Вспомогательные ограничения не имеют особого экономического смысла, используются для правильного оформления экономических требований.

1)Тот состав ограничений, который был выделен, записывается с помощью буквенных символов, т.е оформление в виде математической записи с помощью различных k. kпри переменных обозначаются через английские буквы с соответствующими индексами.

Общий вид целевой функции:  min

2)Исходной информацией для составления э-м задачи являются годовые отчеты, производственные планы, текущая информация. Достоверность и устойчивость результатов решения зависит от качества использования информации и ТЭК

3)После подбора информации необходимых ТЭК для каждой группы ограничений, которые записаны через буквенные символы, составляется развернутая численная модель или уравнение (неравенство), где вместо aijбудет стоять конкретный числовой параметр

4)Специальная программа, в которую вводится матрица выдает optили не optрешение. Если решение не opt, это значит:

-Допущена ошибка при введении информации в программу

-Не правильно сформулировано ограничение

-Не сбалансированы ресурсы

27. Матрица экономико-математической модели

Матрица – это специальная таблица, содержащая основную информацию о моделируемом объекте – смысловые или кодовые обозначения функции цели, переменных и ограничений, их численное выражение в виде конкретных коэффициентов и ограничений.

В э-м задаче применяются 2 наиболее общих способа расположения элементов в матричной модели – прямоугольный и блочный.

Прямоугольная матричная модель представляет собой обычную таблицу с различным соотношением значащих и нулевых элементов (разной заполненности).

Матричная модель с блочным расположением информации – таблица, составленная из прямоугольной матрицы, обычно расположена по диагонали каждому из блоков в э-м задаче соответствуют  свои значения правой части и строки содержащие kцелевой функции. Объединение блоков в единую модель обеспечивается связующим блоком.

В матричной модели э-м задач kкаждого ограничения (условие) записывается отдельной строкой, при этом kaijуказывается в столбце соответствующей переменной xj=> aijодинокого относится как к строке (ограничение) так и к столбцу (переменной).
28. Понятие и виды технико-экономических коэффициентов

ТЭК в зависимости от назначения подразделяют на нормативные, пропорциональности и связи.

— нормативные kпо экономическому содержанию делятся на kпо уровню затрат и уровню производства. При получении нормативного kмогут быть использованы специально разработанные нормативные данные для определения природных и экономических условий.

— kпропорциональности вводятся в матрицу по дополнительным и вспомогательным ограничениям с целью обеспечения пропорционального развития взаимосвязи отраслей или пропорциональной зависимости между отдельными переменными.

— kсвязи обозначающий связь между получаемым значением переменной и Vограничения. В большинстве случаев все kсвязи = 1.
29. Приемы моделирования

— запись ограничений по использованию ресурсов

а) Vресурсов известен и постоянен

б) Vресурсов известен но может меняться 

в) если предполагается увеличение или уменьшение ресурса, то через вспомогательные переменные можно установить V, например, необходимо определить Vпривлеченных трудовых ресурсов

г) Vресурсов неизвестен  Объем неизвестных ресурсов можно определить через вспомогательные переменные (отраженную величину)

д) при ограничении используют двойные пределы, т.е переменная может менять численные показатели в определенных границах

— ограничения могут отображать технологические связи, например, удельный вес жилой застройки по этажности – многоэтажные 85%, 2-х этажные 10%, 1-этажные 5%
30. Определение переменных и ограничений экономико-математической задачи

Переменные делятся на основные и вспомогательные.

Основные переменные – это размеры площадей сельскохозяйственных площадей сельскохозяйственных культур, многолетних насаждений, естественных кормовых угодий, а так же поголовье скота.

Вспомогательными являются переменные, характеризующие формирование оптимальных рационов кормления, размеры капиталовложений по отраслям и дополнительную потребность в производственных ресурсах.

При постановке задач математического программирования обычно предполагается ограниченность ресурсов, которые необходимо распределить на производство продукции. Поэтому очень важно определить, какие ресурсы являются для изучаемого процесса решающими и в то же время лимитирующими, каков их запас. Если все виды производственных ресурсов, к которым относятся сырье, трудовые ресурсы, мощность оборудования и др., используются для выпуска продукции, то необходимо знать расход каждого вида ресурса на единицу продукции.

Все ограничения, отражающие экономический процесс, должны быть непротиворечивыми, т.е. должно существовать хотя бы одно решение задачи, удовлетворяющее всем ограничениям.

В качестве ограничений при построении экономико-математической модели выступает система неравенств, имеющая следующий вид:

где aij — норма расхода i-го производственного ресурса на производство единицы j-го вида продукции;

wi — запасы i-го вида производственного ресурса на рассматриваемый период времени.
31.  Виды информации, информационное обеспечение моделирования

При разработке э-м модели существенное значение имеет информационное обеспечение. Решение любой задачи связано с большим количеством информации, если для ее решения имеется необходимая информация то можно сказать, что задача информационно обеспечена.

Земельно-кадастровая информация – особый вид данных характеризующих состояние системы.

Информационное обеспечение процесса моделирования проходит следующие этапы:

-Получение исходной информации

-Обработка информации, ее анализ и оценка

-Подготовка информации для решения э-м задачи

-Переработка информации в процессе решения задач

Получение исходной информации происходит на основе детального изучения объекта в процессе подготовительных работ.

2 этап: производится в камеральных и полевых условиях, информация приводится к виду пригодному для дальнейшего использования.

3 этап: в процессе подготовки определенные показатели используются при ЗУ проектировании, кадастровых работах, осуществление экономических процессов, такие как затраты на производство продукции, Vимеющихся ресурсов, стоимостные показатели.

4 этап: в результате переработки могут изменятся ТЭпоказатели, отображающие норму затрат на единицу продукции на площади с учетом времени разработанной модели.

Требования к информации:

— полная

— достоверная

— современная и оперативная

— должна быть представлена в удобной форме

— экономичная

 Требования к системе информационного обеспечения:

— достаточность

— информационная совместимость с внешними системами.

— гибкость и возможность развития систем информационного обеспечения с учетом изменения в системе управления.

— возможность реализации принципиально безбумажность технологии, при одноразовом вводе и многоразовом использовании информации.        продолжение
--PAGE_BREAK--
33. Статистические методы в управлении

Эффективность управления производственными, социальными и экономическими процессами во многом зависит от умения пользоваться всем спектром аналитических и статистических методов. Корректное их использование позволяет глубже понимать сущность происходящих процессов, а также вести осознанный поиск оптимальных решений локальных и условно глобальных задач.

Статистические методы изучения информации применимы для анализа экономического состояния предприятия, его конкурентоспособности на рынке, социально-производственной привлекательности, территориальной общности и производства, а также для решения множества других задач, стоящих перед управленцами всех направлений и рангов.

Для принятия решений немаловажное значение имеет, в каком виде будет представлена информация: необработанном и хаотичном или  классифицированном, ранжированном и структурированном. Причем речь идет не только об информации, полученной в результате наблюдений, но и о таких данных, которые являются паспортными для исходных объектов. Не имеет значения, что представляют собой объекты изучения, в каждом случае они будут характеризоваться набором показателей: обобщенных и детальных, описывающих сходные явления и специфические черты объектов.

Очевидно, неклассифицированная и неструктурированная информация неудобна в плане принятия решений, управления, а обилие характеристик мешает анализу. Поэтому на первом этапе изучения информацию необходимо классифицировать и структурировать. Наиболее удобной формой классификации информации является представление ее в виде неких однородных образов, которые объединяют объекты по принципу схожести -  близости характеристик. Это позволяет дифференцированно подходить к принятию решений, и, кроме того, однородность образов дает возможность прогнозировать их реакцию (обратную связь) на управляющие воздействия.

Таким образом, первым этапом исследования информации должны стать ее классификация, фильтрация и представление в упорядоченном и компактном виде. Этап классификации во многом определяет результаты всего исследования. От того, насколько удачно разделены объекты, удалось ли на первом этапе отфильтровать недостоверную информацию, не потеряна ли объективность при группировке детализированных характеристик, зависят точность принимаемых решений и управление.
34. Классификация объектов

Классификация — основа интеллектуальной деятельности человека. Встречаясь с новым явлением, человек сопоставляет его с уже известными ему явлениями, пытаясь найти аналог в известной ему области. Рассматривая группу каких-либо объектов, человек непроизвольно производит их разделение на подгруппы близких друг другу элементов. Классификация присутствует при упорядочении известных нам фактов, явлений, предметов.

Таким образом, методы классификации (распознавания образов) являются вполне естественной областью повседневной и повсеместной деятельности человека при систематизации и оценке явлений и предметов.

Для рассмотрения задач классификации лучше всего подходят многомерные статистические исследования.

Среди возможных методов классификации несомненный практический интерес вызывают методы распознавания образов, которые изучают числовые и нечисловые переменные и постоянные величины, используют методы математической, статистической и логической их обработки. Одной из ведущих теорий в области распознавания образов является кластерный анализ, благодаря которому решение задач классификации было осуществлено несложными компьютерными методами, а также были получены легко интерпретируемые результаты.

Одной из основополагающих задач классификации является формализация отличия одного объекта от другого — поиск совпадения или различия нечетко обрисованных объектов, сложноструктурированных множеств, выявление неявного течения процесса.

В практике встречаются два основных типа классификации. Простейший случай включает в себя заранее классифицированное пространство (млекопитающие, множество натуральных чисел, элементарные частицы) с известными характеристиками, определяющими принадлежность классу. В этом случае любой новый объект (предмет) можно по совпадению характеристик или причислить к какому-либо классу, или нет.

Более сложная ситуация возникает при необходимости объективной классификации множества объектов без предварительных подсказок о числе классов, наиболее существенных характеристиках и принципах разделения. Такая классификация является основной задачей кластерного анализа. Однако и в этом случае необходимо выделить, сформулировать или синтезировать достаточно общее свойство классифицируемых совокупностей. И уже это свойство позволит решить, сходны объекты или различны. Разумность выбора общего свойства должна быть подкреплена практическими результатами — это позволит утверждать, что выполненная классификация объективна.

В истории целенаправленной деятельности человека классификация осуществлялась методами, тесно связанными с предметом классификации. Интуитивно-эвристические подходы к классификации были доступны только выдающимся ученым и были результатом их озарения. И основной сложностью при этом был выбор наиболее важной характеристики или нескольких характеристик, по которым и определялось сходство или различие объектов.
35. Общие сведения о кластерном анализе. Понятие, преимущества

Кластерный анализ— совокупность математических методов, предназначенных для формирования относительно «отдаленных» друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними.

Термин кластерный анализ, впервые был введен Трионом в 1939 году. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько «набором» различных алгоритмов«распределения объектов по кластерам», т.е. включает в себя более 100 различных алгоритмов классификации.

Во многих отраслях науки перед исследователями постоянно встает вопрос о том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии (группы, классы). Таким образом, в многомерном статистическом анализе кластерный анализ занимает особое место.

Кластерный анализ, в отличие от других статистических методов, имеет несколько преимуществ:

1. с помощью кластерного анализа задачи распознавания образов решаются простыми и логичными методами, причем алгоритмы этих решений легко формализуются в компьютерные программы;

2. в кластерном анализе существуют методы комплексного изучения показателей различных типов данных (интервальных данных, частот, бинарных данных), при этом, не накладываются ограничения на представление исследуемых объектов;

3. простота и доступность процедур кластерных методов распознавания образов позволяет сосредоточить внимание исследователя на содержании сложных многофакторных объектов;

4. методы кластерного анализа позволяют накапливать знания с помощью информации, полученной в результате каждого эксперимента (измерения), выполненного в ходе использования кластерной модели. При этом характеристики кластеров могут корректироваться этими новыми знаниями, благодаря чему идет их накопление на каждой итерации (повторении).

Помимо всего этого, кластерный анализ позволяет сокращать размерность данных, делать ее наглядной; так же может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой.

Сочетание таких характеристик делает аппарат кластерного анализа незаменимым инструментом в задачах управления, классификации, оптимизации и прогноза промышленных, экономических и социальных систем.

Существенно затрудняет работу при использовании кластерного анализа лишь то, что развивался он параллельно сразу в нескольких направлениях, таких как психология, биология и др., поэтому у большинства методов существует по два и более названий.

Техника кластеризации применяется в самых разнообразных областях. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний — широко используемые таксономии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Так же широкое применение кластерного анализа присутствует  в маркетинговых исследованиях в истории, географии, экономике, филологии, искусствоведении,

36. Задача кластеризации

Задача кластерного анализа состоит в разбиении неоднородного множества, состоящего из каких-либо элементов, имеющих сходные измерения, на группу подмножеств, каждое из которых признается условно однородным. При этом основополагающую роль играет изучение различий между элементами множества, разными объектами, подмножествами, множествами.

На основе функций близости (схожести) элементов возможно несколько способов решения задач классификации:

1. Исследователь может задать заранее известные ему характеристики исследуемых множеств или кластеров и после этого сформировать граничные условия этих кластеров, обозначив их контуры и целевые функции. Далее каждый элемент исходного неоднородного множества проверяется на близость каждому кластеру и в результате присоединяется к одному из них. Однако интуитивное определение кластеров не совсем корректно, так как объекты зачастую имеют большое количество взаимозависимых функций, в результате чего часть обозначенных первоначально кластеров может оказаться пустыми или же возможна неоднородность большинства характеристик внутри кластера.

2. Кластеры могут быть определены в автоматическом режиме в процессе нейтрального изучения функций расстояния. В этом случае рассматриваются некоторые сгущения объектов, проводятся границы между получившимися сгущениями, и, таким образом, определяются кластеры. Полученные в автоматическом режиме кластеры анонимны, не изучены и требуют определения наиболее существенных характеристик кластеров в процессе разделения исходного множества.

3. Исследователь может задать определенные критерии оптимальности, исходя из которых, решением задачи кластерного анализа может быть некоторая структура групп. Эти критерии, заданные целевыми функциями, определяют содержание кластеров, их характеристики, количество групп и факторов управления. В качестве целевой функции можно принять максимальную плотность элементов внутри групп или минимум отклонений от ядра группы, т. е. наименьшее расхождение характеристик.

Для решения задач кластерного анализа необходимо количественно определить меру сходства, подобия и различия объектов исследования. Эта мера в кластерном анализе называется функцией расстояния и определяется не только для объектов, имеющих естественные количественные характеристики, но и для тех объектов, параметры которых носят качественный характер.
37. Понятие кластера

Само название метода – кластерный анализ – этимологически берет начало от слов «класс», «классификация». Английское слово «thecluster» имеет значения: группа, пучок, куст, гроздь, т.е. объединение каких-то однородных явлений. В данном контексте оно близко к математическом понятию «множество». Кластер представляет собой множество условно однородных (схожих) элементов (объектов). Степень однородности (сходства) может быть различной и определяется целями классификации.

Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.

Центр кластера— это среднее геометрическое место точек в пространстве переменных. Кластеры могут быть перекрывающимися. В этом случае невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров. Такие объекты называют спорными. Спорный объект — это объект, который по мере сходства может быть отнесен к нескольким кластерам.

Радиус кластера— максимальное расстояние точек от центра кластера.

Размер кластераможет быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком.

Каждая единица совокупности в кластерном анализе рассматривается как точка в заданном признаковом пространстве. Значение каждого из признаков у данной единицы служит ее координатой в этом пространстве по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, признаковое пространство – это область варьирования всех признаков совокупности изучаемых явлений.
38. Функции расстояния (различия, несходства)

Если уподобить признаковое пространство обычному пространству, имеющему евклидову метрику, то тем самым можно получить возможность измерять «расстояния» между точками признакового пространства.

Наиболее распространенной функцией расстояния между двумя объектами по некоторому признаку является расстояние в метрике Евклида или евклидово расстояние.

Метрика Евклида позволяет не учитывать знаковые различия, пропорционально увеличивает расстояние между объектами в случае разных абсолютных значений показателей. В результате увеличивается размерность кластерного поля, объекты искусственно отдаляются друг от друга, в результате чего границы между кластерами становятся более четкими и точными.

Второй по значимости функцией расстояния принято считать метрику несхожести Хемминга.

Метрика Хемминга может использоваться в тех случаях, когда знаковые различия характеристик объектов имеют принципиальное значение. За счет нивелирования знаковых различий показателей объекты оказываются сконцентрированными к области ядра кластера, но при этом утрачиваются важные знаковые характеристики различий.

Так же существуют следующие функции расстояния:

1.         L
-норма

2.         норма – верхняя граница

3.         функция Махаланобиса

Независимые переменные в уравнении регрессии можно представлять точками в многомерном пространстве (каждое наблюдение изображается точкой). В этом пространстве можно построить точку центра. Эта «средняя точка» в многомерном пространстве называется центроидом, т.е. центром тяжести. Расстояние Махаланобиса определяется как расстояние от наблюдаемой точки до центра тяжести в многомерном пространстве, определяемом коррелированными (неортогональными) независимыми переменными (если независимые переменные некоррелированы, расстояние Махаланобиса совпадает с обычным евклидовым расстоянием). Эта мера позволяет, в частности, определить является ли данное наблюдение выбросом по отношению к остальным значениям независимых переменных.

4.         функция Джеффриса-Сатуситы

5.         коэффициент дивергенции.
39. Дистанционный коэффициент (Эвклидово расстояние)


Оно попросту является геометрическим расстоянием в многомерном пространстве и вычисляется следующим образом:

расстояние(x,y) = {∑i(xi — yi)2 }1/2

Заметим, что евклидово расстояние (и его квадрат) вычисляется по исходным, а не по стандартизованным данным. Это обычный способ его вычисления, который имеет определенные преимущества (например, расстояние между двумя объектами не изменяется при введении в анализ нового объекта, который может оказаться выбросом). Тем не менее, на расстояния могут сильно влиять различия между осями, по координатам которых вычисляются эти расстояния. К примеру, если одна из осей измерена в сантиметрах, а вы потом переведете ее в миллиметры (умножая значения на 10), то окончательное евклидово расстояние (или квадрат евклидова расстояния), вычисляемое по координатам, сильно изменится,
40. Информационные признаки, используемые при кластеризации

Особенностью информационного сопровождения задач, решаемых методами кластеризации, является возможность использования практически любой информации об объектах исследования: формализованной и записанной в произвольной форме, объективной и субъективной, непосредственно измеренной или полученной косвенными путями, систематизированной и хаотичной — причем любая информация представляет определенную ценность для исследования. Такую разнородную и неструктурированную информацию об изучаемых объектах правомерно считать сложным множеством, требующим декомпозиции, шкалирования и нормирования для последующей кластеризации, структурного и содержательного анализа.

Выделяется три типа информации, используемой в кластерном анализе:

1многомерные данные — первичная информация.

2данные о близости (метрические и иные расстояния между объектами).

3данные о кластерах: координаты в признаковом пространстве, характеристики и свойства, границы кластеров.

Качество результатов обработки сложного множества, в первую очередь, зависит от обоснованности выбора признакового пространства. Эта задача состоит из двух взаимосвязанных подзадач: выбора наиболее информативных признаков и исключения взаимно корелируемых характеристик объектов. При этом определяется информативность признака, т. е. его «важность» для классификации. Признаки, имеющие максимальный «вес», используются в качестве описательных элементов (дескрипторов) при поиске нужных групп. Поскольку признаки являются главной характеристикой объектов, по которой определяется сходство или различие, их выбор и дает ту или иную систему разделения на однородные группы.

Существенную сложность в выборе правил разделения для классификации представляет ранжирование признаков. Процедура установления рангов изучаемых характеристик требует определения «полезности» каждого признака. В тех случаях, когда все признаки объявляются «равнополезными», т. е. их «весовые» коэффициенты принимают равные значения, это приводит к избыточности размерности признакового пространства, лишние характеристики не только усложняют вычислительные процедуры, но и размывают границы между кластерами, нивелируют характеристики объектов.

Таким образом, классификация во многом зависит от количества и качества выбора информационных показателей.

С ростом количества признаков снижается устойчивость классификации, размываются границы между группами. При неограниченном росте количества признаков усложняется содержательная интерпретация изучаемых процессов из-за необходимости учета второстепенных деталей, не существенных с точки зрения основного содержания исследования, что, в свою очередь, приводит к расплывчатости в описании объектов. Однако излишнее сокращение количества признаков может привести к примитивному описанию объектов при интерпретации содержания кластеров и отсутствию познавательной ценности результатов классификации.

Признаковые пространствамогут иметь природу двух типов. К первому типу относятся признаки, имеющие «непосредственное содержательное отношение к изучаемой проблеме». Эти признаки каким-либо способом фиксируются в ходе исследования или получаются с помощью расчетов исходных факторов. Второй тип признакового пространства получается в результате преобразования кластерной матрицы, в основном за счет трансформации строк, столбцов и самой системы координат.

Практика разделения неоднородного множества на некоторое количество однородных подмножеств указывает на возможность рационального подбора переменных, с помощью которых выделяются или сглаживаются различия между объектами. Выбор признаков, определяющих объекты, является основой формулировки решающих правил разделения исходного множества на подмножества.

Выбор признаков для классификации во многом зависит от целей исследования. Поэтому одно и то же множество может быть разделено на принципиально различные группы, отличающиеся не только количеством входящих в них элементов, но и их смешением в подгруппах. К примеру, классификация бригад по производственным признакам (производительность труда, фондовооруженность, трудовая дисциплина и т. п.), скорее всего, не совпадет с классификацией по обобщенным социально-демографическим признакам их членов (возраст, семейное положение, обеспеченность жильем и т. п.). Следовательно, нельзя классифицировать группу социально-экономических объектов один раз для любых случаев — процесс этот должен повторяться при изменении целей исследования или управления.

Теоретически классифицировать методами кластерного анализа можно неограниченное количество объектов с любым набором признаков. Однако практически существуют довольно жесткие ограничения, связанные со сложностью процедур, возможностями быстродействия и объема памяти компьютера. Поэтому в начале исследования определяется желательная размерность признакового пространства и ориентировочное количество групп, на которые следует разделить исходное множество. Последнее ограничение связано с возможностями восприятия информации при исследовании и управлении.

С увеличением количества распознанных объектов растет точность управления и достоверность знаний об их специфике, и было бы идеальным рассмотрение каждого элемента множества в отдельности (в этом случае и классификация не нужна). Но такая детальная группировка не воспринимается человеком, и поэтому в реальных классификациях количество групп, как правило, не превышает десяти. Размерность признакового пространства не является столь жестким условием и варьируется от одного показателя до пятидесяти, но может быть и больше. Если жё исследователи не ограничены вычислительными мощностями, то количество признаков может быть весьма значительным.

Дать формальный ответ на вопрос о качестве выбора размерности признакового пространства классификации до окончания процедуры кластеризации практически невозможно. Оценка размерности осуществляется на стадии интерпретации полученных результатов и в тех случаях, когда эти результаты не удовлетворяют условиям или анализа, приходится возвращаться к исходным процедурам обработки начальных массивов информации, но с использованием нового набора информационных признаков. В отдельных случаях, при нехватке характеристик, ведется дополнительная работа по сбору данных.
41.                  Схемы использования информации, предназначенной для кластеризации

Сильной стороной кластерного анализа можно считать его «всеядность»: какой бы вид информации ни предложить, кластерной матрице он оказывается полезен. Тем не менее в необработанном виде многие виды информации использовать практически невозможно. Необработанная информация разнопланова еще и потому, что зачастую принадлежит разным содержательным группам и поэтому ее нельзя систематизировать в общем поле измерения. В таких условиях постановщик исследования вынужден находить способ преобразования исходных данных, чтобы они отвечали единой аксиоматике кластерной модели классификации. Некоторые типы исходной информации, а также возможные способы придания им удобного для классификации вида приведены в табл. 1.

Тип информации и ее основные характеристики

Преобразования, необходимые для использования информации в кластерной модели

Прямая числовая информация, полученная непосредственно от объектов

Можно использовать в виде абсолютных или относительных (проценты, приведенные затраты) чисел. Расстояния между объектами вычисляются в кластерной модели

Косвенная числовая информация о признаках, влияющих на поведение объектов, вторичных признаках, аналогичных объектах, условиях среды и т.п. 

Можно использовать с учетом коэффициентов корреляции зависимостей или подобия объектов

Альтернативная числовая информация опросных листов или паспортных данных. Нечисловая информация легко кодируется и переводится в числовую

Возможно прямое использование в относительном виде. Каждый параметр требует разработки собственной шкалы

Нечисловая информация типа «меню», полученная в результате анкетирования респондентов или опроса экспертов

Требует разработки числовых аналогов  текстовым характеристикам, недопустимо использование евклидовой аксиоматики. Расстояния, как правило, не вычисляются. Сравнение идет по совпадению предпочтений

Историческая, генетическая, этимологическая информация о предыдущем развитии объекта исследования

Может быть представлена в виде уравнений регрессии, коэффициентов эластичности, начальных координат, рядов динамики

Априорная числовая и нечисловая информация

Формируется экспертами до проведения расчетов кластерной матрицы. С ее помощью определяются предварительные характеристики кластеров, граничные функции, содержание кластеров

Теоретическая информация, являющаяся следствием каких либо закономерностей, теоретических положений

Преобразования этого типа информации зависят от ее содержания и формального представления

Гипотетическая информация о возможных результатах классификации, мотивах деятельности, гипотезах развития и т.п.

то же

Эвристическая информация, основанная на предыдущем опыте, творческих способностях, образовании, интуиции

то же

Экспериментальная информация, полученная в результате проверки гипотез или эксперимента

то же

Случайная информация, полученная в результате незапланированных мероприятий, неожиданных результатов поиска

то же

    продолжение
--PAGE_BREAK--
42. Измерение характеристик объектов и их представление в задачах кластеризации

В прикладных задачах кластеризации встречаются два вида характеристик объектов: объективные показатели, которые могут быть оценены непосредственным измерением, и такие показатели, которые нельзя измерить в первоначальном виде (удовлетворенность работой, управленческие предпочтения, выбор рационального пути развития). Второй вид параметров требует введения опосредованных единиц измерения, экспертных оценок, проведения опросов общественного мнения и т. п. Очевидно, первая группа объективных показателей может быть непосредственно измерена с заданной точностью, а для второй группы характерна не только неопределенность, но и формально немотивированная изменчивость показателей.

Числовые характеристики первой группы, как правило, соответствуют аксиоматике Евклида. Для субъективных показателей возникает задача выбора приемлемой метрики, а в дальнейшем — сопоставимости показателей обеих групп. Для этого существуют различные искусственные методы включающие нормирование показателей, т. е. представление чисел в относительных единицах, как правило, на отрезке [0; 1].

Несмотря на «всеядность» кластерного анализа относительно исходной информации, в предварительно обработанном виде эмпирические данные должны отвечать следующим требованиям:

-содержательной репрезентативности, т. е. информация должна отражать существенные для исследования свойства объектов классификации;

-полноте объема информации, достаточной для объяснения явлений;

-достоверности;

-существованию формальных правил, по которым можно объективно интерпретировать данные, упорядоченные матрицы и т. п. Если это невозможно сделать в автоматическом режиме, то должны существовать эксперты, способные по приведенной информации дать оценку явлениям;

релевантности (степень соответствия запроса и найденного, то есть уместность результата или адекватность) экспертных оценок.
43. Целевые функции кластеризации

В качестве критерия правильности классификации методами кластерного анализа можно использовать такие функции, которые содержат в себе содержательную логику основных задач, понимание постановщиком исследования того, как должно выглядеть разделенное множество объектов. И это было бы самым разумным решением.

Но чаще всего постановщик задачи не знает, какие могут быть результаты классификации, и тем более не может априори определить, какое разбиение следует признать оптимальным. В этом случае на помощь приходят целевые функции, сформулированные на основе изучения кластерной матрицы или промежуточных результатов кластеризации. Как правило, эти целевые функции корреспондируют с основными содержательными закономерностями, но обнаружить и обосновать эту связь нужно отдельно.

Использование целевых функций позволяет разрабатывать алгоритмы оптимизации кластерной задачи и формального выбора наиболее эффективного разбиения. В практических задачах трудно сформулировать единственную целевую функцию для поиска оптимального решения. Обычно постановщику хочется добиться соблюдения нескольких условий оптимизации. Несложный алгоритм последовательной фильтрации позволяет использовать любое число целевых функций, но для этого необходимо, чтобы в зону оптимального решения кластерной задачи попали несколько решений, иначе уже на второй итерации выбирать будет не из чего.

Сформулируем некоторые целевые функции, способные оценить качество классификации и выбрать оптимальные варианты.

А. Минимум объектов, не попавших ни в один кластер (потери классификации)

Несмотря на то, что потери объектов при классификации — процесс неизбежный, постановщик задачи, желающий сделать исследование репрезентативным, старается свести эти потери к минимуму:



где:   — объект, который после окончания расчетов не попал ни в один кластер.

Причины потерь объектов классификации могут состоять как в объективной невозможности создания однородных групп, так и в ошибках специалистов, выполняющих исследование.

Если количество объектов, не вошедших ни в один кластер после завершения всех вариантов классификации, достаточно велико, разумно провести специальное исследование причин подобных результатов.

В.Максимально возможная компактность каждого кластера

Компактность кластера можно определить следующим образом:

•   разделить исходное множество на кластеры;

•   у каждого кластера вычислить условный «центр массы».

С. Максимальное суммарное расстояние между границами (оболочками) кластеров

Этот критерий оценивает расстояние между образами (кластерами), что, в свою очередь, характеризует степень их отличия друг от друга и то, насколько методически объективно разделены объекты изучения.

D. Максимальное совпадение признаков (однородность) в каждом кластере

Соединение объектов в кластеры может происходить не только за счет однородности характеристик, но и в результате искусственных манипуляций: произвольного изменения масштаба расстояний, исключения из рассмотрения отдельных характеристик, субъективизма в постановке задач и многих других действий.

Поэтому важно найти объективную целевую функцию кластеризации, которая могла бы оценить схожесть характеристик объектов и на основании близости наибольшего количества показателей сформировать однородные кластеры. Впрочем, подобная целевая функция скрывает в себе немало трудноразрешимых задач: ведь не все показатели необходимы для точной характеристики объектов. Более того, «лишние» признаки способны дезориентировать исследователя, нивелируя интегральные (обобщающие) характеристики объектов изучения.

Вообще целевая функция однородности может быть сформулирована скорее в неформальном виде, чем задана алгоритмически. Учитывая неопределенность задачи выбора наиболее информативных характеристик, эффективнее эту процедуру поручить экспертам, причем не останавливаться на одном варианте показателей, а провести расчеты с несколькими вариантами. Сравнение результатов поможет оценить уровень доверия к экспертам.

Е. Максимальное приближение реального числа кластеров к теоретически идеальному.

F. Максимальная концентрация объектов в каждом кластере около расчетного ядра.

G. Максимальное приближение расположения  объектов  в кластерах к теоретически обоснованным законам распределения случайных величин.

H.  Максимальное   приближение  дискриминантных   линий, ограничивающих кластеры, к заранее заданным идеальным функциям.
44. Методы кластеризации

-K-средних (K-means)

-Графовые алгоритмы кластеризации

-Статистические алгоритмы кластеризации

-Алгоритм ФОРЕЛЬ

-Иерархическая кластеризация или таксономия

-Нейронная сеть Кохонена

-Ансамбль кластеризаторов
45. Кластеризация полным перебором объектов

Методически этот способ кластеризации наиболее прост, но довольно трудоемок. Применяется при небольшом числе объектов и обычно дает до 5-6 кластеров.

При полном переборе непреодолимые сложности составляют не только большой объем вычислений, но и невозможность интерпретации огромного количества вариантов кластеризации, многие из которых не имеют практического смысла, совпадают друг с другом или не удовлетворяют каким-либо формальным критериям кластеризации. Поэтому полный перебор должен сопровождаться алгоритмом исключения ненужных вычислительных процедур, изъятия из рассмотрения большого числа вариантов группировки, не удовлетворяющих целям исследования.

Для использования метода полного перебора и сокращения вычислений используются алгоритмы динамического программирования
46. Алгоритм «форель»

Существует последовательность действий, характерная для большинства известных процедур алгоритма «Форель»:

1. Случайно-интуитивным способом выбирается точка (объект классификации) в некотором метрическом пространстве.

2. Вычисляются расстояния от выбранной точки до всех остальных объектов. Затем эти расстояния заносятся в матрицу в упорядоченном виде. Полученная матрица нужна только для установления фиксированного радиуса сферы, являющейся границей кластера.

3. Радиус сферы выбирается произвольно. При выборе радиуса удобно придерживаться принципа попадания в сферу определенного количества объектов, вычисленных в предыдущей итерации. К примеру, это может быть одна треть от общего числа объектов.

4. Все объекты, попавшие в построенную сферу, становятся элементами кластера. Далее выбирается какой-либо новый элемент из сферы, который становится центром новой сферы того же радиуса.

5. Для выбора координат нового центра предпочтительно иметь какой-либо формальный критерий. Одним из логичных критериев может быть минимум расстояния от выбранного объекта до оболочки сферы.

6. Вновь построенная сфера включает в себя как объекты из первой сферы, так и новые. Старые объекты исключаются из рассмотрения, затем процедура построения сфер постоянного радиуса повторяется до тех пор, пока в сферу не попадет ни один новый объект. Это произойдет обязательно, потому что или в кластер войдут все рассматриваемые объекты, или расстояние между какими-либо объектами окажется больше радиуса сферы.

7. Кластером в этом алгоритме будут называться все объекты, которые вошли хотя бы в одну из построенных сфер. Очевидно, независимо от количества попаданий объекта в разные сферы в кластере он учитывается только один раз.

В алгоритме «Форель» качество классификации во многом зависит от рациональности выбора объектов — центров сфер и радиуса поиска. Если фазовое пространство метрики имеет три, два или одно измерение, то оценить исходные данные алгоритма можно визуально, а в случае неудачи изменить их. В многомерном пространстве исходные параметры выбираются вслепую, и при неудачах приходится рассматривать все новые и новые варианты, количество которых может быть весьма значительно.

Исследователь может менять параметры алгоритма «Форель». В зависимости от правильности выбора начальной точки — центра сферы конфигурация кластера и число кластеров существенно меняются. Поэтому имеет смысл провести кластеризацию несколько раз, меняя начальную точку и сравнивая полученные варианты. В том случае, если исследователя не удовлетворяет количество объектов, вошедших в кластер, или число сфер, то для измерения этих параметров можно варьировать значения радиуса сферы. Очевидно, увеличение радиуса приведет к расширению состава кластера, и наоборот.

Алгоритм «Форель» имеет существенные недостатки:

-отсутствуют автоматические критерии качества кластеризации

-границы между кластерами могут не иметь явно выраженных функций «водораздела».

-нет возможностей изменения правил выбора граничных значений кластеров, как следствие — ограниченные возможности для практического использования.
47. Сферический метод двухступенчатой кластеризации

Метод разработан на основе алгоритма «Форель», устраняя некоторые его недостатки. Сферический принцип построения кластеров более жесткий и предполагает минимальное вмешательство исследователя в классификацию на стадии вычисления и группировки кластеров. Множество объектов в сфере (гиперсфере) разделяется на ядро (наибольшее сгущение) и менее плотную часть.

Сферический метод кластеризации позволяет строго очертить границы между кластерами и однозначно присваивать каждому объекту принадлежность к какой-либо сфере. Но такие строгие границы оставляют достаточно много объектов (до 60 %) за пределами классифицированных множеств. Повышение качества кластеризации требует значительного уменьшения диаметра сфер, что приводит к увеличению кластеров, вплоть до числа, сопоставимого с числом объектов. Но в этом случае кластеризация не упрощает, а усложняет систему управления и теряет практический смысл.

Поэтому метод сферической кластеризации применим для такого расположения множества объектов, при котором существуют плотные ядра с малыми расстояниями между элементами и значительные межгрупповые расстояния, позволяющие пренебречь теми объектами, которые неизбежно окажутся вне сформированных кластеров. Сферический метод предполагает равноудаленность объектов от зоны сгущения с постепенным разрежением по мере удаления от центра сферы или зоны ядра.
48. Метод определения центра кластера с помощью вычисления среднеарифметических расстояний между объектами

Рассматриваемый метод предполагает наличие определенных сведений о содержании кластеров до начала вычислительных процедур. Естественно, априорные предположения могут быть достаточно приближенными. Во избежание ошибочных предположений исследователь может рассмотреть несколько вариантов начальной группировки объектов. Этот метод кластеризации не предполагает каких-либо ограничений геометрической формы кластера.

Предлагаемый алгоритм кластеризации состоит из следующих блоков:

1. Некоторой точке, принадлежащей множеству изучаемых объектов, присваивается геометрический признак центра координатной системы, причем первый объект в этой системе является началом отсчета.

2. Выбирается определенное число объектов (только количество), которые будут участвовать в расчетах условного центра кластера.

3. Далее необходимо задать какой-либо критерий, ограничивающий содержание кластера. В качестве примера ограничений может быть использовано предельное количество объектов в кластере или максимально допустимое расстояние от условного центра до наиболее удаленного объекта, или максимально возможный «водораздел» между наиболее близкими объектами. Исследователь, как правило, самостоятельно решает, какому критерию отдать предпочтение или выработать собственное ограничение на процесс формирования кластера.

4. В зависимости от выбранного алгоритма определения критерия, необходимого для завершения формирования кластера, вычисляется максимально допустимое расстояние между объектами d. Расстояние может задаваться исследователем, исходя из анализа содержательного образа кластера или из соображений насыщенности кластера.

5. Методом перебора определяется объект АК, наиболее близкий к объекту-центру Ац. Далее проверяется выполнение неравенства: |АК — АЦ|£
dи, в случае безусловного выполнения этого неравенства, объект АК заносится в матрицу данного кластера. Из дальнейшего рассмотрения объект АЦ  исключается.

6. В дальнейшем операции перебора повторяются, причем объект АК становится центром рассматриваемой композиции. Итерации предыдущего блока выполняются до тех пор, пока не останется ни одного объекта вблизи любой из рассматриваемых точек, т. е. будет превышено пороговое значение d
.

Варианты классификации предлагаемым методом определяются перебором значений dи начального объекта Ац. При этом достаточно проблематично найти «водораздел» между кластерами из-за случайных помех на поле, в промежутках между сгустками объектов информации. Поскольку метод уравнивает значимость в замкнутом кластере сгущений и одиночных объектов, качество классификации случайно и требует специального изучения. Кроме того, в ряде случаев возможно объединение всех объектов информационного поля в один-два кластера. И наоборот, жестко заданные граничные условия способны вытеснить за пределы кластеров значительное число объектов.

В связи с последовательным включением объектов в кластеры разница между характеристиками начальных и конечных объектов может быть весьма существенной.
49. Метод постоянных кластеров и характеристик

Этот метод удобен в тех случаях, когда классифицируемая система хорошо изучена, и у исследователя существует определенная ясность относительно наиболее значимых характеристик кластеров. При этом исследователь может установить рациональные границы количества кластеров и их характеристики, не производя сложных вычислений. Тогда распределение объектов по кластерам происходит в результате простых арифметических расчетов, без циклических повторений, а в результате одной-двух итераций.

Алгоритм предлагаемого метода основан на содержательном анализе информационного поля до начала процедур кластеризации. На этом этапе исследователь должен определить рациональное число кластеров. исходя из физических возможностей оценки поля объектов, полезности для управления и возможности получения нетривиальных результатов. Введем обозначения: л — рациональное количество кластеров; Аш (1с, I, т) ~ центр «массы» /-го кластера, имеющий координаты ^, /, т.

Рассматриваемый метод позволяет включить все объекты в кластеры. Это серьезный недостаток метода, потому что содержательный анализ информационного поля классификации свидетельствует о существовании достаточно большого количества объектов, которые не могут быть без искажения свойств причислены ни к одному из существующих кластеров. Вообще говоря, этот недостаток можно устранить введением вспомогательных функций максимально допустимых расстояний от центра кластера до наиболее удаленного объекта. Эта функция не может быть постоянной величиной, а должна вычисляться для каждого кластера в зависимости от плотности ядра кластера, количества объектов, дисперсии характеристик и других признаков. Впрочем, это отдельная научная задача.

Вторым недостатком рассматриваемого метода является необходимость предварительного определения количества кластеров и их типовых характеристик. Класс подобных задач чрезвычайно узок и, скорее всего, может быть вторым этапом классификации. То есть вначале каким-либо методом классификация уже проведена, а предлагаемый метод используется для подтверждения или опровержения полученных результатов.

Ограниченный объем вычислений и простота логических процедур позволяют менять количество кластеров при решении одной задачи и выбирать наиболее удобный для интерпретации вариант классификации.
50. Алгоритм метода постоянных кластеров и их характеристик

Рассмотрим алгоритм метода постоянных кластеров и их характеристик:

1-й шаг. Изучение содержательных характеристик информационного поля, анализ данных и определение количества кластеров, их основных характеристик — граничных условий.

2-й шаг. Распределение объектов по кластерам в зависимости от включения координат объекта в граничные условия кластера.

3-й шаг. Вычисление координат центров «массы» кластеров Аш как средних арифметических координат объектов, входящих в рассматриваемый кластер.

4-й шаг. Замена априорных характеристик — границ кластеров на новые критерии кластеризации.

5-й шаг. Принимая точки Ащ, А, а, •••, Ац„ за центры «масс» кластеров (их количество сохранилось), начинаем формирование кластеров заново. При этом используем принцип наибольшей близости объекта к какому-либо центру кластера.

6-й шаг. Пересчитав все расстояния от объектов до каждого из центров и присоединив их к ближайшему, получим новое поле кластеров, при котором все объекты будут принадлежать какому-либо кластеру из определенных заранее.

7-й шаг. Для вновь сформированных кластеров производится перерасчет центров «массы», вычисляются типовые характеристики.
51. Алгоритм «краб»

В алгоритме «Краб» предусмотрена процедура фильтрации при заданной целевой функции отбора лучшего варианта. Оптимальный набор кластеров имеет жесткую, единственно возможную форму поля, причем контуры отдельных кластеров необязательно должны иметь сферическую оболочку.

Положительные стороны алгоритма «Краб» заключаются в возможности реализации поставленных целей кластеризации. В результате использования целевых функций удается ограничить количество рассматриваемых вариантов кластеризации до числа, определяемого целевыми функциями. Алгоритмом предусматривается формулировка суперцели, включающей в себя определенное число целевых функций. В этом случае результатом классификации будет единственный, наилучший вариант распределения объектов по кластерам.

Обозначим:   М=åm— суммарное  количество объектов, рассматриваемых в условиях данной задачи классификации; n— количество кластеров, полученных в результате классификации объектов; F— критерий оптимальности классификации, причем Fmax— суперцель.

Последовательность процедур алгоритма «Краб»:

1. Построение информационного поля m-объектов кластеризации, вычисление характеристик объектов и евклидовых расстояний между ними.

2. Формирование матрицы минимальных расстояний между объектами. Размерность симметричной матрицы (m— 1).

3. Построение контура минимальных расстояний между объектами и нанесение граничной линии на кластерное поле. Проверка замкнутости граничной линии.

4. Разделение информационного массива на возможные кластеры, количество которых находится на отрезке [1; m— 1].

5. Сравнение качества кластеризации по заданным критериям F. Формирование информационных массивов кластеров и значений F.

6. Фильтрация вариантов кластеризации по локальным критериям F1, F2, F3, …, Fk,  а также по комплексным критериям F1,2 и так далее.

7. Определение наилучшего варианта кластеризации по критерию суперцели Fmax.

8. Описание характеристик объектов, содержащихся в кластерах при наилучшем варианте Fmaxили соответствующих локальным критериям оптимальной кластеризации.

В результате вычислительных процедур алгоритма «Краб» исходные объекты распределяются по кластерам достаточно простым способом и соответствуют сформулированным критериям оптимальности разбиения. Но, несмотря на простоту вычислительных процедур, количество вариантов кластеризации чрезвычайно велико. Кроме того, при расчете каждого варианта приходится рассматривать множество значений расстояний между объектами внутри кластера для расчета критериев F. Поэтому исследователи обычно вводят промежуточные ограничения для сокращения числа рассматриваемых вариантов.    продолжение
--PAGE_BREAK--


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :

Реферат Конкурсное производство как процедура банкротства
Реферат Дитяча праця і дитячий заробіток
Реферат Термический анализ древесины и волокнистых полуфабрикатов
Реферат Изучение влияния основных технико-экономических и эксплуатационных факторов (параметров) на экономическую эффективность рабочей машины
Реферат Мои раздумья о Вселенной, ее устройстве, ее прошлом и будущем
Реферат Політекономія
Реферат Осложнения после гемотрансфузии
Реферат Подготовка кадров для системы социальной защиты населения
Реферат Конюшина повзуча конюшина польова копитняк європейський 2
Реферат Пахмутова Александра
Реферат Склад обладнання гідроелектростанції. Основні системи гідротурбін і їх елементи
Реферат Значение соевого белка в мировой практике
Реферат Континентальные доллары
Реферат Держава франків: становлення, розвиток та причини розпаду
Реферат Обеспечение безопасности производственного оборудования и технологических процессов (основные требования)