15
ФЕДЕРАЛЬНОЕ АГЕНСТВО ПО ОБРАЗОВАНИЮ
Филиал государственного образовательного учреждения высшего профессионального образования казанского государственного университета имени В.И. Ульянова - Ленина в Г. набенежные Челны
Факультет прикладной математики и информатики
Специальность: 080116.65 :Математические методы в экономике
ДОКЛАД
Применение кластерного анализа для сегментации рынка
Выполнил:
студент III курса
дневного отделения
группы 40741
Ужогов А. А.
Набережны Челны
2009
Оглавление
1. Формулировка проблемы
2. Выбор меры расстояния
3. Выбор метода кластеризации
4. Принятие решения о качестве кластеров
5. Интерпритация и профелирование кластеров
6. Оценка достоверности кластеров
3.1Формулировка проблемы
Возможно, самая важная часть формулирования проблемы кластеризации -- это выбор переменных, на основе которых проводят кластеризацию. Включение даже одной или двух посторонних (не имеющих отношение к группированию) переменных может исказить результаты кластеризации. Задача состоит в том, чтобы выбранный набор переменных смог описать сходство между объектами с точки зрения признаков, имеющих отношение к данной проблеме маркетингового исследования. Переменные следует выбирать, исходя из опыта прошлых исследований, теории или тестируемой гипотезы. Экспериментатор должен обладать интуицией и уметь делать выводы.
3.2 Выбор способа измерения расстояния или меры сходства
Цель кластеризация -- группирование схожих объектов. Поэтому для того чтобы оценить, насколько они похожи или непохожи, необходимо использовать некую единицу измерения. Наиболее распространенный метод заключается в том, чтобы в качестве такой меры использовать расстояния между двумя объектами. Объекты с меньшими расстояниями между собой больше похожи, чем объекты с большими расстояниями. Существует несколько способов вычисления расстояния между двумя объектами.
Наиболее часто используемая мера сходства-- евклидово расстояние или его квадрат. Евклидова метрика это квадратный корень из суммы квадратов разностей в значениях для каждой переменной
Существуют и другие способы измерения расстояния. Расстояние городских кварталов) (city-block, или манхэттенское расстояние (Manhattan distance) между двумя объектами -- это сумма абсолютных разностей в значениях для каждой переменной. Расстояние Чебышева (Chebychev distance) между двумя объектами -- это максимальная абсолютная разность в значениях для любой переменной. Если переменные измерены в различных единицах, то единица измерения влияет на решение кластеризации. В этих случаях перед кластеризацией респондентов мы должны нормализовать данные, изменив шкалу измерения каждой переменной таким образом, чтобы среднее равнялось нулю, а стандартное отклонение -- единице. Хотя нормализация может исключить влияние единицы измерения, она также уменьшает различия между группами по переменным, которые наилучшим образом дискриминируют (отличают) группы или кластеры. Кроме того, желательно удалить выбросы (т.е. случаи с нетипичными значениями). Использование различных способов измерения расстояния ведет к разным результатам кластеризации. Следовательно, целесообразно использовать различные меры сходства и затем сравнить результаты. Выбрав меру сходства, затем можно выбрать метод кластеризации.
3.3 Выбор метода кластеризации
Методы кластеризации могут быть иерархическими и неиерархическими. Иерархическая кластеризация (hierarchical clustering) характеризуется построением иерархической, или древовидной, структуры.
Иерархические методы могут быть агломеративными (объединительными) и дивизивными. Агломеративная кластеризация (agglomerative clustering) начинается с каждого объекта в отдельном кластере. Кластеры объединяют, группируя объекты каждый раз во все более и болеекрупные кластеры. Этот процесс продолжают до тех пор, пока все объекты не станут членами одного единственного кластера.
Разделяющая, или дивизивная, кластеризация (divisive clustering) начинается со всех объектов, сгруппированных в единственном кластере. Кластеры делят (расщепляют) до тех пор, пока каждый объект не окажется в отдельном кластере.
Обычно в маркетинговых исследованиях используют агломеративные методы, например методы связи, дисперсионные и центроидные методы. Методы связи (linkage methods) включают метод одиночной связи, метод полной связи и метод средней связи.
В основе метода одиночной связи (single method) лежит минимальное расстояние, или правило ближайшего соседа. При формировании кластера первыми объединяют два объекта, расстояние между которыми минимально. Далее определяют следующее по величине самое короткое расстояние, и в кластер с первыми двумя объектами вводят третий объект. На каждой стадии расстояние между двумя кластерами представляет собой расстояние между их ближайшими точками.
Метод полной связи (complete linkage) аналогичен методу одиночной связи, за исключением того, что в его основе лежит максимальное расстояние между объектами, или правило дальнего соседа. В методе полной связи расстояние между двумя кластерами вычисляют как расстояние между двумя их самыми удаленными точками.
Метод средней связи (average linkage) действует аналогично. Однако в этом методе расстояние между двумя кластерами определяют как среднее значение всех расстояний, измеренных между объектами двух кластеров, при этом в каждую пару входят объекты из разных кластеров.
Широко известным дисперсионным методом, используемым для этой цели, является Метод Варда (Wards procedure) Дисперсионный метод, в котором кластеры формируют таким образом, чтобы минимизировать квадраты евклидовых расстояний до кластерных средних. Для каждого кластера вычисляют средние всех переменных. Затем для каждого объекта вычисляют квадраты евклидовых расстояний до кластерных средних. Эти квадраты расстояний суммируют для всех объектов. На каждой стадии объединяют два кластера с наименьшим приростом в полной внутрикластерной дисперсии.
В центроидных методах (centroid method) расстояние между двумя кластерами представляет собой расстояние между их центроидами (средними для всех переменных). Центроидный метод (centroid method) Дисперсионный метод иерархической кластеризации, в котором расстояние между двумя кластерами представляет собой расстояние между их центроидами (средними для всех переменных). Каждый раз объекты группируют и вычисляют новый центроид. Изо всех иерархических методов методы средней связи и Варда показывают наилучшие результаты по сравнению с другими методами.
К другому типу процедур кластеризации относятся неиерахические методы кластеризации (nonhierarchical clustering), часто называемые методом k-средних. Эти методы включают последовательный пороговый метод, параллельный пороговый метод и оптимизирующее распределение. В последовательном пороговом методе (sequential threshold method) выбирают центр кластера и все объекты, находящиеся в пределах заданного от центра порогового значения, группируют вместе. Затем выбирают новый кластерный центр, и процесс повторяют для несгруппированных точек. После того как объект помещен в кластер с этим новым центром, его уже не рассматривают как объект для дальнейшей кластеризации.
Аналогично работает параллельный пороговый метод (parallel threshold method), за исключением того, что одновременно выбирают несколько кластерных центров и объекты в пределах порогового уровня группируют с ближайшим центром.
Метод оптимизирующего распределения (optimizing partitioning method) отличается от двух изложенных выше пороговых методов тем, что объекты можно впоследствии поставить в соответствие другим кластерам (перераспределить), чтобы оптимизировать суммарный критерий, такой как среднее внутри кластерное расстояние для данного числа кластеров. Два главных недостатка неиерархических методов состоят в том, что число кластеров определяется заранее и выбор кластерных центров происходит независимо. Более того, результаты кластеризации могут зависеть от выбранных центров. Многие неиерархические процедуры выбирают первые k случаев (k -- число кластеров), не пропуская никаких значений в качестве начальных кластерных центров. Таким образом, результаты кластеризации зависят от порядка наблюдений в данных. Неиерархическая кластеризация быстрее иерархических методов, и ее выгодно использовать при большом числе объектов или наблюдений, Высказано предположение о возможности использования иерархических и неиерархических методов в тандеме. Во-первых, первоначальное решение по кластеризации получают, используя такие иерархические методы, как метод средней связи или метод Варда. Полученное этими методами число кластеров и кластерных центроидов используют в качестве исходных данных в методе оптимизирующего распределения. Выбор метода кластеризации и выбор меры расстояния взаимосвязаны. Например, квадраты евклидовых расстояний используют наряду с методом Варда и центроидным методом. Некоторые из неиерархических методов также используют квадраты евклидовых расстояний.
3.4 Принятие решения о количестве кластеров
Главный вопрос кластерного анализа -- вопрос о количестве кластеров. Здесь нет твердых правил, позволяющих быстро принять решение, но можно руководствоваться следующим.
1. При определении количества кластеров руководствуются теоретическими и практическими соображениями. Например, если цель кластеризации -- выявление сегментов рынка, то менеджмент может захотеть получить конкретное число кластеров.
2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при которых объединяют кластеры/
3. В неиерархической кластеризации чертят график зависимости отношения суммарной внутригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров. Увеличение числа кластеров за эту точку обычно безрезультативно.
4. Относительные размеры кластеров должны быть достаточно выразительными.
3.5 Интерпретация и профилирование кластеров
Интерпретация и профилирование кластеров включает проверку кластерных центроидов. Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку. Если компьютерная программа кластеризации не выдаст такую информацию, ее можно получить через дискриминантный анализ.
Часто имеет смысл профилировать кластеры через переменные, которые не явились основанием для кластеризации. Эти переменные могут включать демографические, психографические характеристики, использование продукта или другие переменные. Например, кластеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование осуществляют через демографические или психографические переменные, чтобы определить маркетинговую стратегию для каждого кластера. Переменные, существенно различающиеся между кластерами, можно идентифицировать дискриминантным анализом и однофакторным дисперсионным анализом.
3.6 Оценка надежности и достоверности
Имея несколько умозаключений, выведенных из кластерного анализа, не следует принимать никакого решения по кластеризации, не выполнив оценку надежности и достоверности этого решения. Формальные процедуры оценки надежности и достоверности решений кластеризации достаточно сложны и не всегда оправданы поэтому мы их опустим. Однако следующие процедуры обеспечат адекватную проверку качества кластерного анализа.
1. Выполняйте кластерный анализ на основании одних и тех же данных, но с использованием различных способов измерения расстояния. Сравните результаты, полученные на основе разных мер расстояния, чтобы определить, насколько совпадают полученные результаты.
2. Используйте разные методы кластерного анализа и сравните полученные результаты.
3. Разбейте данные на две равные части случайным образом. Выполните кластерный анализ отдельно для каждой половины. Сравните кластерные центроиды двух подвыборок.
4. Случайным образом удалите некоторые переменные. Выполните кластерный анализ по сокращенному набору переменных. Сравните результаты с полученными на основе полного набора переменных.
5. В неиерархической кластеризации решение может зависеть от порядка случаев в наборе данных. Выполните анализ несколько раз, меняя порядок случаев, до получения стабильного решения.
! |
Как писать рефераты Практические рекомендации по написанию студенческих рефератов. |
! | План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом. |
! | Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач. |
! | Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты. |
! | Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ. |
→ | Виды рефератов Какими бывают рефераты по своему назначению и структуре. |