Министерство образования Российской Федерации
ОРЕНБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
Финансово-экономический факультет
Кафедра МММЭ
КУРСОВАЯ РАБОТА
по дисциплине "Многомерные статистические методы"
Компонентный и факторный анализ
ОГУ 061700.5001.06 00
Руководитель работы
__________________ Реннер А.Г.
“____”_____________2001г.
Исполнитель
студент гр.99ст
______________ Рамазанов М.И.
“_____”____________2001г.
Оренбург 2001
Содержание
Задание……………………………………………………………………………3
Введение……………………………………………………………………….….4
1 Исследование на мультиколлинеарность……………………………..……5
2 Метод главных компонент………………………………………………..….7
2.1 Вычисление главных компонент……………………………………….…7
2.2 Экономическая интерпретация полученных главных компонент…..…12
2.3 Матрица наблюденных значений главных компонент……………...….12
2.4 Классификация объектов…………………………………………………13
2.5 Уравнение регрессии на главные компоненты………………………….13
3 Факторный анализ………………………………...…………………………15
3.1 Преобразование матрицы парных коэффициентов корреляции в редуцированную матрицу, получение матрицы факторных нагрузок и экономическая интерпретация ………………………………………………..…...16
3.2 Графическая классификация объектов по двум общим факторам…….19
3.3 Переход к обобщенным факторам с помощью варимаксного вращения ……………………………………………………………………...19
3.4 Построение функции регрессии на выделенные общие факторы…......21
Список использованной литературы………………………………………...22
Приложения………………………………………………………..………...…23
Задание
По имеющимся данным производственно-хозяйственной деятельности предприятий машиностроения:
Y1 – производительность труда;
X5 – удельный вес рабочих в составе ППП;
X6 – удельный вес покупных изделий;
X7 – коэффициент покупных изделий;
X9 – удельный вес потерь от брака;
X17 – непроизводственные расходы.
1. Выявить наличие мультиколлинеарности.
2. Снизить размерность признакового пространства и удалить наличие
мультиколлинеарности следующими методами:
Метод главных компонент:
- для факторных признаков найти оценку матрицы парных коэффициентов корреляции, найти собственные числа и собственные вектора;
- на основании матрицы собственных чисел определить вклад главных компонент в суммарную дисперсию признаков, отобрать и указать m (m[pic] , то гипотеза Н0 отвергается и матрица является значимой,
следовательно, имеет смысл проводить компонентный анализ.
Проверим гипотезу о диагональности ковариационной матрицы
Выдвигаем гипотезу:
Н0: соv[pic]=0, [pic]
Н1: соv[pic]
Строим статистику [pic], распределена по закону [pic] с [pic]
степенями свободы.
[pic]=123,21, [pic](0,05;10) =18,307 т.к [pic]>[pic] то гипотеза Н0
отвергается и имеет смысл проводить компонентный анализ.
Для построения матрицы факторных нагрузок необходимо найти
собственные числа матрицы [pic], решив уравнение[pic].
Используем для этой операции функцию eigenvals системы MathCAD, которая
возвращает собственные числа матрицы:
[pic]
Т.к. исходные данные представляют собой выборку из генеральной
совокупности, то мы получили не собственные числа [pic] и собственные
вектора матрицы, а их оценки. Нас будет интересовать на сколько “хорошо” со
статистической точки зрения выборочные характеристики описывают
соответствующие параметры для генеральной совокупности.
Доверительный интервал для i-го собственного числа ищется по
формуле:[pic]
Доверительные интервалы для собственных чисел в итоге принимают вид:
[pic]
[pic][pic]
Оценка значения нескольких собственных чисел попадает в доверительный
интервал других собственных чисел. Необходимо проверить гипотезу о
кратности собственных чисел.
Проверка кратности производится с помощью статистики
[pic] , где r-количество кратных корней.
Данная статистика в случае справедливости [pic]распределена по закону
[pic] с числом степеней свободы [pic]. Выдвинем гипотезы:[pic][pic]
[pic]
Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
Далее,
:[pic][pic]
[pic]
Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
:[pic][pic]
[pic]
Так как [pic], то гипотеза [pic] отвергается, то есть собственные числа
[pic] и [pic] не кратны.
Необходимо выделить главные компоненты на уровне информативности
0,85. Мера информативности показывает какую часть или какую долю дисперсии
исходных признаков составляют k-первых главных компонент. Мерой
информативности будем называть величину: [pic]
I1=[pic]=0,458
I2=[pic]=0,667
I3=[pic] На заданном уровне информативности выделено три главных компоненты.
Запишем матрицу [pic]=[pic]
Для получения нормализованного вектора перехода от исходных признаков к
главным компонентам необходимо решить систему уравнений: [pic], где [pic]-
соответствующее собственное число. После получения решения системы
необходимо затем нормировать полученный вектор.
Для решения данной задачи воспользуемся функцией eigenvec системы
MathCAD, которая возвращает нормированный вектор для соответствующего
собственного числа.
В нашем случае первых четырех главных компонент достаточно для достижения
заданного уровня информативности, поэтому матрица U (матрица перехода от
исходного базиса к базису из собственных векторов)
Строим матрицу U, столбцами которой являются собственные вектора:
U=[pic].
Матрица весовых коэффициентов:
[pic]
[pic]
А=[pic].
Коэффициенты матрицы А являются коэффициентами корреляции между
центрировано – нормированными исходными признаками и ненормированными
главными компонентами, и [pic] показывают наличие, силу и направление
линейной связи между соответствующими исходными признаками и
соответствующими главными компонентами.
2.2 Экономическая интерпретация полученных главных компонент
Коэффициент [pic] матрицы А представляют собой коэффициенты корреляции
между i-ой главной компонентой и j-ым исходным признаком.
Так как первая главная компонента зависит главным образом от первого
(X5 – удельный вес рабочих в составе ППП) и третьего (X7 – коэффициент
сменности оборудования) исходного признака, следовательно ее можно
обозначить как «Эффективность основного производства». Вторая главная
компонента тесно взаимосвязана со вторым (X6 – удельный вес покупных
изделий) и четвертым (X9 – удельный вес потерь от брака) исходными
признаками, ее можно обозначить как «Удельный вес затрат не приносящих
прибыль». Третья главная компонента взаимосвязана с четвертым исходным
признаком, поэтому ее обозначим «Удельный вес потерь от брака».
2.3 Матрица наблюденных значений главных компонент.
Мы получили ненормированные главные компоненты. Проведя нормирование
полученных центрированных [pic], получим [pic]. При нормировании [pic]
дисперсия должна равняться 1, [pic]. Для этого нужно разделить [pic] на
среднеквадратическое отклонение [pic].
[pic]
Обозначим [pic] - это матрица весовых коэффициентов, с помощью
которой устанавливается связь между нормированными исходными признаками и
нормированными главными компонентами.
Модель метода главных компонент:
[pic] где
[pic]- значение I-той стандартизированной переменной по j-ому объекту
наблюдения;
[pic]- m-тая главная компонента по j-ому объекту наблюдения;
[pic]- весовой коэффициент m-той главной компоненты и I-той переменной.
Эту матрицу будем строить, исходя из соотношения [pic], где [pic]- диагональная матрица, на главной диагонали которой стоят
дисперсии соответствующих главных компонент в минус первой степени;
[pic] - транспонированная матрица факторных нагрузок;
Х- матрица наблюденных значений исходных признаков.
Данная формула хороша тем, что она верна и в том случае, если матрица
А не квадратная (т.е. выделено m