Курсовая работа по предмету "Экономико-математическое моделирование"


Многомерные статистические методы и эконометрика


28

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«БАРНАУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ»

Факультет математики и информатики

УЧЕБНАЯ ПРАКТИКА

«МНОГОМЕРНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ и ЭКОНОМЕТРИКА»

Выполнил:

Руководитель:

Работа защищена:

«__» _________________2008 г.

__________________________

(оценка)

__________________________

(подпись)

Барнаул - 2008 г.

СОДЕРЖАНИЕ

Введение

Раздел 1. Регрессионный анализ

Раздел 2. Компонентный и факторный анализ

2.1 Компонентный анализ

2.2 Факторный анализ

Раздел 3. Кластерный анализ

Раздел 4. Дискриминантный анализ

Заключение

Список литературы

ВВЕДЕНИЕ

Постоянно усложняющиеся экономические процессы потребовали создания и совершенствования особых методов изучения и анализа. Широкое распространение получило использование моделирования и количественного анализа. На этом этапе выделилось и сформировалось одно из направлений экономических исследований - эконометрика - наука, в которой на базе реальных статистических данных строятся, анализируются и совершенствуются математические модели реальных экономических явлений.

Цель данной работы заключается в изучении совокупности данных с помощью статистических и эконометрических методов. Числовые данные собраны на 84 объектах (регионы РФ) по пяти различным признакам:

X1 - ввод в действие жилых домов, тысяча квадратных метров общей площади, значение показателя за год;

X2 - выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников, по субъектам Российской Федерации, тысяча тонн, значение показателя за год;

X3 - обеспеченность амбулаторно-поликлиническими учреждениями на 10000 населения, посещений в смену, значение показателя за год;

X4- - стоимость минимального набора продуктов питания по субъектам Российской Федерации, рубль;

X5 - объем инвестиций в основной капитал, миллион рублей, значение показателя за год.

При проведении регрессионного анализа рассматривается еще один признак X6 (среднемесячная номинальная начисленная заработная плата, рубль, значение показателя за год), как зависимая переменная от совокупности пяти остальных признаков.

Таким образом, объектом исследования работы является изучение зависимостей данных выборки путем решения поставленных задач.

Предметом исследования является совокупность результатов наблюдений - выборка размером 84х5.

Для реализации цели исследования были поставлены следующие задачи:

1. Определить математическую зависимость результативного признака Х6 от совокупности объясняющих переменных Х15 и определить качество полученной регрессионной модели.

2. Снизить размерность выборки путем выделения главных компонент и общих факторов.

3. По обучающей выборке, включающей 20 объектов, разбить эти регионы на 2 группы-кластера, сравнить их и дать название каждой группе.

4. Разделить все 84 региона на 2 группы, используя априорные данные, полученные в результате кластерного анализа, и построить функцию, с помощью которой любой объект может быть отнесен к той или иной группе. Сравнить эти группы и дать им названия.

Структура и логика курсовой работы строится в соответствии с задачами исследования и отражена в содержании работы.

РАЗДЕЛ 1. РЕГРЕССИОННЫЙ АНАЛИЗ

Изучается линейная (в среднем) зависимость результативного признака Y (признак Х6) от пяти факторных признаков -- регрессоров Х1, Х2, Х3, Х4, Х5 - по числовым данным, собранным на 84 объектах.

1. Запишем модель множественного линейного регрессионного анализа признака Y, предъявляемые к ней требования и соответствующую функцию регрессии.

Общее назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Общая вычислительная задача, которую требуется решать при анализе методом множественной регрессии, состоит в подгонке прямой линии к некоторому набору точек [6, множественная регрессия].

Модель множественного линейного регрессионного анализа имеет вид:

Y = a + b1*X1 + b2*X2 + ... + bn*Xn + е,

где Y - зависимая переменная;

X1, X2, ..., Xn - объясняющие (независимые) переменные или регрессоры;

a, b1, b2, ..., bn - параметры регрессии или коэффициенты регрессии;

е - ошибка вычислений.

К уравнению регрессии предъявляются следующие требования:

а) Переменные X1, X2, …, Xn должны быть некоррелированы между собой.

б) Модель должна быть гомоскедастичной, т.е. дисперсия не должна зависеть от номера наблюдения.

в) Ошибки для разных наблюдений должны быть независимы и иметь нормальное распределение.

2. Рассчитаем матрицу оценок коэффициентов парной корреляции между признаками.

Матрица корреляции

Y

X1

X2

X3

X4

X5

Y

1

0,20748

0,14198

0,23580

0,40638

0,54958

X1

0,20748

1

0,01035

0,04841

-0,0807

0,40883

X2

0,14198

0,01035

1

0,08806

0,03135

0,08177

X3

0,23580

0,04841

0,08806

1

0,51443

-0,00001

X4

0,40638

-0,0807

0,03135

0,51443

1

0,43223

X5

0,54958

0,40883

0,08177

-0,00001

0,43223

1

Из таблицы видно, что наиболее сильно зависимая переменная коррелирует с четвертым и пятым признаком (стоимость минимального набора продуктов питания и объем инвестиций в основной капитал) и меньше всего со вторым признаком (выбросы в атмосферу загрязняющих веществ). Корреляция зависимой переменной с первым и третьим признаками (ввод в действие жилых домов и обеспеченность амбулаторно-поликлиническими учреждениями) также очень слабая.

Что касается самих регрессоров, то достаточно сильно коррелируют между собой признаки X1 и X5, X3 и X4 и X4, X5. Т.е. Ввод в действие жилых домов зависит от объема инвестиций в основной капитал, обеспеченность амбулаторно-поликлиническими учреждениями зависит от стоимости минимального набора продуктов питания, который в свою очередь зависит от объема инвестиций в основной капитал.

Коллинеарных регрессоров, т.е. таких, корреляция между которыми больше 0,7, в данном случае нет.

3. Вычислим оценки коэффициентов регрессии и ошибки вычислений.

Таким образом, функция регрессии имеет следующий вид:

Y = 3434,973 + 0,633517*X1 + 14,26504*X2 + 14,51312* X3 + 1,182762*X4 + 2,172856*X5.

Коэфф-ты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

3434,973

2417,445

1,420911

0,159328

-1377,79

8247,736

X1

0,633517

340,7987

0,001859

0,998522

-677,845

679,1117

X2

14,26504

15,81807

0,901819

0,369929

-17,2263

45,75639

X3

14,51312

9,312562

1,558446

0,123176

-4,02676

33,05301

X4

1,182762

1,688542

0,700463

0,485722

-2,17887

4,544391

X5

2,172856

0,543989

3,994299

0,000146

1,089856

3,255855

Рассчитаем среднюю относительную ошибку аппроксимации д по формуле:

Рассмотрим таблицу «Регрессионная статистика»:

Регрессионная статистика

Множественный R

0,606954

R-квадрат

0,368393

Нормированный R-квадрат

0,327905

Стандартная ошибка

4451,301

Наблюдения

84

Опишем значения, рассчитанные в этой таблице, и приведем формулы их расчета.

В первой строке таблицы рассчитан коэффициент множественной линейной корреляции R. Он показывает степень линейной зависимости Y от переменных X1, X2, X3, X4 и X5 [3, 48] и рассчитывается по формуле:

,

где - общая дисперсия результатов признака;

- остаточная дисперсия для уравнения регрессии.

Значение коэффициента множественной линейной корреляции изменяется в интервале от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов [5, 113]. В нашем случае R=0,607, что указывает на среднюю тесноту связи Y с регрессорами.

Квадрат множественной линейной корреляции (или коэффициент детерминации) показывает, сколько процентов вариации зависимого признака объясняется независимыми переменными. Так, всего 36,8% среднемесячной номинальной заработной платы объясняется вводом в действие жилых домов, выбросами в атмосферу загрязняющих веществ, обеспеченностью амбулаторно-поликлиническими учреждениями, стоимостью минимального набора продуктов питания и объемом инвестиций в основной капитал.

Нормированный R2 (или скорректированный коэффициент детерминации ) используется для оценки адекватности уравнения регрессии. В отличие от коэффициента детерминации, который при включении в имеющуюся линейную регрессионную модель дополнительного регрессора всегда увеличивается, нормированный коэффициент детерминации может и увеличиваться, и уменьшаться. Это свойство следует из формулы расчета:

.

Чем больше скорректированный коэффициент детерминации, тем более адекватно уравнение регрессии [7,48]. Соответствующий показатель данного уравнения регрессии составляет 0,328.

Стандартная ошибка уравнения регрессии рассчитывается по формуле:

и выражает оценку погрешности вычислений. Стандартная ошибка для данной регрессионной модели составляет 4451,301.

4. Предположим, что условия линейного регрессионного анализа выполняются.

а) Оценим значимость всего уравнения регрессии в целом на 5-% уровне значимости с помощью F-статистики Фишера. Для этого воспользуемся таблицей «Дисперсионный анализ».

df

SS

MS

F

Значимость F

Регрессия

5

9,01*108

1,8*108

9,098895

7,5508*107

Остаток

78

1,55*109

19814082

Итого

83

2,45*109

В столбце df содержатся степени свободы для компонентов дисперсии, значения которых приведены в столбце SS:

RSS (901 000 000): k-1=6-1=5;

ESS (1 550 000 000): n-k=84-6=78;

TSS (2 450 000 000): n-1=84-1=83.

Значения средних квадратов компонентов дисперсии приведены в столбце MS.

Наблюдаемое значение F-статистики рассчитывается по формуле:

.

Наблюдаемое значение F-статистики, равное 9,098895 больше критического значения (), следовательно, гипотеза о том, что все коэффициенты регрессии равны 0, отвергается на 5-% уровне значимости, т.е. уравнение значимо в целом.

б) Оценим значимость каждого коэффициента регрессии на 5-% уровне с помощью t-статистики. Для этого воспользуемся таблицей, содержащей коэффициенты регрессии и t-статистику:

t-статистика

Нижние 95%

Верхние 95%

Y-пересечение

1,420911

-1377,79

8247,736

X1

0,001859

-677,845

679,1117

X2

0,901819

-17,2263

45,75639

X3

1,558446

-4,02676

33,05301

X4

0,700463

-2,17887

4,544391

X5

3,994299

1,089856

3,255855

Формулы для расчета наблюдаемого и критического значения t-статистики следующие:

Из таблицы видно, что гипотеза о равенстве коэффициента регрессии нулю отвергается только для пятого признака (т.к. наблюдаемое значение больше критического), следовательно, остальные признаки равны 0. Т.е. номинальная заработная плата зависит только от объема инвестиций в основной капитал и не зависит от остальных факторов.

Интервальные оценки каждого коэффициента регрессии приведены в столбцах «Нижние 95%» и «Верхние 95%».

5. Исключим из рассмотрения незначимые факторы и проведем регрессионный анализ с оставшимися факторами. Т.к. значимым является только один фактор (объем инвестиций в основной капитал), то получим уравнение парной регрессии.

Из следующей таблицы видно, что коэффициент корреляции между Y и X5 равен 0,549583, из чего можно заключить, что связь прямая умеренная, т.е. при увеличении X увеличивается Y.

Y

X5

Y

1

X5

0,549583

1

По таблице «Регрессионная статистика» определим основные показатели уравнения регрессии.

Множественный R

0,549583

R-квадрат

0,302041

Нормированный R-квадрат

0,293529

Стандартная ошибка

4563,718

Наблюдения

84

Коэффициент множественной корреляции в данном случае - то же самое, что коэффициент корреляции и равен 0,549583, что меньше аналогичного показателя для предыдущего случая, как и все остальные коэффициенты. Коэффициент детерминации равен 0,302041, скорректированный коэффициент детерминации составляет 0,293529; стандартная ошибка наблюдения равна 4563,718; ошибка аппроксимации д=0,269118.

Таким образом, по перечисленным показателям множественная регрессионная модель эффективней парной.

Найдем коэффициенты уравнения регрессии, t-статистику и доверительные интервалы из следующей таблицы:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

t крит.

Y-пересечение

8853,537

533,1628

16,60569

5,87*10-28

7792,906

9914,167

1,9893

X5

2,378119

0,399217

5,956963

6,16*10-8

1,58395

3,172288

Т.к. критическое значение меньше наблюдаемых, то гипотеза о равенстве коэффициентов регрессии нулю отвергается, следовательно, коэффициенты значимы.

Запишем уравнение регрессии:

Y=8853.537 + 2.378119*X5.

Определим значимость уравнения регрессии в целом по таблице:

df

SS

MS

F

Значимость F

F крит.

Регрессия

1

7,39*108

7,39*108

35,48541

6,16*10-8

3,957388

Остаток

82

1,71*109

20827520

Итого

83

2,45*109

Т.к. наблюдаемое значение больше критического, то гипотеза о незначимости уравнения регрессии в целом отвергается, следовательно, уравнение значимо.

Так как удаление сразу всех четырех незначимых регрессоров одновременно привело к снижению качества показателя функции регрессии - скорректированного коэффициента детерминации - то будем исключать независимые факторы пошагово, руководствуясь критерием минимума наблюдаемого значения t-статистики.

6. Исключим из уравнения регрессор X1, поскольку значение t-статистики является минимальным и составляет 0,001859.

Получим следующие результаты.

Регрессионная статистика

Множественный R

0,606954

R-квадрат

0,368393

Нормированный R-квадрат

0,336413

Стандартная ошибка

4423,039

Наблюдения

84

Ошибка аппроксимации

0,239041

Нормированный коэффициент детерминации в этом случае больше, чем в двух предыдущих, поэтому уравнение является более адекватным.

Коэффициенты уравнения регрессии, их значимость и доверительные интервалы:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

t крит.

Y-пересечение

3437,202

2085,966

1,647775

0,103371

-714,809

7589,213

1,99045

X2

14,26315

15,68511

0,909343

0,365935

-16,9573

45,48358

X3

14,51835

8,821611

1,645771

0,103784

-3,04063

32,07732

X4

1,181439

1,521505

0,776494

0,439776

-1,84704

4,209918

X5

2,173415

0,450469

4,824779

6,7*10-6

1,276778

3,070051

Уравнение регрессии:

Y = 3437.202 + 14.26*X2 + 14.52*X3 + 1.18*X4 + 2.17*X5.

Отвергается только гипотеза о том, что в5=0, остальные принимаются.

На следующем шаге исключим из рассмотрения признак X4, оставив остальные 3 регрессора, т.к. его t-статистика минимальна и равна 0,776.

Значимость уравнения регрессии в целом:

df

SS

MS

F

Значимость F

F крит.

Регрессия

4

9,01*108

2,25*109

11,51943

2,04*107

2,487366

Остаток

79

1,55*109

19563271

Итого

83

2,45*109

Результаты регрессионного анализа по трем переменным представлены в таблицах:

Регрессионная статистика

Множественный R

0,60297

R-квадрат

0,363572

Нормированный R-квадрат

0,339706

Стандартная ошибка

4412,049

Наблюдения

84

Ошибка аппроксимации

0,248288

Оценка скорректированного коэффициента детерминации в этом случае больше, чем в остальных случаях.

df

SS

MS

F

Значимость F

F крит.

Регрессия

3

8,9*109

2,97*108

15,23387

6,26*10-8

2,718785

Остаток

80

1,56*109

19466175

Итого

83

2,45*109

Уравнение регрессии значимо в целом.

Гипотезы о нулевом значении коэффициентов отвергаются для в0, в3 и в5, а для в2 принимается, т.е. в2=0. Поэтому на следующем шаге исключим соответствующий регрессор.

Y= 4124.27+13.45*X2+18.44*X3+2.35*X5.

Проведем регрессионный анализ для регрессоров X3 и X5, исключив X2. Получим следующие результаты.

Регрессионная статистика

Множественный R

0,598055

R-квадрат

0,35767

Нормированный R-квадрат

0,34181

Стандартная ошибка

4405,014

Наблюдения

84

Ошибка аппроксимации

0,249885

Показатель скорректированной детерминации является наибольшим из всех аналогичных показателей, полученных в предыдущих анализах.

Дисперсионный анализ

df

SS

MS

F

Значимость F

F крит.

Регрессия

2

8,75*108

4,38*108

22,5517

1,64*10-8

3,109311

Остаток

81

1,57*109

19404152

Итого

83

2,45*109

Гипотеза о равенстве всех коэффициентов нулю отвергается, следовательно, уравнение значимо.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

t крит.

Y-пересечение

4064,329

1880,019

2,161855

0,033581

323,681

7804,977

1,989686

X3

18,99339

7,171142

2,648586

0,009714

4,725063

33,26171

X5

2,37822

0,385334

6,171842

2,53*10-8

1,611526

3,144913

Уравнение регрессии имеет вид:

Y=4064.329+18.99*X3+2.38*X5.

Гипотезы о равенстве коэффициентов регрессии в0, в3 и в5 нулю отвергаются на 5-% уровне значимости.

Для обобщения результатов занесем необходимые данные пошаговой регрессии в сводную таблицу.

Шаг

Уравнение регрессии

R2

S

1

Y=3434,97+0,63*X1+14,27*X2+14,51* X3+1,18*X4+2,17*X5

tкрит= 1,99

Fкрит=2.33

0,368393

0,327905

4451,301

2

Y = 3437.202 + 14.26*X2 + 14.52*X3 + 1.18*X4 + 2.17*X5.

tкрит= 1,99

Fкрит=2,49

0,368393

0,336413

4423,039

3

Y = 4124.27+13.45*X2+18.44*X3+2.35*X5.

tкрит= 1,99

Fкрит=2,72

0,363572

0,339706

4412,048799

4

Y=4064.329+18.99*X3+2.38*X5.

tкрит=1,99

Fкрит=3,11

0,35767

0,34181

4405,014

Шаг

Интервальные оценки коэффициентов

tнабл

Fнабл

д

1

[-1377,79; 8247,736]

[-677,845; 679,1117]

[-17,2263; 45,75639]

[-4,02676; 33,05301]

[-2,17887; 4,544391]

[1,089856; 3,255855]

1,420911

0,001859

0,901819

1,558446

0,700463

3,994299

9,099

23,9%

2

[-714,809; 7589,213]

[-16,9573; 45,48358]

[-3,04063; 32,07732]

[-1,84704; 4,209918]

[1,276778; 3,070051]

1,647775

0,909343

1,645771

0,776494

4,824779

11,51943

23,9%

3

[374,3805; 7874,159]

[-17,6203; 44,51317]

[4,094536; 32,79446]

[1,580169; 3,121499]

2,188747

0,861349

2,557897

6,070484

15,23387

24,8%

4

[323,681; 7804,977]

[4,725063; 33,26171]

[1,611526; 3,144913]

2,161855

2,648586

6,171842

22,5517

24,99%

7. Таким образом, было получено статистически значимое уравнение регрессии, у которого все коэффициенты также значимы, и с удовлетворительными показателями коэффициента корреляции, детерминации и нормированного коэффициента детерминации. Т.е. получили, что средняя заработная плата зависит от обеспеченности амбулаторно-поликлиническими учреждениями и от объема инвестиций в основной капитал. Корреляция между третьим и пятым признаками наименьшая из всех корреляций и равна -0,00001.

Дадим содержательную интерпретацию полученного уравнения регрессии:

Y=4064.329+18.99*X3+2.38*X5.

а) Около 36% вариации заработной платы объясняется линейным влиянием обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (определяется коэффициентом детерминации R2=0.358).

б) Точечными оценками генерального среднего значения признака Y являются рассчитанные значения . Каждому конкретному значению регрессоров соответствует единственная точечная оценка. Так, точечная оценка средней заработной платы для Белгородской области равна 9084,460814.

Рассчитаем для этой же области интервальную оценку признака Y по формуле:

или .

;

.

в) Если увеличить обеспеченность амбулаторно-поликлиническими учреждениями на 1 единицу измерения, то средняя заработная плата увеличится на 18,99 (выбираем наибольший из коэффициентов регрессии). Увеличение этого же фактора на единицу сопровождается и наибольшим максимально возможным с 95-% вероятностью изменением результативного признака (увеличение заработной платы на 33,26 единиц), т.к. доверительные интервалы коэффициентов регрессии равны соответственно [4,725063; 33,26171] и [1,611526; 3,144913].

г) Для того, чтобы определить, изменение какого регрессора ведет к наибольшему изменению результативного признака на 1%, рассчитаем коэффициенты эластичности для каждого регрессора по следующей формуле: .

Получим:

- эластичность по третьему признаку;

- эластичность по пятому признаку.

Т.к. эластичность по третьему признаку больше по своему значению, чем эластичность по пятому признаку, то увеличение среднего значения X5 на 1% ведет к наибольшему изменению среднего значения Y. Таким образом, при увеличении амбулаторно-поликлинических учреждений на 1% среднемесячная номинальная заработная плата увеличивается на 0,479%.

Для того чтобы определить, изменение какого признака повлечет за собой наибольшее изменение результативного признака с 95-% вероятностью, подставим вместо оценок коэффициентов уравнения регрессии их точечные оценки. Получим:

- максимально возможное с 95-% вероятностью изменение результативного признака при изменении X3;

- максимально возможное с 95-% вероятностью изменение результативного признака при изменении X5.

Таким образом, при увеличении амбулаторно-поликлинических учреждений на 1% номинальная заработная плата максимально может увеличиться с вероятностью 95% на 0,84 %.

8. Исследуем уравнение регрессии на гетероскедастичность с помощью различных методов.

· Проведем тест Голдфельда-Квандта. Этот метод применяется в том случае, если ошибки регрессии можно считать нормально распределенными случайными величинами, а объем выборки небольшой.

Тест включает в себя следующие шаги:

1) Упорядочение n наблюдений по мере возрастания той переменной X, относительно которой имеются предположения о гетероскедастичности.

2) Построение регрессии для m первых и m последних наблюдений, причем .

3) Проверка гипотезы о равенстве дисперсий в первой и второй выборках

Если дисперсии равны, то модель гомоскедастична, если нет - гетероскедастична.

Упорядочим выборку относительно X2 и выберем m=35 . Проведем регрессию для первых и последних 35 наблюдений.

Рассчитаем наблюдаемое значение F-статистики по формуле:

Оно оказалось равно 2,296, что больше критического значения равного 1,804, следовательно, гипотеза о гомоскедастичности отвергается, присутствует гетероскедастичность.

· Проведем тест Уайта. Это наиболее простой и часто употребляемый тест на гетероскедастичность. Предполагается, что дисперсия ошибок регрессии представляют собой одну и ту же функцию от наблюдаемых значений регрессоров, т.е. . Идея теста Уайта заключается в оценке этой функции с помощью соответствующего уравнения регрессии для квадратов остатков:

.

Гипотеза об отсутствии гетероскедастичности принимается при незначимости уравнения регрессии в целом.

Построим уравнение регрессии, взяв в качестве зависимой переменной квадраты остатков, и определим его значимость. Было получено следующее уравнение регрессии:

.

Наблюдаемое значение F-статистики равно 0,742211, критическое - 2,331739. Так как критическое значение больше наблюдаемого, то гипотеза о незначимости всего уравнения регрессии принимается, т.е. гетероскедастичность отсутствует согласно этому методу.

· Проведем тест Глейзера, в котором в качестве зависимой переменной выбирается абсолютная величина остатков, т.е. осуществляется регрессия: . Регрессия выбирается при разных значениях г, затем выбирается то значение, при котором коэффициент в оказывается более значим, т.е. имеет наибольшее значение t-статистики. Возьмем в качестве г значения -1, -0.5, 0.5, 1 и проведем регрессионный анализ по остаткам. В следующей таблице приведены полученные результаты.

Значение г

Уравнение регрессии

Значение t-статистики

Критическое значение

-0.5

t3=-1.19727;

t5=-1.34777

tк=1,989686

-1

t3=-1.22327;

t5=-1.75702

0.5

t3=0,777937;

t5=2,080195

1

t3=1,570119;

t5=1,741952.

Заметим, что большинство t-статистик меньше критического значения, а уравнение, для которого t5=2,080195, незначимо в целом (его F-значение равно 0,073883409 > 0,05). Поэтому гипотеза об отсутствии гетероскедастичности принимается, т.е. присутствует гомоскедастичность.

Таким образом, гетероскедастичность присутствует по результатам теста Голдфельда-Квандта и отсутствует согласно тестам Уайта и Глейзера. Однако, недостатком тестов Уайта и Глейзера является то, что факт невыявления ими гетероскедастичности не означает ее отсутствия, так как принимая гипотезу H0, мы принимаем лишь тот факт, что отсутствует определенного вида зависимость дисперсий ошибок регрессии от значений регрессоров [5, 166]. С другой стороны, недостатком теста Голдфельда-Квандта является то, что с помощью него можно установить лишь наличие гетероскедастичности, но он не предоставляет методов для ее устранения. Устранить гетероскедастичность, используя уравнения Уайта и Глейзера, тоже невозможно, т.к. согласно этим тестам присутствует гомоскедастичность. Поэтому выполнение этой процедуры не представляется возможным.

9. Составим нели нейное уравнение множественной регрессии в логарифмической форме:

Это уравнение можно привести к линейному виду, заменив () на . Получим: .

Проведем регрессионный анализ для прологарифмированных данных. Результаты содержатся в следующих таблицах:

Корреляция

Ln Y

Ln X1

Ln X2

Ln X3

Ln X4

Ln X5

Ln Y

1

Ln X1

0,154743

1

Ln X2

0,083349

0,085809

1

Ln X3

0,666594

0,200103

0,099096

1

Ln X4

0,14944

-0,23045

0,276736

0,09512

1

Ln X5

0,261116

0,361554

0,408353

0,165932

0,578613

1

Регрессионная статистика

Логарифмическая модель (5 признаков)

Линейная модель

(5 признаков)

Множественный R

0,686855

Множественный R

0,606954

R-квадрат

0,471769

R-квадрат

0,368393

Нормированный R-квадрат

0,437908

Нормированный R-квадрат

0,327905

Стандартная ошибка

1,092471

Стандартная ошибка

4451,301

Наблюдения

84

Наблюдения

84

Сравним показатели логарифмической регрессионной модели с линейной. Множественный R, коэффициент детерминации и скорректированный коэффициент детерминации (которые являются основными показателями качества функции) логарифмической модели больше аналогичных показателей линейной, а стандартная ошибка гораздо меньше.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

0,769554

5,560577

0,138395

0,890285

-10,3007

11,83981

Ln X1

-0,12983

0,24729

-0,52501

0,601065

-0,62215

0,362486

Ln X2

-0,043

0,07083

-0,60714

0,545521

-0,18402

0,098008

Ln X3

1,478319

0,193067

7,657033

4,33E-11

1,093953

1,862685

Ln X4

-0,25299

0,86152

-0,29365

0,769805

-1,96814

1,462169

Ln X5

0,370186

0,228844

1,617634

0,109779

-0,08541

0,825779

Наблюдаемое значение F-статистики составляет 13,93254, критическое - 2,331739. Так как наблюдаемое значение больше критического, то гипотеза о незначимости уравнения отвергается, т.е. уравнение значимо в целом.

Значимым коэффициентом является только один - b3.

Исключим из рассмотрения признак, имеющий наименьшее значение t-статистики (X4) и проведем регрессионный анализ по оставшимся признакам. Получим следующие результаты.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-0,81865

1,284199

-0,63748

0,525659

-3,37478

1,73749

Ln X1

-0,08748

0,199714

-0,43802

0,662566

-0,485

0,310042

Ln X2

-0,04322

0,070416

-0,61373

0,541157

-0,18337

0,096943

Ln X3

1,472235

0,190839

7,714555

3,13E-11

1,09238

1,85209

Ln X5

0,323557

0,163832

1,974925

0,05177

-0,00254

0,649657

Для данной регрессии значимым остается третий признак, а незначимые - все остальные. Поэтому исключим еще один признак (X1) и снова проведем регрессионный анализ.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-0,68911

1,243358

-0,55423

0,580964

-3,16347

1,78525

Ln X2

-0,04078

0,06984

-0,58393

0,560912

-0,17977

0,098205

Ln X3

1,459243

0,187565

7,779934

2,18E-11

1,085977

1,832509

Ln X5

0,299015

0,153174

1,95212

0,054423

-0,00581

0,603842

Получили такой же результат, как и в предыдущих двух случаях, следовательно исключаем очередной регрессор (X2).

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-0,46241

1,176379

-0,39308

0,695291

-2,80304

1,87821

Ln X3

1,45543

0,186687

7,796092

1,89E-11

1,083982

1,826879

Ln X5

0,263293

0,139855

1,882608

0,0063344

-0,01498

0,541561

Получили уравнение регрессии: .

Регрессионная статистика

Множественный R

0,683843

R-квадрат

0,467641

Нормированный R-квадрат

0,454497

Стандартная ошибка

1,07623

Наблюдения

84

Наблюдаемое значение F-статистики (35,57655) для этого уравнения больше критического значения (3,109311), т.е. гипотеза о незначимости уравнения отвергается, уравнение значимо. Коэффициенты этого уравнения также значимы. Показатели качества функции больше, чем для линейной модели, поэтому можно сказать, что данная логарифмическая модель лучше аппроксимирует данные.

Для нелинейной регрессии составим сводную таблицу:

Шаг

Уравнение регрессии

R2

S

1

lnY=0.77-0.13*lnX1-0.04*lnX2+1.48* lnX3-0.25*lnX4+0.037*lnX5

tкрит= 1.99

Fкрит=2,331739

0,471769

0,437908

1,092471

2

lnY = -0.82 - 0.09*lnX1 - 0.04*lnX2 + 1.47*lnX3 + 0.32*lnX5.

tкрит= 1,99

Fкрит=2,487366

0,471185

0,44441

1,086135

3

lnY = -0.69-0.04*lnX2+1.46*lnX3+0.3*lnX5.

tкрит= 1,99

Fкрит=2,718785

0,469901

0,450022

1,080635

4

lnY=-0.46+1.46*lnX3+0.26*lnX5.

tкрит=1,99

Fкрит=3,109311

0,467641

0,454497

1,07623

Шаг

Интервальные оценки коэффициентов

tнабл

Fнабл

д

1

[-10,3007; 11,83981]

[-0,62215; 0,362486]

[-0,18402; 0,098008]

[1,093953; 1,862685]

[-1,96814; 1,462169]

[-0,08541; 0,825779]

0,138395

-0,52501

-0,60714

7,657033

-0,29365

1,617634

13,93254

3,3%

2

[-3,37478; 1,73749]

[-0,485; 0,310042]

[-0,18337; 0,096943]

[1,09238; 1,85209]

[-0,00254; 0,649657]

-0,63748

-0,43802

-0,61373

7,714555

1,974925

17,59766

3,3%

3

[-3,16347; 1,78525]

[-0,17977; 0,098205]

[1,085977; 1,832509]

[-0,00581; 0,603842]

-0,55423

-0,58393

7,779934

1,95212

23,63839

3,3%

4

[-2,80304; 1,87821]

[1,083982; 1,826879]

[-0,01498; 0,541561]

-0,39308

7,796092

1,882608

35,57655

3,2%

В итоге получили, что номинальная заработная плата в большей степени зависит от обеспеченности амбулаторно-поликлиническими учреждениями и в меньшей - от объема вложений в основной капитал. Связь между этими величинами прямая, т.е. при увеличении амбулаторно-поликлинических учреждений и (или) объема вложений в основной капитал, номинальная заработная плата также увеличивается.

РАЗДЕЛ 2. КОМПОНЕНТНЫЙ И ФАКТОРНЫЙ АНАЛИЗ

2.1 Компонентный анализ

Изучается система из пяти признаков X1, X, X3, X4, X5 по числовым данным, собранным на 84 объектах. Цель -- выявить общие для этих признаков латентные факторы (главные компоненты), влиянием которых обусловлены вариации признаков и их ковариации.

1. Запишем модель компонентного анализа и предъявляемые к ней требования.

Модель компонентного анализа предполагает, что каждый признак X(j) формируется как линейная комбинация такого же числа факторов -- компонент F(i), влиянием которых объясняется суммарная дисперсия признаков X(j).

К компонентам F(i) предъявляются следующие требования:

* они должны быть некоррелированы между собой;

* они должны выделяться таким образом, чтобы влиянием первой компоненты объяснялось максимальная доля суммарной дисперсии всех признаков, влиянием второй компоненты -- максимальная доля оставшейся суммарной дисперсии и т. д.

Поскольку исходные признаки разнородны по содержательному смыслу и имеют разные единицы измерения, компонентный анализ будем проводить с использованием корреляционной матрицы.

В качестве исходных данных используется матрица размера 84x5 признаков x1, x2, x3, x4, x5.

По данной выборке с помощью пакета SPSS реализуем метод главных компонент.

2. Определим доли общей дисперсии признаков (в процентах), приходящиеся на каждую компоненту, и накопленные доли этой дисперсии (в процентах) по следующей таблице:

Объясненная совокупная дисперсия

Компоненты

Собственные значения

Сумма

% вариации

Совокупный %

1

1,732

34,635

34,635

2

1,288

25,770

60,405

3

,989

19,775

80,179

4

,777

15,535

95,715

5

,214

4,285

100,000

Следующая таблица иллюстрирует матрицу нагрузок (5 Ч 5) признаков на компоненты:

Матрица компонент

Признаки

Компоненты

1

2

3

4

5

1

,346

,767

-,019

,512

,171

2

,195

-,023

,979

-,051

,035

3

,628

-,531

-,012

,532

-,201

4

,827

-,366

-,165

-,270

,285

5

,704

,533

-,055

-,395

-,249

Для записи исходных признаков через компоненты воспользуемся формулой линейной модели компонентного анализа:

Каждый признак x(i) может быть представлен в виде линейной комбинации такого же числа факторов F(j). Каждый фактор разделив каждую компоненту на соответствующее собственное число:

.

Запишем выражения исходных признаков через компоненты:

,

,

,

,

.

Аналогично можно записать выражения компонент через признаки:

,

,

,

,

.

3. Снизим размерность системы исходных признаков. Для этого проанализируем таблицу «Объясненная совокупная дисперсия». Как видно из таблицы первые 3 компоненты имеют собственные значения, превосходящие по значению единицу или близкие к 1, и объясняют 80,2% вариации признаков, что достаточно для выделения факторов. Поэтому можно снизить размерность исходной системы до 3-х признаков.

Распределение вариации признаков по компонентам можно представить в виде следующей факторной диаграммы:

28

После снижения размерности получим таблицу:

Матрица компонент

Признаки

Факторы

1

2

3

1

,346

,767

-,019

2

,195

-,023

,979

3

,628

-,531

-,012

4

,827

-,366

-,165

5

,704

,533

-,055

Определим принадлежность признаков факторам. Для этого оценим абсолютное значение каждого признака по факторам. Получили следующее распределение:

Первый фактор включает 3-й, 4-й и 5-й признаки (обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал).

Второй фактор включает 1-й признак (ввод в действие жилых домов).

Третий фактор включает 2-й признак (выбросы в атмосферу загрязняющих веществ, отходящих от стационарных источников).

Проанализируем признаки, входящие в первый фактор. Как видно, последний признак (объем инвестиций в основной капитал) логически не соответствует структуре фактора. Кроме того, он принимает близкие значения 0,704 и 0,533 в матрице компонент для 1-го и 2-го фактора. Поэтому целесообразно отнести 5-й признак именно ко второму фактору.

В соответствии с включенными признаками можно дать следующие названия факторам:

1 фактор - условия для поддержания здоровья населения, которое зависит, как известно, не только от числа поликлиник в регионе, но также во многом и от качества питания, на которое в свою очередь оказывает влияние уровень цен на продукты;

2 фактор - обеспеченность жильем. Очевидно, что чем выше количество введенных в действие жилых домов, тем выше уровень обеспеченности населения жильем в целом;

3 фактор - экологическая ситуация, на которую очень сильное воздействие оказывают выбросы промышленных отходов в наземную, водную и воздушную среду.

4. Проведем регрессионный анализ признака Y (номинальная заработная плата) на отобранные главные компоненты.

Матрица корреляции имеет следующий вид:

Y

K1

K2

K3

Y

1

K1

0,582522

1

K2

0,263598

0,569492

1

K3

0,060301

0,134633

-0,14845

1

Наибольшую корреляцию с результативным признаком имеет первый фактор (который, как уже указывалось выше, включает в себя обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания по субъектам Российской Федерации и объем инвестиций в основной капитал) и наименьшую связь - третий фактор (включающий выбросы в атмосферу загрязняющих веществ).

Коэффициенты уравнения регрессии и их значимость содержатся в следующей таблице:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

10777,09

535,9039

20,11012

5,04*10-33

9710,611

11843,58

K1

4407,925

768,0113

5,739401

1,64*10-7

2879,534

5936,316

K2

-752,831

742,5739

-1,01381

0,313728

-2230,6

724,9378

K3

-248,633

523,5045

-0,47494

0,636124

-1290,44

793,174

Таким образом, получили уравнение регрессии вида:

.

Незначимыми в этом уравнении являются коэффициенты при K2 и K3, значимыми - свободный коэффициент и коэффициент при K1.

Само уравнение регрессии в целом является значимым, т.к. наблюдаемое значение F-статистики (14,23581) больше критического значения (2,718785).

Рассмотрим показатели качества функции регрессии.

Регрессионная статистика

Множественный R

0,589952

R-квадрат

0,348043

Нормированный R-квадрат

0,323594

Стандартная ошибка

4465,554

Наблюдения

84

Как видно, эта модель имеет средние показатели множественного коэффициента корреляции, детерминации и скорректированного коэффициента детерминации и большое значение стандартной ошибки.

Попытаемся улучшить модель, исключив из нее регрессор K3, как имеющего наименьшее значение t-статистики.

Получим уравнение:

.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

10738,33

527,1149

20,3719

1,29*10-33

9689,539

11787,13

K1

4309,576

736,0243

5,855209

9,78*10--9

2845,119

5774,034

K2

-655,354

710,2272

-0,92274

0,358884

-2068,48

757,7752

В этом уравнении коэффициент K2 остается незначимым, а все уравнение в целом значимо (). Поэтому построим уравнение регрессии для одного фактора (K1) и получим следующие результаты:

.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

10566,22

492,5618

21,45155

2,21E-35

9586,353

11546,08

K1

3922,801

604,4614

6,489746

6,14E-09

2720,335

5125,268

Значимыми являются все коэффициенты уравнения и само уравнение в целом, для которого Fн=42,117, Fк=3,958.

Таким образом, было получено уравнение парной регрессии зависимости результативного признака Y (среднемесячная номинальная заработная плата) от фактора K1 (обеспеченность амбулаторно-поликлиническими учреждениями, стоимость минимального набора продуктов питания и объем инвестиций в основной капитал). Причем связь между этими признаками прямая, т.е. при увеличении значений факторных компонент, увеличивается и заработная плата. Можно сказать, что похожие результаты были получены в регрессионном анализе по исходным признакам, за исключением такого регрессора, как стоимость минимального набора продуктов питания, входящего в фактор.

2.2 Факторный анализ

1. Запишем модель факторного анализа и предъявляемые к ней требования.

Математическая модель факторного анализа в матричной форме имеет следующий вид:

X Ю=AF+е,

где F=(F1,…,F2) - вектор общих факторов. Центрированный и нормированный вектор-столбец некоррелированных общих факторов. 0<k<m;

A(mЧk) - неслучайная матрица нагрузок компонентов xi - на факторы fj;

е=(е1,…,еm) - вектор распределений по m-мерному нормальному закону; центрированный вектор специфических факторов, некоррелированных как между собой, так и с общими факторами.

К общим и специфическим факторам предъявляются следующие требования:

* общие факторы должны быть некоррелированы между собой;

* специфические факторы должны быть некоррелированы как между собой, так и с общими факторами.

2. Для выделения факторов реализуем метод максимального правдоподобия.

Зададим максимальное число факторов равным одному, чтобы вначале выявить один общий фактор.

В результате работы программы максимум функции правдоподобия не найден, следовательно, невозможно рассчитать матрицу факторных нагрузок.

Установим максимальное число факторов равным двум.

Сразу обратим внимание на тест «Хи-квадрат», проверяющий гипотезу о равенстве числа общих факторов двум.

Тест «Хи-квадрат»

Наблюдаемое значение

Уровень значимости

Р-значение

8,629

1

,003

Гипотеза H0 о том, что число общих факторов равно двум, принимается на 1%-ном уровне значимости, так как наблюдаемое значение статистики ч2, равное 8,629 меньше критического значения .

Следовательно, можно выделить всего 2 фактора, влияющие на распределение признаков, несмотря на то, что они в совокупности объясняют лишь 60,405% всей вариации:

Объясненная суммарная дисперсия

Факторы

Собственные значения

Суммы квадратов нагрузок после вращения

Сумма

% вариации

Суммарный %

Сумма

% вариации

Суммарный %

1

1,732

34,635

34,635

1,323

26,464

26,464

2

1,288

25,770

60,405

1,256

25,121

51,586

3

,989

19,775

80,179

4

,777

15,535

95,715

5

,214

4,285

100,000

Определим нагрузку исходных признаков на общие факторы.

Можно изобразить факторные нагрузки в виде диаграммы рассеяния:

28

На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Можно увидеть, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные.

Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой. Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.

Идея вращения по методу варимакс заключается в максимизации дисперсии исходного пространства переменных. Например, на диаграмме рассеяния можно рассматривать линию регрессии как ось X, повернув ее так, что она совпадала с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее. Другими словами, вращение позволяет получить матрицу нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом, и имелась возможность их простой интерпретации [7, факторный анализ]. Ниже приведена вращенная диаграмма рассеивания и таблица нагрузок на повернутые факторы.

28

Вращенная матрица факторных нагрузок

Признаки

Факторы

1

2

1

-,205

,455

2

,011

,081

3

,561

-,105

4

,966

,258

5

,185

,982

Дадим содержательную интерпретацию этим факторам. Как видно из таблицы первый фактор имеет сильную прямую связь с 4-м признаком (стоимость минимального набора продуктов питания) и умеренную прямую связь с 3-м признаком (обеспеченность амбулаторно-поликлиническими учреждениями), поэтому его можно назвать «условия для поддержания здоровья населения». Второй фактор тесно связан с 5-м признаком (объем инвестиций в основной капитал) и слабее с 1-м признаком (ввод в действие жилых домов). Назовем его «обеспеченность жильем». Как видно второй признак имеет очень маленькую нагрузку на оба фактора, поэтому его можно не учитывать.

Вероятнее всего, оставшиеся 39,5% вариации признаков объясняются специфическими факторами.

Матрица специфических факторов

Факторы

1

2

1

,680

,733

2

-,733

,680

3. Проведем регрессионный анализ признака Y (номинальная заработная плата) на общие факторы F1 (который включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями) и F2 (включающий объем инвестиций в основной капитал).

Была получена матрица корреляции, по которой видно, что первый фактор больше коррелирует с результативным признаком, чем второй:

Y

F1

F2

Y

1

F1

0,560433

1

F2

0,135599

5,21E-07

1

Регрессия имеет средние показатели качества и большое значение стандартной ошибки:

Регрессионная статистика

Множественный R

0,576604

R-квадрат

0,332472

Нормированный R-квадрат

0,31599

Стандартная ошибка

4490,584

Наблюдения

84

Уравнение регрессии имеет вид:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

9988,742

489,9629

20,38673

1,23E-33

9013,869

10963,61

F1

3042,956

492,906

6,173502

2,52E-08

2062,228

4023,685

F2

736,2536

492,9057

1,493701

0,139139

-244,474

1716,981

Наблюдаемое и критическое значения F- статистики равны соответственно 20,17164 и 3,109311, что отвергает гипотезу о незначимости всего уравнения регрессии в целом.

Из таблицы видно, что коэффициент регрессии при F2 незначим, поэтому исключим его и проведем регрессионный анализ по одному фактору.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

9988,742

493,6274

20,23539

1,25E-33

9006,76

10970,72

F1

3042,957

496,5924

6,127674

2,96E-08

2055,076

4030,837

Получили уравнение:

Уравнение является значимым (Fн=37,54839, Fк=3,957388), как и все его коэффициенты.

Таким образом, можно сделать вывод, что номинальная заработная плата находится в прямой зависимости от стоимости минимального набора продуктов питания и обеспеченности амбулаторно-поликлиническими учреждениями. Эта зависимость имеет общие черты с предыдущим регрессионным анализом по исходным признакам и по главным компонентам, где получили зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по исходным признакам) и стоимость минимального набора продуктов питания, обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по главным компонентам).

РАЗДЕЛ 3. КЛАСТЕРНЫЙ АНАЛИЗ

Требуется по исходным данным провести классификацию 20 объектов (20 регионов РФ) (9-28). Проведем на SPSS иерархический кластерный анализ, реализовав метод ближайшего соседа с выбором евклидовой метрики расстояний (данные предварительно стандартизированы).

1. По матрице расстояний найдем значение расстояния между первым и 20-м объектами.

Матрица расстояний

Объекты

Евклидово расстояние

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

1

0

2,4

2,21

2,06

1,78

1,74

2,79

2,42

2,01

2,09

2,4

2,17

1,91

7,82

1,38

2,43

1,65

2,77

1,45

2,3

2

2,4

0

3,07

2,98

2,94

2,73

3,42

3,59

3,38

3,11

3,57

4,19

3,93

7,55

3,18

2,25

2,49

4,23

3,19

3,48

3

2,21

3,07

0

,33

,8

,5

,74

,75

,86

3,34

1,07

3,32

2,8

8,12

1,62

1,36

1,16

2,16

1,56

,73

4

2,06

2,98

,33

0

,69

,52

,75

,69

,8

3,2

,89

3,09

2,66

7,86

1,38

1,24

,92

1,96

1,46

,72

5

1,78

2,94

,8

,69

0

,67

1,21

,81

,46

2,59

,85

2,66

2,08

7,92

1,09

1,44

,72

1,68

,86

,61

6

1,74

2,73

,5

,52

,67

0

1,2

1,05

,88

2,98

1,27

3,07

2,54

8,1

1,4

1,39

,98

2,25

1,28

,94

7

2,79

3,42

,74

,75

1,21

1,2

0

,77

1,21

3,72

,96

3,59

3,17

7,89

1,95

1,33

1,41

2,04

2,03

,92

8

2,42

3,59

,75

,69

,81

1,05

,77

0

,56

3,29

,44

2,97

2,5

8,

1,41

1,72

1,26

1,49

1,43

,3

9

2,01

3,38

,86

,8

,46

,88

1,21

,56

0

2,82

,69

2,64

2,03

8,07

1,12

1,8

1,09

1,5

,89

,35

10

2,09

3,11

3,34

3,2

2,59

2,98

3,72

3,29

2,82

0

3,11

2,26

1,7

7,84

2,42

3,2

2,47

2,98

2,06

3,08

11

2,4

3,57

1,07

,89

,85

1,27

,96

,44

,69

3,11

0

2,71

2,34

7,68

1,24

1,69

1,13

1,12

1,4

,57

12

2,17

4,19

3,32

3,09

2,66

3,07

3,59

2,97

2,64

2,26

2,71

0

1,17

7,37

1,72

3,6

2,61

2,14

2,06

2,92

13

1,91

3,93

2,8

2,66

2,08

2,54

3,17

2,5

2,03

1,7

2,34

1,17

0

8,02

1,53

3,26

2,24

1,96

1,29

2,35

14

7,82

7,55

8,12

7,86

7,92

8,1

7,89

8

8,07

7,84

7,68

7,37

8,02

0

7,47

7,32

7,3

7,47

8,1

8,11

15

1,38

3,18

1,62

1,38

1,09

1,4

1,95

1,41

1,12

2,42

1,24

1,72

1,53

7,47

0

2,08

1,09

1,46

,92

1,38

16

2,43

2,25

1,36

1,24

1,44

1,39

1,33

1,72

1,8

3,2

1,69

3,6

3,26

7,32

2,08

0

1,05

2,56

2,19

1,7

17

1,65

2,49

1,16

,92

,72

,98

1,41

1,26

1,09

2,4

1,13

2,61

2,24

7,3

1,09

1,05

0

1,83

1,24

1,19

18

2,77

4,23

2,16

1,96

1,68

2,25

2,04

1,49

1,5

2,98

1,12

2,14

1,96

7,47

1,46

2,56

1,83

0

1,71

1,54

19

1,45

3,19

1,56

1,46

,86

1,28

2,03

1,43

,89

2,06

1,4

2,06

1,29

8,1

,92

2,19

1,24

1,71

0

1,22

20

2,3

3,48

,73

,72

,61

,94

,92

,3

,35

3,08

,57

2,92

2,35

8,11

1,38

1,7

1,19

1,54

1,22

0

Расстояние между первым и двадцатым объектами, рассчитанное по формуле евклидова расстояния:

- равно 2,3.

2. Рассмотрим первые пять строк протокола объединения:

Порядок агломерации

Шаг

Объединение в кластеры

Коэффициенты

Шаг, на котором кластер появляется впервые

Следующий шаг

Кластер 1

Кластер 2

Кластер 1

Кластер 2

1

8

20

,303

0

0

3

2

3

4

,326

0

0

6

3

8

9

,346

1

0

4

4

8

11

,443

3

0

5

5

5

8

,455

0

4

7

6

3

6

,498

2

0

7

7

3

5

,669

6

5

8

8

3

17

,715

7

0

9

9

3

7

,743

8

0

10

10

3

19

,863

9

0

11

11

3

15

,919

10

0

12

12

3

16

1,050

11

0

13

13

3

18

1,122

12

0

15

14

12

13

1,171

0

0

15

15

3

12

1,286

13

14

16

16

1

3

1,377

0

15

17

17

1

10

1,698

16

0

18

18

1

2

2,252

17

0

19

19

1

14

7,295

18

0

0

На первом шаге объединяются наблюдения под номерами 8 и 20 на уровне 0,303. Эти 2 региона максимально похожи друг на друга и отдалены на очень малое расстояние. Далее этот кластер встречается на 3-м шаге под номером 8. На втором шаге, на уровне 0,326 объединяются кластеры 3 и 4. На третьем - 8-й и 9-й на уровне 0,346. На четвертом - 8 и 11 на 0,443. На 5-м - 5 и 8 кластеры на уровне 0,455.

Приведем алгоритм пересчета матрицы расстояний между объектами на каждом шаге объединения:

· На нулевом шаге за разбиение принимается исходная совокупность 20 элементарных кластеров. Т.е. каждое наблюдение - это отдельный кластер.

· На каждом следующем шаге происходит объединение 2-х кластеров ks и kt, сформированных на предыдущем шаге в один кластер, при этом размерность матрицы расстояний уменьшается по сравнению с размером исходной матрицы на предыдущем шаге на единицу. За расстояние между кластерами принимается минимальное из расстояний (метод ближнего соседа).

Ниже приведем дендрограмму разбиения по методу ближнего соседа.

Порядок агломерации

Шаг

Объединение в кластеры

Коэффициенты

Шаг, на котором кластер появляется впервые

Следующий шаг

Кластер 1

Кластер 2

Кластер 1

Кластер 2

1

8

20

,303

0

0

5

2

3

4

,326

0

0

4

3

5

9

,455

0

0

6

4

3

6

,520

2

0

10

5

8

11

,572

1

0

6

Здесь первые два шага кластеризации соответствуют первым двум шагам агломерации по методу ближнего соседа. На третьем шаге на уровне 0,455 объединяются кластеры 5 и 9; на четвертом на уровне 0,52 - кластеры 3 (включающий 3 и 4 регионы) и 6; на пятом - 8 и 11 на уровне 0,572.

Здесь, как и в методе ближнего соседа, 14-й кластер выделяется в отдельный, а во второй кластер попадают все остальные регионы.

Рассмотрим первые пять шагов протокола объединения по методу средней связи:

Порядок агломерации

Шаг

Объединение в кластеры

Коэффициенты

Шаг, на котором кластер появляется впервые

Следующий шаг

Кластер 1

Кластер 2

Кластер 1

Кластер 2

1

8

20

,303

0

0

3

2

3

4

,326

0

0

4

3

8

9

,452

1

0

5

4

3

6

,509

2

0

7

5

8

11

,570

3

0

6

От предыдущего случая этот порядок агломерации отличается только третьим шагом, на котором объединяются кластеры 8 и 9 на уровне 0,452.

В этом случае, как и в двух предыдущих, второму кластеру принадлежит только 1 регион - Ненецкий АО, а первому - все остальные 19 регионов.


Алгоритм пересчета матрицы расстояний на каждом шаге агломерации для методов дальнего соседа и средней связи аналогичен вышеприведенному алгоритму, с тем только отличием, что за расстояние между кластерами принимается дальнее расстояние: (метод дальнего соседа) или расстояние, рассчитываемое по формуле:

(метод средней связи).

3. Проведем вычисления по методу К-средних, выбрав в качестве количества кластеров число 2. Этот метод кластеризации существенно отличается от иерархических агломеративных методов. Предположим, уже имеются гипотезы относительно числа кластеров (по наблюдениям или по переменным). Можно указать системе образовать ровно три кластера так, чтобы они были настолько различны, насколько это возможно. Это именно тот тип задач, которые решает алгоритм метода K средних. Это алгоритм, предназначенный для выбора K центров, представляющих кластеры в N точках (K<N). Отправляясь от случайной выборки из N точек, расположение центров кластеров последовательно корректируется таким образом, чтобы каждая из N точек относилась ровно к одному из K кластеров и центр каждого кластера совпадал с центром тяжести относящихся к нему точек. В общем случае метод K средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга. [7, Кластерный анализ].

В результате работы программы получено разбиение регионов на 2 кластера:

Кластерная принадлежность

Номер бъекта

Регионы

Кластеры

Расстояние

1

Липецкая

2

1,515

2

Московская

2

2,845

3

Орловская

2

1,088

4

Рязанская

2

,882

5

Смоленская

2

,396

6

Тамбовская

2

,869

7

Тверская

2

1,462

8

Тульская

2

1,030

9

Ярославская

2

,675

10

Москва

2

2,371

11

Карелия

2

,942

12

Коми

2

2,324

13

Архангельская

2

1,845

14

Ненецкий АО

1

,000

15

Вологодская

2

,745

16

Калининградская

2

1,511

17

Ленинградская

2

,556

18

Мурманская

2

1,576

19

Новгородская

2

,747

20

Псковская

2

,901

Из таблицы видно, что Ненецкий АО снова выделяется в отдельный кластер, в то время, как остальные регионы принадлежат другому кластеру.

4. Проведем кластерный анализ, выбрав в качестве признаков главные компоненты, на долю которых приходится не менее 70% доли общей дисперсии.

Расстояние между первым и последним объектами равно 1, 188.

В результате кластерного анализа регионов по методу ближнего соседа с использованием главных компонент получено такое же разбиение по кластерам, как при анализе исходных признаков.

Аналогично для метода дальнего соседа, средней связи и К-средних.

5. Теперь проведем кластерный анализ по главным факторам, выделенным в предыдущей работе. Аналогично кластерному анализу по главным компонентам мы получили точно такое же разбиение регионов по всем четырем методам.

В итоге мы получили одинаковое разбиение регионов с использованием как исходных признаков, так и главных компонент и факторов.

Все результаты кластерного анализа по главным компонентам и факторам занесем в таблицу.

Кластерная принадлежность регионов (с использованием главных компонент и факторов)

Регион

Метод

Ближнего соседа

Дальнего соседа

Средней связи

К-средних

Липецкая область

1

1

1

1

Московская область

1

1

1

1

Орловская область

1

1

1

1

Рязанская область

1

1

1

1

Смоленская область

1

1

1

1

Тамбовская область

1

1

1

1

Тверская область

1

1

1

1

Тульская область

1

1

1

1

Ярославская область

1

1

1

1

г.Москва

1

1

1

1

Республика Карелия

1

1

1

1

Республика Коми

1

1

1

1

Архангельская область

1

1

1

1

Ненецкий авт.округ

2

2

2

2

Вологодская область

1

1

1

1

Калининградская область

1

1

1

1

Ленинградская область

1

1

1

1

Мурманская область

1

1

1

1

Новгородская область

1

1

1

1

Псковская область

1

1

1

1

6. Для каждого варианта разбиения вычислим внутриклассовые средние значения исходных признаков и их выборочные дисперсии и занесем эти значения в сводную таблицу.

Очевидно, что можно выбрать любой из перечисленных выше методов разбиения, т.к. они дают абсолютно одинаковые результаты.

7. Для метода ближнего соседа проверим гипотезу о равенстве математических ожиданий каждого из пяти признаков в кластерах. Результаты приведены в таблице, в которой столбец «Уровень значимости» содержит значения, позволяющие принять или отвергнуть гипотезу. Если рассчитанный уровень значимости меньше 0,05, то гипотеза отвергается, если больше 0,05, то принимается [8,69].

Как видно из таблицы, для первого, второго, четвертого и пятого признаков рассчитанный уровень значимости меньше 0,05, следовательно, гипотеза о равенстве математических ожиданий этих признаков в двух кластерах отвергается. В то время как гипотеза о равенстве признака Х3 в двух кластерах принимается (уровень значимости 0,196>0.05).

Согласно проверке гипотезы, математические ожидания ввода в действие жилых домов, выбросов в атмосферу загрязняющих веществ, стоимости минимального набора продуктов питания и объема инвестиций в основной капитал в двух кластерах различны, а математическое ожидание обеспеченности амбулаторно-поликлиническими учреждениями одинаковое в первом и во втором кластерах.

Проанализируем столбец сводной таблицы, в котором содержатся средние значения по двум кластерам. Ввод в действие жилых домов в первом кластере значительно ниже аналогичного показателя во втором кластере, так же как и выброс в атмосферу загрязняющих веществ, стоимость минимального набора продуктов питания и объем инвестиций в основной капитал. Обеспеченность амбулаторно-поликлиническими учреждениями на одинаковом уровне, как в первом, так и во втором кластере. Из этого моно сделать вывод, что регионы первого кластера достаточно развитые и хорошо освоенные. Здесь сложились приемлемые для населения цены, относительно хорошая экологическая ситуация, ввод в действие большого количества жилых домов уже не требуется, т.к. большая часть территории уже застроена и используется, соответственно, и объем инвестиций в основной капитал сравнительно небольшой. Второй же регион, видимо, находится на стадии интенсивного освоения и развития. Об этом свидетельствуют и широкие масштабы строительства, и большой объем вложений, и высокие цены, а также плохая экология. Однако, для успешного освоения региона необходима хорошая база здравоохранения, поэтому здесь уровень обеспеченности амбулаторно-поликлиническими учреждениями почти такой же, как и в развитых регионах.

Таким образом, в соответствии с приведенной интерпретацией, назовем первый кластер «освоенные регионы», а второй - «осваиваемый регион».

8. Проведем регрессионный анализ признака Y на признаки Х1, Х2, Х3, Х4, Х5 отдельно для каждого кластера. Ввиду того, что невозможно провести регрессию по одному региону, который образует второй кластер, воспользуемся методом дальнего соседа, где на дендрограмме четко прослеживается разбиение на 2 кластера, содержащих несколько регионов в каждом. Таким образом, будем считать, что второй кластер образуют Ненецкий АО и следующие регионы: Коми, Архангельская, Мурманская, Московская, Вологодская, Новгородская, Липецкая.

· Для первого кластера.

Матрица корреляции позволяет увидеть сильную связь результативного признака с регрессорами X3 и X4, умеренную с X1 и X5 и очень слабую с X2:

Y

X1

X2

X3

X4

X5

Y

1

X1

0,437037

1

X2

0,000721

-0,30097

1

X3

0,815665

0,332045

-0,21033

1

X4

0,91547

0,465072

0,040293

0,633864

1

X5

0,67091

0,615633

0,298005

0,498134

0,677078

1

По следующей таблице можно сказать, что модель является качественной, т.к. имеет высокие показатели коэффициента множественной корреляции, коэффициента детерминации и скорректированного коэффициента детерминации:

Регрессионная статистика

Множественный R

0,96679

R-квадрат

0,934683

Нормированный R-квадрат

0,880253

Стандартная ошибка

1087,314

Наблюдения

12

Уравнение регрессии имеет вид:

.

Наблюдаемое и критическое значение F-статистики составляют 17,17205 и 4,387374 соответственно, благодаря чему можно сказать, что уравнение значимо в целом.

Проанализируем его коэффициенты.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20442,6

4760,074

-4,29459

0,005123

-32090

-8795,08

X1

86,47617

467,0122

0,185169

0,859197

-1056,26

1229,214

X2

465,1737

979,1122

0,475097

0,651518

-1930,63

2860,975

X3

36,26704

13,35741

2,715125

0,034868

3,582635

68,95145

X4

14,42741

3,622612

3,9826

0,007262

5,563201

23,29163

X5

-0,31351

3,795565

-0,0826

0,936858

-9,60092

8,973908

Значимыми являются только третий и четвертый коэффициенты, остальные равны нулю с вероятностью 95%. Исключим из состава регрессоров пятый признак, как имеющий наименьшую t- статистику. Получим следующие результаты.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

-20168,5

3162,124

-6,37816

0,000375

-27645,8

-12691,3

X1

58,3228

295,7386

0,197211

0,849267

-640,988

757,6335

X2

407,0434

630,5694

0,645517

0,539167

-1084,02

1898,103

X3





Не сдавайте скачаную работу преподавателю!
Данную курсовую работу Вы можете использовать для написания своего курсового проекта.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем курсовую работу самостоятельно:
! Как писать курсовую работу Практические советы по написанию семестровых и курсовых работ.
! Схема написания курсовой Из каких частей состоит курсовик. С чего начать и как правильно закончить работу.
! Формулировка проблемы Описываем цель курсовой, что анализируем, разрабатываем, какого результата хотим добиться.
! План курсовой работы Нумерованным списком описывается порядок и структура будующей работы.
! Введение курсовой работы Что пишется в введении, какой объем вводной части?
! Задачи курсовой работы Правильно начинать любую работу с постановки задач, описания того что необходимо сделать.
! Источники информации Какими источниками следует пользоваться. Почему не стоит доверять бесплатно скачанным работа.
! Заключение курсовой работы Подведение итогов проведенных мероприятий, достигнута ли цель, решена ли проблема.
! Оригинальность текстов Каким образом можно повысить оригинальность текстов чтобы пройти проверку антиплагиатом.
! Оформление курсовика Требования и методические рекомендации по оформлению работы по ГОСТ.

Читайте также:
Разновидности курсовых Какие курсовые бывают в чем их особенности и принципиальные отличия.
Отличие курсового проекта от работы Чем принципиально отличается по структуре и подходу разработка курсового проекта.
Типичные недостатки На что чаще всего обращают внимание преподаватели и какие ошибки допускают студенты.
Защита курсовой работы Как подготовиться к защите курсовой работы и как ее провести.
Доклад на защиту Как подготовить доклад чтобы он был не скучным, интересным и информативным для преподавателя.
Оценка курсовой работы Каким образом преподаватели оценивают качества подготовленного курсовика.

Сейчас смотрят :

Курсовая работа Расчет эффективности перевозок для автотранспортного предприятия
Курсовая работа Нетрадиционные формы уроков как способ развития интереса к учебе у детей младшего школьного возраста
Курсовая работа Хронический гломерулонефрит
Курсовая работа Здоровий спосіб життя
Курсовая работа Экономическое обоснование путей обновления оборудования на предприятии
Курсовая работа Финансовая устойчивость и платежеспособность предприятий
Курсовая работа Правоохранительная деятельность таможенных органов РФ
Курсовая работа Изучение феномена тревожности у студентов первого курса
Курсовая работа SWOT - анализ и синтез
Курсовая работа Расходы бюджетов РФ на национальную оборону
Курсовая работа Управление оборотными средствами
Курсовая работа Эффективность использования оборотных средств
Курсовая работа Структурно-семантические особенности пословиц и поговорок, отражающих межличностные отношения
Курсовая работа Договор имущественного страхования
Курсовая работа Управление качеством