--PAGE_BREAK--Анализ задачи
Обоснование предикторов.
Y– Уровень рождаемости (количество людей на каждые 1000 человек).
Х1– Детская смертность (количество умерших детей на каждые 1000 рожденных)
Х2 – Ожидаемая продолжительность жизни при рождении (количество лет).
Х3 – Коэффициент плодовитости (количество детей на одну женщину).
Х4– Количество женщин, проживающих на территории Германии (% от общего населения)
Х5– Рост сельского населения (годовой прирос в %).
Описательная статистика.
Descriptive Statistics: Birth rate, crude (per 1,000 pe
Variable Mean SE Mean StDev Sum Minimum
Birth rate, crud 9,560 0,223 1,047 210,319 8,166
Variable Median Maximum
Birth rate, crud 9,450 11,400
Mean
или среднее арифметическое выборки– это сумма всех данных деленная на количество данных.
Ymean=9,560
SEmeanили стандартная ошибка среднего характеризует колебания средней.
YSEmean=0,223
StDev
или среднее квадратичное отклонениехарактеризует степень разброса данных вокруг центра.
YStDev=1,097
Median
или медиана– это точка, вокруг которой располагается одинаковое количество элементов выборки.
Ymedian=9,45
Максимальный уровеньрождаемости за 1989-2019 годы составлял 11,4, и это наблюдалось в 1990 и 1992 годах.
Минимальный уровеньрождаемости составил 8,166 и наблюдался в 2008 году.
Доверительные интервалы для среднего, медианы, стандартного отклонения с заданным уровнем доверия.
Доверительный интервал медианы, среднего, стандартного отклонения с 95% уровнем доверия приводится для Уровня рождаемости, и опираясь на график, мы можем сделать следующие выводы:
ü Доверительным интервалом для медианы является интервал от 8,6873 до 9,9055
ü Доверительным интервалом для среднего является интервал от 9,0956 до 10,0243
ü Доверительным интервалом для стандартного отклонения является интервал от 0,8058 до 1,4967.
Корреляционная матрица
Корреляционная матрица показывает зависимость величин друг от друга. Элементами корреляционной матрицы являются коэффициенты корреляции величин.
Для данной задачи корреляционная матрица имеет следующий вид:
Matrix CORR1
Y X1 X2 X3 X4 X5
Y 1,00000 0,95179 -0,94538 0,44751 0,94534 0,68268
X1 0,95179 1,00000 -0,94202 0,39826 0,99738 0,54441
X2 -0,94538 -0,94202 1,00000 -0,17453 -0,92843 -0,74841
X3 0,44751 0,39826 -0,17453 1,00000 0,41992 -0,11842
X4 0,94534 0,99738 -0,92843 0,41992 1,00000 0,51508
X5 0,68268 0,54441 -0,74841 -0,11842 0,51508 1,00000
Проанализировав корреляционную матрицу, выявляем, что все предикторы являются хорошими и положительная зависимость существует со всеми предикторами, кроме Х2 (ожидаемая продолжительность жизни).
Для нас не представляет интереса брать предикторы Х2 и Х4, так как они сильно коррелированны с другими предикторами. По данной корреляционной матрице мы выбираем предикторы Х1 (детская смертность), Х3 (плодовитость женщин), Х5 (рост сельского населения), так как они в лучшей степени объясняют У (уровень рождаемости).
Всего можно построить 9 моделей с двумя предикторами, но т.к. мы не рассматриваем предикторы Х2 и Х4, то приведем модели с оставшимися предикторами и установим какая модель описывает Уровень рождаемости в большей степени.
1. Модель с предиктором Х1 (детская смертность):
Уравнение регрессии:
Уровень рождаемости= 5,85 + 0,712 Детская смертность
R-Sq = 90,6%
Предиктор Х1 описывает Уровень рождаемости на 90,6 %.
2. Модель с предиктором Х3 (плодовитость женщин):
Уравнениерегрессии:
Уровень рождаемости= — 1,27 + 8,02 Плодовитость женщин
R-Sq = 20,0%
Предиктор Х3 описывает Уровень рождаемости всего лишь на 20%.
3. Модель с предиктором Х5 (рост сельского населения):
Уравнениерегрессии:
Уровень рождаемости= 9,35 + 2,00 Рост сельского хозяйства
R-Sq = 46,6%
ПредикторХ5 описывает Уровень рождаемости на 46,6%.
4. Модель предикторами Х1, Х3, Х5:
Уравнение регрессии:
Уровень рождаемости= 1,58 + 0,510 Детская смертность
+ 3,86 Плодовитостьженщин
+ 0,987 Рост сельского населения
R-Sq = 97,6%
Предикторы Х1, Х3, Х5 описывают Уровень рождаемости на 97,6%.
5. Модель с предикторами Х1 и Х3:
Уравнение регрессии:
Уровень рождаемости= 4,01 + 0,687 Детская смертность
+ 1,46 Плодовитость женщин
R-Sq = 91,1%
Предикторы Х1 и Х3 описывают Уровень рождаемости на 91,1%.
6. Модель с предикторами Х1 и Х5:
Уравнение регрессии:
Уровень рождаемости= 6,27 + 0,616 Детская смертность
+ 0,686 Рост сельского населения
R-Sq = 94,4%
Предикторы Х1 и Х5 описывают Уровень рождаемости на 94,4 %.
7. Модель с предикторами Х3 и Х5:
Уравнение регрессии:
Уровень рождаемости= — 3,63 + 9,61 Плодовитость женщин
+ 2,19 Рост сельского населения
R-Sq = 74,9%
Предикторы Х3 и Х5 описывают Уровень рождаемости на 74,9%.
8. Модель со всеми предикторами:
Уравнениерегрессии:
Уровень рождаемости= 0,3 — 0,017 Детская смертность
— 0,413 Ожидаемая продолжительность жизни при рождении + 5,15 Плодовитость женщин
+ 0,69 Женскоенаселение
+ 0,546 Рост сельского населения
R-Sq = 98,3%
Проанализировав все наилучшие модели, приходим к выводу, что лучшей моделью является модель с тремя предикторами Х1 (детская смертность), Х3 (плодовитость женщин) и Х5 (рост сельского населении), зависимость данных предикторов с Уровнем рождаемости составляет 0,95179, 0,44751, 0,68268 соответственно.Коэффициент детерминации R2равен 97,6%, это значит, что эти предикторы описывают Уровень рождаемости (Y) на 97,6 %.
Хотя модель со всеми предикторами имеет самый высокий коэффициент детерминации, равный 98,3%, данная модель не может исследоваться в качестве наилучшей, так как между некоторыми предикторами существует высокая коллинеарность.
Проводя дальнейшие исследования будет использована модель с тремя предикторами (Х1, Х3 и Х5).
Проверка Fтеста с заданным уровнем доверия.
F-тест проверяет значимостьуравнения регрессии в целом, существует ли зависимость между постоянной и переменными.
Выдвигаем гипотезы:
H0: ρ2=0
H1: ρ2>0
При нулевой гипотезе подтверждается, что между переменными и постоянной не существует зависимость.
Если же подтверждается первая гипотеза, то устанавливается, что между постоянной и переменными существует зависимость.
Для проверки теста понадобятся значения Fstatи Ftab.
Fstatнаходим по следующей формуле:
Source DF SS MS F P
Regression 3 22,4816 7,4939 244,05 0,000
Residual Error 18 0,5527 0,0307
Total 21 23,0343
Найдем Ftab суровнем доверия α= 0,
05
Ftab= 3,15991
Сравнив значения Ftabи Fstatприходим в выводу, что Ftab
Тест на коэффициент регрессии проводится, чтобы установить все ли выбранные предикторы одинаково хорошо описывают модель во все периоды времени или всё же существуют некоторые отклонения.
Выдвинем следующие гипотезы:
H: β1≠0
H1: β1=0
H-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Детской смертностью нет линейной зависимости
H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.
H: β3≠0
H1: β3=0
H-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Плодовитостью женщин нет линейной зависимости
H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.
H: β5≠0
H1: β5=0
H-нулевая гипотеза, которая предполагает, что между Уровнем рождаемости и Ростом сельского населения нет линейной зависимости
H1-альтернативная гипотеза, которая предполагает, что между ними есть линейная зависимость.
df=(n-k)=(22-4)=18
Так как мы проводим 2-х хвостовой тест, мы находим ttabс уровнем доверия α
/2
= 0,05/2=0,025.
t(0,05/2)(18)= 2,10092
tstatвычисляется по следующей формуле:
Для вычисления tstatвычислим Sb(Стандартная ошибка коэффициента регрессии ) по формуле:
S1=0,03
S3=0,79
S5=0,14
Predictor Coef SE Coef T VIF
Constant 1,5836 0,9771 1,62
Детская смертность 0,51050 0,03914 13,04 2,1
Плодовитость женщин 3,8616 0,7928 4,87 1,5
Рост сельского населения 0,9869 0,1419 6,96 1,8
t(0,05/2)(18)
По данным видно, что для всех предикторов отвергается нулевая гипотеза. Из этого следует, что между Уровнем рождаемости и всеми предикторами – детская смертность, плодовитость женщин и рост сельского населении существует линейная зависимость, на всем исследуемом промежутке времени.
Проведя t-тест, установлены наилучшие предикторы, которые описывают изменения Уровня рождаемости.
Коэффициент детерминациипоказывает, на сколько зависит зависимая переменная от независимой.
В данной задаче коэффициент детерминации показывает насколько взятые предикторы, объясняют изменение Уровня рождаемости.
Определим коэффициент детерминации по формуле:
или
Для данной задачи коэффициент детерминации составляет R2 = 97,6%, т.е. Уровень рождаемости на 97,6 % объясняется Детской смертностью, Плодовитостью женщин и Ростом сельского населения.
Стандартная ошибка оценивания — это величина изменчивости, наблюдаемых значений Y, вокруг линии регрессии:
S = 0,175230
Это значит, что значения Y(Уровень рождаемости) будут отклоняться от линии регрессии на 0,175.
Интерпретация коэффициентов уравнения.
Для того, чтобы понять в какой степени Детская смертность, Плодовитость женщин и Рост сельского населения влияют на изменение Уровень рождаемости.
Уравнение регрессии имело следующий вид:
Уровень рождаемости= 1,58 + 0,510 Детская смертность
+ 3,86 Плодовитость женщин
+ 0,987 Рост сельского населения
Y=
1,58+
0,51X
1+
3,86Х3+0,987X
5
b=1,58 b1=0,51 b3=3,86 b5=0,987
Данные коэффициенты интерпретируются следующим образом:
b
показывает постоянный Уровень рождаемости, при отсутствии Детской смертности, Плодовитости женщин и Роста сельского населения. Из этого следует, что если все предикторы будут равняться нулю, то Уровень рождаемости будет составлять 1,58 ребенка на 1000 людей.
b
1показывает как изменится Уровень рождаемости, если Детская смертность увеличится на 1 ребенка. Следовательно, если Детская смертность увеличивается на 1 ребенка, то Уровень рождаемости увеличивается на 0,51 рожденного на 1000 человек.
b
3
показывает как изменяется тот же Уровень рождаемости при измени Плодовитости женщин на 1го ребенка, т.е. если плодовитость женщин увеличится на 1 единицу, то уровень рождаемости увеличится на 3,86 ребенка.
b
5 показывает изменчивость Уровня рождаемости, при Росте населения на 1%. И это изменение составляет 0,987.
Доверительные интервалы для коэффициентов уравнения регрессии с заданным коэффициентом доверия показывают, в каких промежутках лежат значении коэффициентов уравнения.
Доверительный интервал вычисляется по формуле:
2,08596
Sb0= 0,97 Sb1=0,03 Sb3=0,79 Sb5=0,14
b=1,58 b1=0,51 b3=3,86 b5=0,987
Predictor Coef SE Coef T
Constant 1,5836 0,9771 1,62
Mortality rate, infant (per 1,0 0,51050 0,03914 13,04
Fertility rate, total (births p 3,8616 0,7928 4,87
Rural population growth (annual 0,9869 0,1419 6,96
Итак,
1,58-2,09*0,97
-0,45
b
0,51-2,09*0,03
0,45
b
1
3,86-2,09*0,79
2,2
b
3
0,987-2,09*0,14
0,69
b
3
Прогноз по уравнению для данного значения. Доверительные интервалы 2 видов с заданным уровнем доверия.
Прогнозируемый интервал используется, чтобы предсказать определенное значение y для данного значения х.
Где
Доверительный интервал используется для оценки среднего значения y для определенного значения x:
Где
Доверительным и прогнозируемым интервалом для Уровня рождаемости при уровне доверия 0,05, при Х1=8, Х3=2 и Х5=1 является
95% CI 95% PI
(13,2814; 15,4739) (13,2213; 15,5341)
Следовательно, с 95% уверенностью можно заявить, что среднее значение Уровня рождаемости при заданном значении Детской смертности=8, Плодовитости женщин=2 и Роста сельского населения=1 является интервал от 13,2814 до 15,4739. Значение же прогнозируемого Уровня доверия, при тех же значениях предикторов будет лежать в интервале от 13,2213 до 15,5341.
Коэффициент множественной детерминации r2
y.1
23
Коэффициент множественной детерминации показывает какую долю зависимой Y объясняют независимые переменные. В нашей задаче – это Х1,Х3 и Х5.
Значит, r2y.135= 97,6%
Уровень рождаемости на 97,6% описывается Детской смертностью, Плодовитостью женщин и Ростом сельского населения, а остальные 2,4% другими факторами
Коэффициенты частной детерминации
r
2
y
5.7
и
r
2
y
.7.5
Коэффициенты частичной детерминации показывают долю зависимой переменной, которая описывается одним предиктором, в то время как второй предиктор является постоянной величиной.
r2y35.1=0,749 показывает какую долю Уровня рождаемости объясняет Плодовитость женщин и Рост сельского населения, при неизменной Детской смертности.
r2y13.5=0,911 показывает, что Детская смертность и Плодовитость женщин объясняет 0,911 долю Уровня рождаемости, при неизменном Росте сельского населения.
r2y15.3=0,944 показывает долю Уровня рождаемости, которую объясняют Детская смертность и Рост сельского населения, при неизменной Плодовитости женщин.
продолжение
--PAGE_BREAK--