Федеральноеагентство по образованию
Государственноеобразовательное
учреждение высшего профессиональногообразования
Новгородский Государственный университет
Имени Ярослава Мудрого.
Кафедра «Прикладная математика и информатика».
Курсовая работа по дисциплине
«Математическая статистика»
на тему:
“Исследование регрессии наоснове численных данных” Преподаватель:Токмачев М.С.Студент группы № 3311 Jannat
Новгород Великий
2005 ПЛАН
Теоретическая часть1. Понятие регрессии
2. INDEX e " " z «1049» Постояннаяи случайная составляющие случайной переменой3.Модель парной линейной регрессии
4. Регрессия по методу наименьших квадратов
5. Качество оценки: коэффициент R²
6. Точность коэффициентов регрессии
7. Доверительныеинтервалы
8. F-статистика
Практическая часть
I. Исследование регрессии при выборке из генеральной совокупностиN(0;1) II.Исследование регрессии при выборке изгенеральной совокупности N(0;0,5)
III. Исследование регрессии при выборке из генеральнойсовокупности N(0;2)
ЗаключениеТеоретическаячасть1. Понятиерегрессии
Условноематематическое ожидание M(Y|X=x) случайной переменной Y, рассматриваемое как функция x, т.е. M(Y|X=x)=f(x), называется функциейрегрессии случайной переменной Yотносительно X (илифункцией регрессии Y поX). Точно такжеусловное математическое ожидание M(X|Y=y), случайной переменной X, т.е. M(X|Y=y)=f(x), называется функцией регрессии случайной переменной X относительно Y (или функцией регрессии X по Y).
Функциирегрессии выражают математическое ожидание переменной Y (или X) для случая, когда другая переменнаяпринимает определённое числовое значение, или, иначе говоря, функция M(Y|X=x)показывает, каково будет в среднем значение случайной переменной Y, если переменная X принимает значение x. Всё сказанное справедливои для функции M(X|Y=y).
Становитсяочевидным, что функция регрессии имеет важное значение при статистическоманализе зависимостей между переменными и может быть использована для прогнозированияодной из случайных переменных, если известно значение другой случайнойпеременной. Точность такого прогноза определяется дисперсией условногораспределения.
Несмотря наважность понятия функции регрессии, возможности её практического применения весьмаограничены. Для оценки функции регрессии необходимо знать аналитический виддвумерного распределения (X,Y). Только зная вид этогораспределения, можно точно определить вид функции регрессии, а затем оценитьего параметры. Однако для подобной оценки мы чаще всего располагаем лишьвыборкой ограниченного объёма, по которой нужно найти вид двумерногораспределения (X,Y), а затем вид функциирегрессии. Это может привести к значительным ошибкам, т.к. одну и ту жесовокупность точек (xi,yi) на плоскостиможно одинаково успешно описать с помощью различных функций.
Дляхарактеристики формы связи при изучении корреляционной зависимости пользуютсяпонятием кривой регрессии. Кривой регрессии Y по X (или Y по X) называется условное среднее значение случайной переменной Y(Х), рассматриваемой как функция от x (у). Эта функция обладает однимзамечательным свойством: она даёт наименьшую среднюю погрешность оценкипрогноза.
2. Постояннаяи случайная составляющие случайной переменой
Часто вместорассмотрения случайной величины как единого целого можно и удобно разбить ее напостоянную и чисто случайную составляющие, где постоянная составляющая всегдаесть ее математическое ожидание. Если x случайная переменная и m — ее математическоеожидание, то декомпозиция случайной величины записывается следующим образом:
x= m+u,
где u чисто случайнаясоставляющая (в регрессионном анализе она обычно представлена случайным членом)3. Модель парной линейнойрегрессии
Коэффициенткорреляции показывает, что две переменные связаны друг с другом, однако не даетпредставления о том, каким образом они связаны.
Рассмотримпростейшую модель: y=a+bx+u
Величина y рассматривается как зависимая переменная,состоящая из:
1. a+bx, где x выступает как объясняющая (илинезависимая) переменная, а постоянные величины a и b — как параметры уравнения
2. u
На графикахподбора в проделанной работе мы видим Y предсказанное (■) и Yполученное. На них показано, как комбинация этих двухсоставляющих определяет величину Y. Показатели Xi– этогипотетические значения объясняющей переменной. Если бы соотношение между Yи Xбыло точным, то соответствующиезначения Yбыли бы представлены Y предсказанное (■). Наличие случайного членаприводит к тому, что в действительности значение Yполучается другим.
Задача регрессионного анализа состоит в получении оценок a и b и,следовательно, в определении положения прямой по точкам.
Очевидно, чточем меньше значения u,тем легче эта задача. Действительно, если бы случайный член отсутствовал вовсе,то точки Y совпадали быс точками Yпредсказанное и точно бы показали положение прямой. В этом случаю было быдостаточно просто построить эту прямую иопределить значения aи b.
Почему существует случайный член:
1. Невключениеобъясняющих переменных. Соотношение между Xи Yпочти всегда является очень большим упрощением. Вдействительности существуют другие факторы влияющие на Y,которые не учтены в формуле y=a+bx+u. Влияниефакторов приводит к тому, что наблюдаемые точки лежат вне прямой. Часто происходиттак, что имеются переменные, которые мы хотели бы включить в регрессионноеуравнение, но не можем этого сделать потому, что не знаем, как их измерить,например психологические факторы. Возможно, что существуют также другиефакторы, которые мы можем измерить, но которые оказывают такое слабое влияние,что их не стоит учитывать. Кроме того, могут быть факторы, которые являютсясущественными, но которые мы из-за отсутствия опыта таковыми не считаем.Объединив все эти составляющие, мы получаем то, что обозначено как u.
2. Агрегированиепеременных. во многих случаях рассматриваемая зависимость – это попыткаобъединить вместе некоторое число соотношений. Так как отдельные соотношения,вероятно, имеют разные параметры, любая попытка определить соотношение междуними является лишь аппроксимацией. Наблюдаемое расхождение при этомприписывается наличию случайного члена.
3. Неправильное описаниеструктуры модели. Структура модели может быть описана неправильно или не вполнеправильно. Иногда может показаться, что существует зависимость между Yи X, но это будет лишь аппроксимация, ирасхождение вновь будет связано с наличием случайного члена.
4. Неправильнаяфункциональная спецификация. Функциональное соотношение между Yи Xматематически может быть определенонеправильно. Например, истинная зависимость может не являться линейной, а бытьболее сложной. Безусловно, надо постараться избежать возникновения этойпроблемы, используя подходящую математическую формулу, но любая самаяизощренная формула является лишь приближением, и существующее расхождениевносит вклад в остаточный член.
5. Ошибки измерения. Еслив измерении одной или более взаимосвязанных переменных имеются ошибки, тонаблюдаемые значения не будут соответствовать точному соотношению, исуществующее расхождение будет вносить вклад в остаточный член.
Остаточный член являетсясуммарным проявлением всех этих факторов. Очевидно, что если бы васинтересовало только измерение влияния X на Y,то было бы значительно удобнее, если бы остаточного члена не было. Если бы онотсутствовал, мы бы знали, что любое изменение Y от наблюдения к наблюдению вызваноизменением X, и смоглибы точно вычислить b.Однако в действительности каждое изменение Y отчасти вызвано изменением u, и это значительно усложняет жизнь.
5. Регрессия по методунаименьших квадратов
Пусть мыимеем наблюдения X и Y, то перед нами стоит задача– определить значения a и b. В качестве грубой аппроксимации можно это сделать наглаз, построив прямую, в наибольшей степени соответствующую этим точкам.Отрезок, отсекаемый прямой на оси OY, представляет собой оценку a, а угловой коэффициентпрямой представляет собой оценку b.
Необходимопризнать, что мы никогда не сможем рассчитать истинные значения a и b припопытке построить прямую и определить положение линии регрессии. Мы можемполучить только оценки, и они могут быть хорошими или плохими. Иногда оценкимогут быть абсолютно точными, но это возможно лишь в результате случайногосовпадения, и даже в том случае не будет способа узнать, что оценки абсолютноточны.
Первым шагомявляется определение остатка для каждого наблюдения. Разность между фактическими расчетным значениями, то есть Yи Y предсказанное,описывается как остаток. Обозначим остаток какого-то наблюдения за ei.
Стандартныйже остаток(отклонение)- мера разброса для распределения вероятностей, это квадратныйкорень из дисперсии.
Очевидно,что мы хотим построить линию регрессии таким образом, чтобы эти остатки былиминимальными. Необходимо выбрать какой-то критерий подбора, который будетодновременно учитывать величину всех остатков. Один из способов решенияпоставленной проблемы состоит в минимизации суммы квадратов остатков
S=åei²
Всоответствии с этим критерием, чем меньше S, тем строже соответствие.
Существуюти другие достаточно разумные решения, однако при выполнении определенныхусловий метод наименьших квадратов дает несмещенные и эффективные оценки a и b.
6. Качество оценки:коэффициент R²
Цельрегрессионного анализа состоит в объяснении поведения зависимой переменной Y. Мы пытаемся сделать этопутем определения регрессионной зависимости Y от соответственно выбранной независимой переменной X. Но мы не можем с помощьюуравнения регрессии объяснить расхождение между фактическим и расчетнымзначениями Y. Коэффициентдетерминации R² - та часть дисперсии Y, которая объясненауравнением регрессии.
R²=D(Y расчетное)
D(Y)
Максимальноезначение коэффициента R²равно единице. Это происходит в том случае, когда линия регрессии точносоответствует всем наблюдениям, так что Y=Yрасчетномудля всех наблюдений и все остатки равны нулю.
Если ввыборке отсутствует видимая связь между X и Y, тоR² будет близок кнулю. При прочих равных условиях желательно, чтоб коэффициент R² был как можно больше.
7. Точностькоэффициентов регрессии
Увеличиваяu, мы увеличиваем егостандартное отклонение, следовательно, увеличиваем стандартные отклонения a и b. Чембольше число наблюдений, тем меньше дисперсии оценок. Чем большей информациеймы располагаем, тем более точными будут наши оценки. Чем больше дисперсия X, тем меньше будут дисперсиякоэффициентов регрессии.
Коэффициентырегрессии вычисляются на основании предположения, что наблюдаемые изменения Y происходят вследствиеизменений Х, но в действительности они лишь отчасти вызваны изменением Х, аотчасти вариациями u.Чем меньше дисперсия Х, тем больше, вероятно, будет относительное влияниефактора случайности при определении отклонений Y и тем более вероятно, чторегрессионный анализ может оказаться неверным. Важные значения имеют дисперсияслучайного члена и дисперсия Х.
Дисперсияслучайного члена нам неизвестна, но мы можем получить ее оценку на основеостатков. Разброс остатков относительно линии регрессии будет отражатьнеизвестный разброс uотносительно линии y=a+bx, хотя в общем остаток и случайный член в любом данномнаблюдении не равны друг другу. Следовательно, выборочная дисперсия остатков,которую мы можем измерить, сможет быть использована для оценки дисперсиислучайного члена, которую мы получить не можем.
Рассматриваятеоретические дисперсии оценок a и b и оценку случайного члена, можно получить оценкитеоретических дисперсий для a и b и после извлеченного квадратного корня – оценки ихстандартных отклонений. Вместо термина «оценка стандартного отклонения функцииплотности вероятности» коэффициента регрессии будем использовать термин «стандартнаяошибка» коэффициента регрессии.
Стандартнаяошибка дает только общую оценку степени точности коэффициентов регрессии. Онапозволяет получить некоторое представление о кривой функции плотностивероятности. Однако она не несет информации о том, находится ли полученнаяоценка в середине распределения и, следовательно, является точной или в«хвосте» распределения и, таким образом, относительно неточна.
Чембольше дисперсия случайного члена, тем, очевидно, больше будет выборочная дисперсияостатков и, следовательно, существеннее стандартные ошибки коэффициентов вуравнении регрессии, что позволяет с высокой вероятностью заключить, чтополученные коэффициенты неточны. Однако это всего лишь вероятность. Возможно,что в какой-то конкретной выборке воздействия случайного фактора в различныхнаблюдениях будут взаимно погашены и в конечном итоге коэффициенты регрессиибудут точны. Проблема состоит в том, что, вообще говоря, нельзя утверждать,произойдет это или нет.
8. Доверительные интервалы
Вопросстоит в том, насколько сильно гипотетическое значение может отличаться отрезультата эксперимента, прежде чем они станут несовместимыми. Гипотетическоезначение β является совместимым с результатом оценивания регрессии (b), если оно удовлетворяет двойномунеравенству:
b-с.о.(b)*tкрит
Любоегипотетическое значение β, которое удовлетворяет этому соотношению, будетавтоматически совместимо с оценкой b, иными словами, не будет опровергаться ею. Множество этихзначений, определенных как интервал между нижней и верхней границаминеравенства, известно как доверительный интервал для величины β.
9. F-статистика
F-статистика используется дляпроверки качества оценивания регрессии и записывается как отношение объясненнойсуммы квадратов (в расчете на одну независимую переменную к остаточной суммеквадратов) в расчете на одну степень свободы
SS – сумма квадратовотклонений (с.к.о.)
Df – число степеней свободы(с.с.)
MS – с.к.о. деленная на с.с.
F-статистика – MS регрессии деленная на MSостатка
Задание
Необходимо исследоватьрегрессию на основе численных данных. Задана истинная зависимость: y=a+bx, x∈[a,b]
Вариант №10
y=4+3x, x∈[5,20]
Практическая часть
I.
Задана истинная зависимость y = 3*x + 4, xпринадлежитпромежутку [5;20].
1. На промежутке [5;20]выберем 30 значений, равноудаленных от соседних, таким образом, составимвыборку для X. Вычислимдля этой выборки значения Y:
X
Y
5
19
5,40
20,20
5,81
21,44
6,62
23,85
6,77
24,32
6,87
24,61
6,94
24,81
7,02
25,06
8,12
28,35
8,13
28,38
9,44
32,32
9,46
32,39
10,12
34,36
10,42
35,27
10,89
36,67
11,02
37,06
12,19
40,58
12,46
41,38
12,53
41,60
12,63
41,88
13,28
43,83
13,93
45,80
14,62
47,86
14,94
48,82
15,39
50,18
18,08
58,23
18,14
58,42
19,38
62,14
19,50
62,51
19,88
63,64
19,99
63,96
20
64
2. Используягенератор случайных чисел, находим по 30 значений Ui, Vi.Выборку производим из нормальной генеральной совокупности N(0;1).
Ui
Vi
0,17465
-0,13918
0,608766
2,200486
0,256966
0,415696
-0,40546
-0,77361
-0,50702
1,026156
0,148453
-0,27599
0,69341
1,812241
0,355941
0,428406
-1,70596
0,488922
0,638124
0,200499
-0,79704
0,109958
0,717844
0,516177
0,676484
0,522041
0,481091
-2,68454
-0,66089
0,171234
0,69098
0,560749
-1,05002
-0,11743
-0,77062
-1,04935
1,754124
0,002257
-0,70798
-1,37519
-0,62831
-1,6882
-1,99856
0,206826
-0,05951
0,11504
0,656803
1,57218
-1,15063
-0,32191
0,580555
-0,62645
-0,36795
-0,29376
0,839377
-1,40617
-1,53361
-1,85625
-1,88214
2,009965
3. Полагая вместо XiзначенияX+Ui, а вместо Yi — Y+Vi, получимдве зависимые выборки:
Xi
Yi
5,17465
18,86082
6,142534
22,80179
6,686606
23,70461
6,102919
22,75152
6,323632
25,51811
7,310079
25,20889
8,52568
29,30905
8,407487
28,58304
6,451793
28,96217
9,030714
29,37827
7,730137
29,69149
9,914749
32,10689
12,50058
39,99431
12,54094
37,495
11,43878
40,47025
13,51119
43,0214
11,84024
42,55334
12,57741
42,99474
17,06511
49,93521
15,34643
50,78805
15,49843
50,69203
14,13871
52,61864
16,1716
52,80839
17,39148
55,7762
16,84934
57,678
19,04975
58,78113
18,18456
59,36377
19,80434
59,48872
17,69916
59,84204
18,11786
66,00997
4. По полученным значениям находим уравнение линейнойрегрессии (ExcelàАнализ данныхàРегрессия)
y = 2,959989002*x+ 4,977076691
а также:
коэффициентдетерминации R2 0,957421057
доверительныеинтервалы для коэффициентов
Y:(1,816620984;8,137532399)
X:(2,718346233;3,20163177)
стандартные ошибкикоэффициентов Y:1,542882806 X: 0,117966049
F-статистика: 629,6020401
Остатки и стандартныеостатки:
Наблюдение
Предсказанное Yi
Остатки
Стандартные остатки
1
20,29398457
-1,433162272
-0,492864465
2
23,15891114
-0,357118898
-0,122813179
3
24,76935672
-1,064742069
-0,366164768
4
23,04164954
-0,290126919
-0,099774639
5
23,69495855
1,82315541
0,626983094
6
26,61483142
-1,40594406
-0,483504123
7
30,21299691
-0,903945143
-0,310866709
8
29,86314499
-1,280101594
-0,440226902
9
24,07431234
4,887859798
1,680934847
10
31,70789177
-2,329622213