Основы практического использования прикладного регрессионного анализа

СОДЕРЖАНИЕ
Содержание
Введение
1. Теоретическаячасть
1.1 Теоретические основы прикладногорегрессионного анализа
1.2 Проверка предпосылок и предположенийрегрессионного анализа
1.2.1 Проверкаслучайности
1.2.2 Проверкастационарности
1.3 Обнаружение выбросов в выборке
1.4 Мультиколлинеарность переменных
1.4.1 Рекомендации поустранению мультиколлинеарности
1.4.2 Доверительные интервалыдля уравнения регрессии
1.4.3 Определениедоверительного интервала для истинного значения уравнения регрессии
1.4.4 Свойствадоверительных интервалов
1.5 Адекватность модели
2. Практическаячасть
Вывод
Список литературы

ВВЕДЕНИЕ
Общееназначение множественной регрессии (этот термин был впервые использован вработе Пирсона — Pearson, 1908) состоит в анализе связи между несколькиминезависимыми переменными (называемыми также регрессорами или предикторами) изависимой переменной. Например, агент по продаже недвижимости мог бы вносить вкаждый элемент реестра размер дома (в квадратных футах), число спален, среднийдоход населения в этом районе в соответствии с данными переписи и субъективнуюоценку привлекательности дома. Как только эта информация собрана для различныхдомов, было бы интересно посмотреть, связаны ли и каким образом этихарактеристики дома с ценой, по которой он был продан. Например, могло быоказаться, что число спальных комнат является лучшим предсказывающим фактором(предиктором) для цены продажи дома в некотором специфическом районе, чем«привлекательность» дома (субъективная оценка). Могли бы такжеобнаружиться и «выбросы», т.е. дома, которые могли бы быть проданыдороже, учитывая их расположение и характеристики.
Специалистыпо кадрам обычно используют процедуры множественной регрессии для определениявознаграждения адекватного выполненной работе.
Кактолько эта так называемая линия регрессии определена, аналитик оказывается всостоянии построить график ожидаемой (предсказанной) оплаты труда и реальныхобязательств компании по выплате жалования. Таким образом, аналитик можетопределить, какие позиции недооценены (лежат ниже линии регрессии), какиеоплачиваются слишком высоко (лежат выше линии регрессии), а какие оплаченыадекватно.

1. ТЕОРЕТИЧЕСКАЯ ЧАСТЬ
1.1 Теоретические основы прикладногорегрессионного анализа
Регрессионный анализ применяется дляпостроения математических зависимостей объектов, явлений по результатамэкспериментальных данных, полученных на основе проведения активного илипассивного экспериментов.
Предполагается, что математическаязависимость относится к определенному классу функций с несколькими неизвестнымипараметрами. В общем виде эти функции представим в виде:
/>,
где /> - вектор зависимой (выходной)переменной размерностью />;
/> - матрица независимых (входных)переменных размерностью />;
/> - вектор неизвестных параметровразмерностью />;
/> - вектор возмущений размерностью />;
/> - количество независимыхпеременных;
/> - количество экспериментальныхданных;
/> - класс функциональныхзависимостей.
В зависимости/>/> /> – является случайной величиной,значения /> могутрассматриваться либо как фиксированные, либо как случайные. При этом ожидаемоезначение одной случайной переменной соотносится с наблюдаемыми значениямидругих случайных переменных в виде условной регрессии.
Рассмотрим зависимость междуслучайными величинами /> и />, представленную в виде некоторойтаблицы наблюдений значений /> и />.
Перенося табличные значения /> и /> на плоскость />, получаем полекорреляции, приведенное на рисунке 3.1
/>
Рисунок 1.1 — Экспериментальноеуравнение регрессии
Разобьем диапазон изменения /> на />-равныхинтервалах />.Все точки, попавшие в интервал />, отнесем к середине интервала />, в результатеполучаем трансформированное поле корреляции.
Определим частичные средниеарифметические /> для каждого значения />:
/>,
где /> - число точек, оказавшихся винтервале/>,причем />,где
/> - общее число наблюдений.
Соединим последовательно точки скоординатами /> и /> отрезками прямых. Полученнаяломаная линия называется эмпирической линией регрессии /> по />; она показывает, как в среднемменяется /> сизменением />.Предельное положение эмпирической линии регрессии, к которому она стремится принеограниченном увеличении числа наблюдений и одновременном уменьшении />, называетсяпредельной теоретической линией регрессии. Ее нахождение и составляет основнуюзадачу регрессионного анализа. Отметим, что по линии регрессии невозможно точноопределить значение /> по /> в одном опыте. Однако зависимость/> позволяетопределить в среднем значение /> при многократном повторении опытапри фиксированном значении />. В регрессионном анализерассматривается связь между одной переменной, называемой зависимой, инесколькими другими, называемыми независимыми. Эта связь представляется в видематематической модели, т.е. в виде функции регрессии. Если функция линейнаотносительно параметров, но не обязательно линейна относительно независимыхпеременных, то говорят о линейной модели. В противном случае нелинейная.Статистическими проблемами обработки в регрессионном анализе являются:
а) Получение наилучших точечных иинтервальных оценок неизвестных параметров регрессионного анализа;
б) Проверка гипотез относительно этихпараметров;
в) Проверка адекватности;
г) Проверка множества предполагаемыхпредположений.
Исследуемый объект представлен нарисунке 3.2
/>
Рисунок 1.2 — Вид исследуемогообъекта
Для корректного использованиярегрессионного анализа существует следующие предпосылки и следующие допущенияна свойства регрессионной ошибки />, />; /> - значение зависимой переменной,полученное подстановкой /> в уравнение />, />, />; /> - количествоэкспериментальных данных, /> - количество независимыхпеременных:
Приведем свойства и предпосылкирегрессионной ошибки:
а) Свойства регрессионной ошибки:
1) В каждом опыте /> имеет нормальный законраспределения;
/>, />.
2) В каждом опыте математическоеожидание /> равнонулю;
/>, />.
3) Во всех опытах дисперсия /> постоянна иодинакова;
/>, />.
4) Во всех опытах ошибки /> независимы.
/>, />.
б) предпосылки регрессионной ошибки:
1). Матрица наблюдений /> имеет полный ранг;
/>.

2). Структура модели адекватнаистинной зависимости;
3). Значения случайной ошибки /> не зависят отзначений регрессоров />;
4). Ошибки регистрации /> регрессоровпренебрежимо малы по сравнению со случайной ошибкой />.
1.2 Проверка предпосылоки предположений регрессионного анализа
Регрессионный анализ является однимиз самых распространённых методов обработки результатов наблюдений. Он служитосновой для целого ряда разделов математической статистики и методов обработкиданных. Регрессионный анализ базируется на ряде предположений и предпосылок,нарушение которых приводит к некорректному его использованию и ошибочнойинтерпретации результатов.
Если F-критерий и показал, что подгонка модели в целом являетсяудовлетворительной; целесообразно провести анализ остатков для проверкисоблюдений предпосылок и предположений.
В этом случае исследуется наборотклонений между экспериментальными и предсказанными значениями зависимойпеременной,
/>.
Проверка предпосылок и предположенийрегрессионного анализа включает в себя следующие задачи:
1) оценка случайностизависимой переменной;
2) оценка стационарностии эргодичности зависимых и независимых переменных;
3) Проверка гипотезы онормальности распределения ошибок E;
4) Обнаружение выбросов;
5) Проверка постоянстваматематического ожидания и дисперсии ошибок;
6) Оценка коррелированностиостатков;
7) Обнаружениемультиколлинеарности.
1.2.1 Проверкаслучайности
Построение моделей методоммножественного регрессионного анализа требуется выполнение предположенияслучайности /> и/>в нормальнойлинейной модели вида
/>
где /> – вектор наблюденийзависимой переменной;
/> – матрица наблюдений независимыхпеременных;
/> – вектор неизвестных коэффициентов;
/> – вектор ошибок.
Задача проверкислучайности может быть разбита на 2 подзадачи:
1) проверка случайностисобственной величины Y;
2) проверка случайностивыборки, то есть допущения об отсутствии существенного смещения среднейвеличины во времени.
Первая подзадача решаетсяс использованием критерия серий. Для этой цели последовательность наблюденийвеличины Y представляют последовательностью нулей и единиц, где единицейобозначают значение, превышающее среднее или медиану, и нулем, собственно,значение меньшее медианы. После обозначения вектор наблюдений преобразуется впоследовательность серий /> где /> – количество подряд идущихэлементов одного вида, i – номер серии.
Доказано, что при /> распределениевеличины r близится к нормальному с характеристиками
/> />
Тогда с вероятностью0,954 теоретическое число серий r будет находиться в пределах
/>
Если фактическое значение/> попадаетв указанные пределы, то Y можно считать случайной величиной.
Серией называетсяпоследовательность наблюдаемых значений, перед которыми и после которыхрасположены наблюдаемые значения другой категории. Если последовательность Nнаблюдений представляет собой независимые наблюденные значения одной и той жеслучайной величины, т.е. вероятность знаков (+) и (–) не меняется от одногонаблюдения к другому, то выборочное распределение числа серий впоследовательности есть случайная величина r со средним значением
/>         (3.1)
и дисперсией
/>        (3.2)
Здесь /> – число наблюдений сознаком (+), /> –число наблюдений со знаком (–).
Когда /> соотношения (3.1) и(3.2) принимают вид
/>
Для решения второйподзадачи используется метод последовательных разностей. Элементы исследуемойвыборки /> располагаютсяв порядке получения наблюдений и для них вычисляются выборочные среднее и дисперсия
/>
Определяют разности /> междусоседними наблюдениями
/>
и математическое ожиданиеквадрата разности
/>
где /> – оценка генеральнойдисперсии.
Фактическая величинакритерия случайности выборки
/>.
Теоретическое значениекритерия
/>
При /> для конкретного N гипотеза случайностиотвергается.
1.2.2 Проверкастационарности
Анализ случайныхпроцессов может производиться осреднением величин по ансамблю выборочныхреализаций или по одной реализации.
Поскольку на практике проверка поансамблю достаточно длинных выборочных реализаций неосуществима, то дляиспользования тестов проверки стационарности процесса принимается ряддопущений:
а) проверка заключается висследовании поведения не ансамбля, а его отдельных реализаций; это означает,что доказательство внутренней стационарности отдельных реализаций может служитьдоказательством стационарности случайного процесса, которому принадлежит этареализация;
б) для большинства процессовдостаточно проверить слабую стационарность, поскольку, во-первых, дляэффективного использования спектрального и корреляционного анализа случайныхпроцессов достаточно выполнения условия слабой стационарности, а во-вторых, дляреальных процессов обычно слабая стационарность влечет за собой и строгую; еслипроцесс определяется нормальной плотностью, то это доказательство осуществляетсяавтоматически, поскольку все моменты высших порядков полностью определяютсясредним и автокорреляционной функцией;
в) на практике часто стационарностьавтокорреляционной функции обеспечивается стационарностью дисперсии.
Учитывая эти допущения, проверкустационарности осуществляют исследованием одной реализации />.
Для этого реализация делится на Nравных интервалов таких, что её участки в пределах каждого интервала можносчитать независимыми. Для всех интервалов вычисляются средние значения исредние значения квадратов, из которых составляются две последовательности изатем их проверяют на наличие тренда.

/>
Если известно выборочноераспределение, то для проверки можно использовать существующие непараметрическиекритерии (t-критерий Стьюдента, />-критерий Пирсона, F-критерийФишера), однако в обычной ситуации проверка стационарности осуществляется привысокой неопределенности относительно исследуемого процесса. В этом случаецелесообразно использовать непараметрические критерии, например, критерий серийи критерий тренда
Критерий тренда основан на подсчетечисла случаев, когда /> для /> в последовательности Nнаблюденных значений величины x.
Такое неравенство называется инверсией,а их число k определяется из соотношения
/>,
где
/>
/>
Число инверсий есть также случайнаявеличина со средним
/>
и дисперсией
/>.
Область принятия гипотезыограничена интервалом />.
Критерий тренда обладаетбольшей мощностью при выявлении монотонного тренда, однако при выявленииколебательного тренда его мощность невелика, в этом случае целесообразнееиспользовать критерий серий.
Критерии проверкигипотезы стационарности обладают рядом особенностей:
1) Нет необходимостизнать ширину полосы частот исследуемых процессов;
2) Не требуется точнознать время осреднения, использованное для вычисления средних и квадратовотклонений от средних;
3) Для проверки необязательно, чтобы исследуемые процессы были полностью случайными. При изучениипроцессов может возникнуть случай, когда независимость от времени средних иквадратов не является достаточным условием для утверждения о независимости отвремени автокорреляционной функции.
1.3 Обнаружение выбросовв выборке
Выбросом среди остатков представляетсобой остаток, который значительно превосходит по абсолютной величине остальныеи отличается от среднего по остаткам на три, четыре или даже более стандартныхотклонений.
Для обнаружения выбросов необходимопостроить график остатков, определённых по формуле
/>
В случае если />, данная точка будетхарактеризовать выброс. Следует отметить, что иногда выброс может дать полезнуюинформацию. В этом случае необходимо более тщательное исследование выбросов, ане механическое их отбрасывание. Выбросы должны быть исключены сразу есливыясняется, что они вызваны такими причинами, как ошибки в регистрации данных,неудовлетворительная настройка аппаратуры и т.д. Если имеется не одноаномальное измерение, то критерий />их не обнаруживает, особенно еслианализируется менее 30 измерений.
1.4 Мультиколлинеарность переменных
Одно из основных предположенийрегрессионного анализа относится к матрице исходных данных: среди независимыхпеременных не должно быть линейно зависимых. Это требование необходимо для вычисленияоценки /> методомнаименьших квадратов.
Мультиколлинеарность приводит к:
1)снижению точности, дисперсия оценокувеличивается, параметры модели коррелированны, что приводит к трудностям винтерпретации модели;
2)оценки коэффициентов становятсячувствительны к особенностям множества выборочных данных.
Причиной мультиколлинеарности могутслужить:
1) наличие автокорреляции в ряду наблюдений;
2) корреляция между переменными;
3) высокий уровень помех.
Под мультиколлинеарностью будемпонимать сопряженность независимых переменных, это означает «почтилинейную зависимость» векторов />, т.е. существование чисел /> таких, что:
/>                               (3.3)
Когда равенство (3.3)имеет место, говорят о строгой мультиколлинеарности.
При наличиимультиколлинеарности оценки МНК становятся положительными, т.е. дисперсияоценок будет весьма большой. При наличии (3.3) матрица /> становится плохо обусловленной, вчастности />, т.е. />.
1.4.1 Рекомендации по устранениюмультиколлинеарности
Наиболее простой способ устранениямультиколлинеарности – исключение одной переменной из пары переменных,коэффициент корреляции между которыми больше 0,8.
Простейшие рекомендации по устранениюмультиколлинеарности сводятся к сокращению рассматриваемого множестваобъясняющих переменных за счет тех из них, которые линейно связаны с ужевключенными в модель. Выполнение этих рекомендаций ведет к построению сокращенноймодели, которая не всегда соответствует требованию наблюдательности иуправляемости. Чтобы избежать нежелательных эффектов мультиколлинеарности, сохранивпри этом весь интересующий нас набор объясняющих переменных, предлагаетсяувеличить размеры выборки путем получения дополнительной информации. Ясно, чтоне любое произвольное увеличение выборки ведет к ослаблению эффектовмультиколлинеарности.
Часто для устранениямультиколлинеарности используют приемы, основанные на предварительномпреобразовании исходных данных путем получения отклонений от тренда. Однако,регрессионная модель, полученная благодаря таким преобразованиям, слабоподдается интерпретации. Иногда используют априорную информацию об имеющихсямежду параметрами связях в виде ограничений при вычислении оцениваемых параметроврегрессии. За исключением простейших случаев, реализация этих подходовдостигается существенным усложнением вычислительной процедуры нахожденияоценок. Широкое распространение получили методы устранения мультиколлинеарности,основанные на замене исходного множества объясняющих переменных главнымикомпонентами с последующим отбрасыванием тех из них, которые незначительны вуравнении регрессии. Близким к рассмотренному можно считать методы, основанныене на компонентном, а на факторном анализе, причем аналогия прослеживается какпо достоинствам, так и по недостаткам.
В тех случаях, когдаперечень объясняющих переменных регрессионной модели слишком велик,рекомендуется разделить их на группы высоко коррелированных и в каждой группепостроить обобщающие факторы в виде главной компоненты, которые далееиспользуются как новые переменные строящейся модели.
1.4.2 Доверительные интервалы дляуравнения регрессии
Для проведения углубленного анализауравнения регрессии прежде всего необходимо убедиться в том, что вектор ошибокЕ распределен по нормальному закону. Для построения доверительных интерваловкоэффициентов модели, предсказанных значений уравнения регрессии, среднегозначения используются стандартные статистические распределения, требующиенормальности распределений.

1.4.3 Определение доверительногоинтервала для истинного значение уравнения регрессии
Определение доверительного интерваласводится к отысканию интервала, в котором с вероятностью /> содержится истинноезначение />,соответствующее некоторому опыту /> из матрицы наблюдений />.
Другими словами, имеется интервал, вкотором с заданной вероятностью находится линия регрессии.
Подставляя /> в эмпирическое уравнениерегрессии получим оценки /> для каждого наблюдения /> вида:
/>
Различие между /> и /> объясняется действиемразличных ошибок.
Отметим, что /> имеет случайный характер, оценки /> и /> распределенынормально с параметрами
/>,
/>.
Можно утверждать, что />. Другими словами y является состоятельной оценкойистинного значения />, соответствующего опыту />, т.е. принеограниченном числе опытов эмпирическая линия регрессии совпадает с действительнойзависимостью
/>

Составляя дробь Стьюдента, получаем:
/>.
Задавшись уровнем значимости /> и найдятабличное значение /> можно построить достоверныйинтервал для /> в виде
/>.
1.4.4 Свойства доверительныхинтервалов
а) Доверительный интервалсимметричен относительно выборочной оценки />;
б) Ширина доверительногоинтервала зависит от /> и />;
в) Ширина доверительногоинтервала минимальна, если />, (ортогональны);
г) Ширина доверительногоинтервала равна бесконечности, если:
вектор-столбцы /> и /> в матриценаблюдений /> коллинеарные,т.е.если:
/>
д) В общем случае врегрессионных уравнениях доверительный интервал для отдельно взятогорегрессионного коэффициента /> определяется выражением
/>

1.5 Адекватность модели
Существует соотношение,которое можно использовать для оценки адекватности модели, сравнивая />и />. Расчетное /> определяется по формуле
/> (3.4)
Табличное значение /> берется с таблиц сопределенным числом степенем свобода и для притятого уровня значимості />.Если расчетное значение /> більше />, то это значит, что дисперсия MSR статистически меньше дисперсии MSD относительно />, в этом случае полученное уравнение регрессии можносчитать дееспособным.

2. ПРАКТИЧЕСКАЯ ЧАСТЬ
Поставлена следующая задача:построить зависимость количества выигранных голов от характеристик сыгранныхигр на основе модели множественной регрессии.
На основе имеющейся выборки сделаемследующие оценки:
/>
1) параметры модели βi(для данной модели существеннымиявляются переменные WIN и DP):
/>
2) оценки:множественный коэффициент корреляции R, R2 ,F, p, и Std Error of estimate:
/>

3) график длявычисленных значений и исходных:
/>
К такому ряду можноприменить модель линейной регрессии, так как он стационарный;
4) построениерегрессии:
/>

По графику видно, что вцелом модель адекватна: практически все значения легли на линию регрессии;
5) гистограммыисходных и вычисленных значений имеют нормальное распределение:
/>
/>

ВЫВОД
Как показано выше,множественная регрессии применима в случае стационарности ряда и позволяетпроизводить мониторинг результатов, основываясь на предикторах.
В общественных иестественных науках процедуры множественной регрессии чрезвычайно широкоиспользуются в исследованиях. В общем, множественная регрессия позволяетисследователю задать вопрос (и, вероятно, получить ответ) о том, «чтоявляется лучшим предиктором для...». Например, исследователь в областиобразования мог бы пожелать узнать, какие факторы являются лучшими предикторамиуспешной учебы в средней школе. А психолога мог быть заинтересовать вопрос,какие индивидуальные качества позволяют лучше предсказать степень социальнойадаптации индивида. Социологи, вероятно, хотели бы найти те социальныеиндикаторы, которые лучше других предсказывают результат адаптации новойиммигрантской группы и степень ее слияния с обществом. Термин «множественная»указывает на наличие нескольких предикторов или регрессоров, которыеиспользуются в модели, следовательно такая модель увеличивает спектр анализарегрессоров, что позволит построить более точный прогноз.

ПЕРЕЧЕНЬ ССЫЛОК
1) Демиденко Е.З.Линейная и нелинейная регрессии. – М.: Финансы и статистика, 2010. – 302 с
2) Дрейпер Н., СмитГ. Прикладной регрессионный анализ. – М.: Статистика, 2009. — 437 с.
3) Афифи А., ЭйзенС. Статистический анализ. Подход с использованием ЭВМ. Пер. с англ. – М.: Мир,1982. – 488 с.
4) Тюрин Ю.Н..,Макаров А.А. Статистический анализ данных на компьютере.- М.: Инфра, 1997.-528с.
5) www.statsoft.ru
6) Ясницкий Л.Н.Введение в искусственный интеллект. М. Academia, 2005г.,176 стр.: ил.

Не сдавайте скачаную работу преподавателю!

Данный реферат Вы можете использовать для подготовки курсовых проектов.

Доработать Узнать цену написания по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем реферат самостоятельно:

!	Как писать рефераты Практические рекомендации по написанию студенческих рефератов.
!	План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
!	Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
!	Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
!	Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:

→	Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Другие популярные рефераты:

Реферат	Механические волны
Реферат	Обратная матрица
Реферат	Инверсия и ее применение
Реферат	Социокультурная динамика межпоколенных взаимодействий
Реферат	Расследование преступлений в сфере компьютерной информации
Реферат	Туристско-краеведческая характеристика Калининградской области
Реферат	Организация административно-хозяйственной службы гостиницы
Реферат	Диагностика психологической готовности ребенка к школе 2
Реферат	Модель современного менеджера
Реферат	Условия формирования военно-административной системы Южного Зауралья в XVII - первой половине XIX века

Сейчас смотрят :

Реферат	Modern English literature
Реферат	Аркаим колыбель цивилизации
Реферат	Creative Story The Chronic Swamp Murders Essay
Реферат	Первый законопроект о гомруле
Реферат	Афанасий фет - «благоухающая свежесть чувств» в поэзии афанасия фета
Реферат	The Cross Of Straight Winged Fruit Flies
Реферат	Образ Хлестакова в комедии "Ревизор"
Реферат	Храмовое зодчество Южной Франции: адаптация северных моделей к местным условиям
Реферат	Исследование белорусской государственности
Реферат	Земля, как средство производства, часть природного комплекса и объект социально-экономических связей
Реферат	Анализ стихотворения А. Ахматовой «Родная земля»
Реферат	Climatic Change Essay Research Paper I SUMMARYThis
Реферат	Технологический расчет магистрального нефтепровода
Реферат	Listening Report Nat King Cole Essay Research
Реферат	Методика подготовки рекламного текста

Реферат по предмету "Экономико-математическое моделирование"

Основы практического использования прикладного регрессионного анализа

Другие популярные рефераты:

Сейчас смотрят :