Введение
Данныйкурсовой проект включает в себя информацию о методе наименьших квадратов и егоразновидностях. В работе приведена информация по классическому методунаименьших квадратов, подробно описан взвешенный МНК, дана краткая информация одвухшаговом и трёхшаговым методах наименьших квадратов.
При анализеразличных источников информации (смотри список литературы) предпочтение отданоработам, описывающим не просто математический и статистический базисыисследуемых методов. В работе сделан акцент на возможность практическогоиспользования различных статистико-математических методик главным образом вобласти экономических и финансовых исследований.
Парнаялинейная регрессия. Метод наименьших квадратов
/>
Рис.1
На рисункеизображены три ситуации:
• награфике (а) взаимосвязь х и у близка к линейной; прямая линия (1) здесь близкак точкам наблюдений, и последние отклоняются от нее лишь в результатесравнительно небольших случайных воздействий;
• награфике (b) реальная взаимосвязь величин х и у описывается нелинейной функцией(2), и какую бы мы ни провели прямую линию (например, 1), отклонения точекнаблюдений от нее будут существенными и неслучайными;
• награфике (с) явная взаимосвязь между переменными х и у отсутствует; какую бы мыни выбрали формулу связи, результаты ее параметризации будут здесь неудачными.В частности, прямые линии 1 и 2, проведенные через «центр»«облака» точек наблюдений и имеющие противоположный наклон, одинаковоплохи для того, чтобы делать выводы об ожидаемых значениях переменной у позначениям переменной х.
Начальнымпунктом эконометрического анализа зависимостей обычно является оценка линейнойзависимости переменных. Если имеется некоторое «облако» точекнаблюдений, через него всегда можно попытаться провести такую прямую линию,которая является наилучшей в определенном смысле среди всех прямых линий, тоесть «ближайшей» к точкам наблюдений по их совокупности. Для этого мывначале должны определить понятие близости прямой к некоторому множеству точекна плоскости; меры такой близости могут быть различными. Однако любая разумнаямера должна быть, очевидно, связана с расстояниями от точек наблюдений дорассматриваемой прямой линии (задаваемой уравнением у= а + bх).
Обычно вкачестве критерия близости используется минимум суммы квадратов разностейнаблюдений зависимой переменной у и теоретических, рассчитанных по уравнениюрегрессии значений (а + bхi):
Q = Sei2 =S (yi-(a+bxi))2® min (1)
считается,что у и х — известные данные наблюдений, а и b — неизвестные параметры линии регрессии.Поскольку функция Q непрерывна, выпукла и ограничена снизу нулем, она имеетминимум. Для соответствующих точке этого минимума значений а и b могут бытьнайдены простые и удобные формулы (они будут приведены ниже). Метод оцениванияпараметров линейной регрессии, минимизирующий сумму квадратов отклоненийнаблюдений зависимой переменной от искомой линейной функции, называется Методомнаименьших квадратов (МНК), или Least Squares Method (LS).
«Наилучшая»по МНК прямая линия всегда существует, но даже наилучшая не всегда являетсядостаточно хорошей. Если в действительности зависимость y=f(х) является, например,квадратичной (как на рисунке 1(b)), то ее не сможет адекватно описать никакаялинейная функция, хотя среди всех таких функций обязательно найдется«наилучшая». Если величины х и у вообще не связаны (рис. 1 (с)), мытакже всегда сможем найти «наилучшую» линейную функцию у = а+bх дляданной совокупности наблюдений, но в этом случае конкретные значения а и Ьопределяются только случайными отклонениями переменных и сами будут оченьсильно меняться для различных выборок из одной и той же генеральной совокупности.Возможно, на рис. 1(с) прямая 1 является наилучшей среди всех прямых линий (всмысле минимального значения функции Q), но любая другая прямая, проходящаячерез центральную точку «облака» (например, линия 2), ненамного вэтом смысле хуже, чем прямая 1, и может стать наилучшей в результате небольшогоизменения выборки.
Рассмотримтеперь задачу оценки коэффициентов парной линейной регрессии более формально.Предположим, что связь между х и.у линейна: у = a+bх. Здесь имеется в видусвязь между всеми возможными значениями величин х и у, то есть для генеральнойсовокупности. Наличие случайных отклонений, вызванных воздействием напеременную у множества других, неучтенных в нашем уравнении факторов и ошибокизмерения, приведет к тому, что связь наблюдаемых величин xi и yi приобрететвид уi=a+bхi+єi,. Здесь єi. — случайные ошибки (отклонения, возмущения).Задача состоит в следующем: по имеющимся данным наблюдений {xi}, {уi} оценитьзначения параметров айв, обеспечивающие минимум величины Q. Если бы былиизвестны точные значения отклонений єi, то можно было бы (в случае правильностипредполагаемой линейной формулы) рассчитать значения параметров a и b. Однакозначения случайных отклонений в выборке неизвестны, и по наблюдениям xi и уiможно получить оценки параметров с и р, которые сами являются случайнымивеличинами, поскольку соответствуют случайной выборке. Пусть а — оценкапараметра a, b — оценка параметра b. Тогда оцененное уравнение регрессии будет иметь вид:
yi=а+bxi+еi,
где еi — наблюдаемые значения ошибок єi.
Для оценки параметровa и b воспользуемся МНК, который минимизирует сумму квадратовотклонений фактических значений уi от расчетных. Минимум ищется по переменным аи b.
Для того,чтобы полученные МНК оценки а и b обладали желательными свойствами, сделаемследующие предпосылки об отклонениях єi:
1) величинаєi является случайной переменной;
2)математическое ожидание єi равно нулю: М (єi) = 0;
3)дисперсия є постоянна: D(єi) = D(єi) = s2 для всех i, j;
4) значенияєi независимы между собой. Откуда вытекает, в частности, что
/> (2)
Известно,что, если условия 1)-4) выполняются, то оценки, сделанные с помощью МНК,обладают следующими свойствами:
1) Оценкиявляются несмещенными, т.е. математическое ожидание оценки каждого параметраравно его истинному значению: М(а) =a; М(b)=b. Этовытекает из того, что М(єi) = 0, и говорит об отсутствии систематической ошибкив определении положения линии регрессии.
2) Оценкисостоятельны, так как дисперсия оценок параметров при возрастании числанаблюдений стремится к нулю:/>; />. Иначе говоря, если п достаточновелико, то практически наверняка а близко к a, а b близко к b:надежность оценки при увеличении выборки растет.
3) Оценкиэффективны, они имеют наименьшую дисперсию по сравнению с любыми другимиоценками данного параметра, линейными относительно величин уi. В англоязычнойлитературе такие оценки называются BLUE (Best Linear Unbiased Estimators — наилучшие линейные несмещенные оценки).
Перечисленныесвойства не зависят от конкретного вида распределения величин єi, тем не менее, обычно предполагается,что они распределены нормально N(0;y2). Эта предпосылка необходима для проверкистатистической значимости сделанных оценок и определения для них доверительныхинтервалов. При ее выполнении оценки МНК имеют наименьшую дисперсию не толькосреди линейных, но среди всех несмещенных оценок.
Еслипредположения 3) и 4) нарушены, то есть дисперсия возмущений непостоянна и/илизначения є. связаны друг с другом, то свойства несмещенности и состоятельностисохраняются, но свойство эффективности — нет.
Рассмотримтеперь процедуру оценивания параметров парной линейной регрессии а и b. Длятого, чтобы функция Q = Sei2 =S (yi-(a+bxi))2 достигала минимума, необходимо равенство нулю еечастных производных:
/> (3) (4)
/>/>
Еслиуравнение (3) разделить на п, то получим у=а+bх (здесь />/> - средние значения х и у). Такимобразом, линия регрессии проходит через точку со средними значениями х и у.Подставив величину а из (3) в (4), получаем
/>
Откуда
/> (5) (6)
Иначе можнозаписать, что/>(где r коэффициент корреляции х и у). Такимобразом, коэффициент регрессии пропорционален показателю ковариации икоэффициенту корреляции х и у, а коэффициенты этой пропорциональности служатдля соизмерения перечисленных разноразмерных величин. Оценки a и b, очевидно, являются линейнымиотносительно yi (если xi считать коэффициентами) — выше об этом упоминалось.
Итак, есликоэффициент r уже рассчитан, то легко рассчитать коэффициент парной регрессии,не решая системы уравнений. Ясно также, что если рассчитаны линейные регрессиих(у) и у(х), то произведение коэффициентов dx и by, равно r2:
/> (7)[1]Взвешенный метод наименьших квадратов
Далеко невсе задачи исследования взаимосвязей экономических переменных описываютсяобычной линейной регрессионной моделью. Во-первых, исходные данные могут несоответствовать тем или иным предпосылкам линейной регрессионной модели итребовать либо дополнительной обработки, либо иного модельного инструментария.Во-вторых, исследуемый процесс во многих случаях описывается не однимуравнением, а системой, где одни и те же переменные могут быть в одних случаяхобъясняющими, а в других — зависимыми. В-третьих, исследуемые взаимосвязи могутбыть (и обычно являются) нелинейными, а процедура линеаризации не всегда легкоосуществима и может приводить к искажениям. В-четвертых, структура описываемогопроцесса может обусловливать наличие различного рода связей между оцениваемымикоэффициентами регрессии, что также предполагает необходимость использованияспециальных методов.
Наиболеераспространенным в практике статистического оценивания параметров уравненийрегрессии является метод наименьших квадратов. Этот метод основан на рядепредпосылок относительно природы данных и результатов построения модели.Основные из них — это четкое разделение исходных переменных на зависимые инезависимые, некоррелированность факторов, входящих в уравнения, линейностьсвязи, отсутствие автокорреляции остатков, равенство их математических ожиданийнулю и постоянная дисперсия. Эмпирические данные не всегда обладают такимихарактеристиками, т.е. предпосылки МНК нарушаются. Применение этого метода вчистом виде может привести к таким нежелательным результатам, как смещениеоцениваемых параметров, снижение их состоятельности, устойчивости, а в некоторыхслучаях может и вовсе не дать решения. Для смягчения нежелательных эффектов припостроении регрессионных уравнений, повышения адекватности моделей существуетряд усовершенствований МНК, которые применяются для данных нестандартнойприроды.
Одной изосновных гипотез МНК является предположение о равенстве дисперсий отклонений еi, т.е. их разброс вокруг среднего(нулевого) значения ряда должен быть величиной стабильной. Это свойствоназывается гомоскедастичностью. На практике дисперсии отклонений достаточно частонеодинаковы, то есть наблюдается гетероскедастичность. Это может бытьследствием разных причин. Например, возможны ошибки в исходных данных.Случайные неточности в исходной информации, такие как ошибки в порядке чисел,могут оказать ощутимое влияние на результаты. Часто больший разброс отклоненийєi,наблюдается при больших значениях зависимой переменной (переменных). Если вданных содержится значительная ошибка, то, естественно, большим будет иотклонение модельного значения, рассчитанного по ошибочным данным. Для того,чтобы избавиться от этой ошибки нам нужно уменьшить вклад этих данных врезультаты расчетов, задать для них меньший вес, чем для всех остальных. Этаидея реализована во взвешенном МНК.
Пусть напервом этапе оценена линейная регрессионная модель с помощью обычного МНК.Предположим, что остатки еi независимы между собой, но имеют разные дисперсии (посколькутеоретические отклонения еi нельзя рассчитать, их обычно заменяют на фактические отклонениязависимой переменной от линии регрессии ^., для которых формулируются те жеисходные требования, что и для єi). В этом случае квадратную матрицу ковариаций cov(ei, ej) можно представить в виде:
/>
где cov(ei, ej)=0 при i ¹ j; cov(ei, ej)=S2; п — длина рассматриваемого временного ряда.
Есливеличины /> известны,то далее можно применить взвешенный МНК, используя в качестве весов величины /> и минимизируясумму
/>
Формула Q, записанадля парной регрессии; аналогичный вид она имеет и для множественной линейнойрегрессии. При использовании IVLS оценки параметров не только получаются несмещенными (они будуттаковыми и для обычного МНК), но и более точными (имеют меньшую дисперсию), чемне взвешенные оценки.
Проблемазаключается в том, чтобы оценить величины s2, поскольку заранее они обычнонеизвестны. Поэтому, используя на первом этапе обычный МНК, нужно попробоватьвыяснить причину и характер различий дисперсий еi. Для экономических данных, например,величина средней ошибки может быть пропорциональна абсолютному значениюнезависимой переменной. Это можно проверить статистически и включить в расчетМНК веса, равные />.
Существуютспециальные критерии и процедуры проверки равенства дисперсий отклонений.Например, можно рассмотреть частное от деления cумм самых больших и самых маленькихквадратов отклонений, которое должно иметь распределение Фишера в случаегомоскедастичности.
Использованиевзвешенного метода в статистических пакетах, где предоставлена возможностьзадавать веса вручную, позволяет регулировать вклад тех или иных данных врезультаты построения моделей. Это необходимо в тех случаях, когда мы априорнознаем о не типичности какой-то части информации, т.е. на зависимую переменнуюоказывали влияние факторы, заведомо не включаемые в модель. В качестве примератакой ситуации можно привести случаи стихийных бедствий, засух. При анализемакроэкономических показателей (ВНП и др.) данные за эти годы будут не совсемтипичными. В такой ситуации нужно попытаться исключить влияние этой частиинформации заданием весов. В разных статистических пакетах приводится возможныйнабор весов. Обычно это числа от О до 100. По умолчанию все данные учитываютсяс единичными весами. При указании веса меньше 1 мы снижаем вклад этих данных, аесли задать вес больше единицы, то вклад этой части информации увеличится.Путем задания весового вектора мы можем не только уменьшить влияние каких — либо лет из набора данных, но и вовсе исключить его из анализа. Итак, ключевыммоментом при применении этого метода является выбор весов. В первом приближениивеса могут устанавливаться пропорционально ошибкам не взвешенной регрессии.[1] Системы одновременных уравнений
Пристатистическом моделировании экономических ситуаций часто необходимо построениесистем уравнений, когда одни и те же переменные в различных регрессионныхуравнениях могут одновременно выступать, с одной стороны, в ролирезультирующих, объясняемых переменных, а с другой стороны — в роли объясняющихпеременных. Такие системы уравнений принято называть системами одновременныхуравнений. При этом в соотношения могут входить переменные, относящиеся нетолько к текущему периоду t, но и к предшествующим периодам. Такие переменные называютсялаговыми. Переменные за предшествующие годы обычно выступают в качествеобъясняющих переменных.
В качествеиллюстрации приведем пример из экономики. Рассмотрим модель спроса ипредложения. Как известно, спрос D на некоторый продукт зависит от его цены р.От этого же параметра, но с противоположным по знаку коэффициентом, зависит ипредложение этого продукта. Силы рыночного механизма формируют цену такимобразом, что спрос и предложение уравниваются. Нам нужно построить модельописанной ситуации. Для этого имеются данные об уровне равновесных цен и спросе(который равен предложению). Представленную ситуацию можно формализовать в видеследующей линейной модели:
/> (3.1)
спроспропорционален цене с коэффициентом пропорциональности a1
/>(3.2)
предложениепропорционально цене с коэффициентом пропорциональности а2>0, т.е. связьположительная;
/>(3.3)
Здесь еl, е'l\, (l=1,...,n) — ошибки модели, имеющие нулевоематематическое ожидание.
Первые дваиз представленных уравнений, если их рассматривать отдельно, могут показатьсявполне обычными. Мы можем определить коэффициенты регрессии для каждого из этихуравнений. Но в этом случае остается открытым вопрос о равенстве спроса ипредложения, т.е. может не выполняться третье равенство, в котором спросвыступает в качестве зависимой переменной. Поэтому расчет параметров отдельныхуравнений в такой ситуации теряет смысл.
Экономическаямодель как система одновременных уравнений может быть представлена вструктурной или в приведенной форме. В структурной форме ее уравнения имеютисходный вид, отражая непосредственные связи между переменными. Приведеннаяформа получается после решения модели относительно эндогенных (внутренних)переменных, то есть выражения этих переменных только через экзогенные(задаваемые извне) переменные и параметры модели. Например, в модели спроса ипредложения эндогенными являются переменные pl, Sl, Dl, ее параметры – a1, a2, b1, b2, а экзогенных переменных в ней нет.Таким образом, в приведенной форме переменные pl, Sl, Dl, должны выражаться толькочерез параметры модели. Подставив Sl иDl из (1) и (2) в (3), получаем
/>
Здесь v1l, v2l, v3l — преобразованные отклонения. Мы можемоценить/>как среднее значение pl(т.е. />), а также />, />, но из этих трехсоотношений невозможно рассчитать параметры первоначальной модели a1, a2, b1 и b2(поскольку их четыре). Тем самым мыподошли к проблеме идентификации — оценке параметров структурной формы модели(в чем, собственно, и состоит наша задача) по параметрам приведенной формы.Параметры приведенной формы могут быть оценены обычным МНК, но по ним далеко невсегда может быть идентифицирована исходная модель (как, например, в описанномслучае модели спроса и предложения). Для того чтобы структурная форма моделимогла быть идентифицирована, вводят дополнительные предпосылки (например, оравенстве некоторых коэффициентов нулю или об их взаимосвязи между собой).Часто уже на этапе построения модели стараются выбрать такую ее форму, котораябыла бы идентифицируема. Такой, например, является треугольная форма модели:
/>(3.4)
где х — вектор объясняющих переменных, yi — i-я зависимая переменная. Нежелательна и сверхидентифицируемостьмодели, когда для параметров структурной формы получается слишком много соотношений из приведенной формы модели. В этом случае модель также нуждается вуточнении.
Дляоценивания систем одновременных уравнений имеется ряд методов. В целом их можноразбить на две группы. К первой группе относятся методы, применяемые к каждомууравнению в отдельности. Вторая группа содержит методы, предназначенные дляоценивания всей системы в целом. В пакете TSP, в частности, представлено поодному методу из каждой группы. Для оценивания отдельных уравнений можноприменять двухшаговый метод наименьших квадратов (Two-Stage Least Squares). Извторой группы методов в этом пакете реализован трехшаговый метод наименьшихквадратов (Three-Stage Least Squares),
Остановимсявначале на двухшаговом методе. Он применяется при наличии в оцениваемой моделилаговых переменных. Содержательный смысл двухшагового метода состоит вследующем. Как известно, МНК-оценки параметров уравнения равны b=(Х'Х)-1 X'Y, но лаговые значения у, используемыекак объясняющие переменные (в этой формуле они являются частью матрицы X),заранее неизвестны. Поэтому для того, чтобы воспользоваться этой формулой,сначала, на первом шаге, определяются недостающие значения объясняемыхпеременных. Это в данном случае делается путем расчета МНК-оценок, т.е.строится регрессия, в которой в роли объясняемых переменных выступают толькоимеющиеся в исходной информации. После этого, когда исходные эмпирическиеданные дополнены рассчитанными значениями и сформирован полный набор данных,можно приступать к оценке искомых параметров.
ДвухшаговыйМНК применяется и при сверхидентифицируемости модели. В этом случае на первомшаге оцениваются параметры приведенной формы модели. С помощью уравненийприведенной формы, при заданных значениях объясняющих переменных,рассчитываются оценки зависимых переменных. Далее эти оценки подставляются в правыечасти уравнений модели в структурной форме, и вновь используется обычный МНКдля оценки ее параметров.
Для оценкипараметров всей системы уравнений в целом используется трехшаговый МНК. К егоприменению прибегают в тех случаях, когда переменные, объясняемые водномуравнении, в другом выступают в роли объясняющих. Так было в нашем примере смоделью спроса и предложения, где спрос и предложение, с одной стороны,определяются рыночной ценой, а с другой стороны, предложение должно быть равноспросу. При расчете параметров таких моделей необходимо учитывать всю системусоотношений. В трехшаговом методе это реализуется в три этапа. Первые два изних похожи на двухшаговый метод, т.е. производится оценка параметров вуравнениях с лаговыми переменными. В нашем примере лаговые переменные вуравнения не включены, и на этом этапе будут рассчитываться обычныекоэффициенты регрессии. После этого нам нужно увязать все уравнения системымежду собой. В качестве меры связи здесь выступает матрица ковариаций ошибокмоделей, т.е. чтобы оценить, насколько несвязанными получатся уравнения спросаи предложения при расчете их отдельно, нужно рассчитать ковариацию ошибок е ие'. Для увеличения этой связи на следующем этапе, при очередном расчетекоэффициентов регрессии учитывается матрица ковариаций ошибок. Таким приемомдостигается взаимосязанность всей системы уравнений.[1] Нелинейная регрессия
На практикечасто встречается ситуация, когда априорно известен нелинейный характерзависимости между объясняемыми и объясняющими переменными. В этом случаефункция f в уравнении у=(а, х) нелинейна (а — вектор параметров функции,которые нам нужно оценить). Например, вид зависимости между ценой и количествомтовара в той же модели спроса и предложения: она не всегда предполагаетсялинейной, как в нашем примере. Нелинейную функцию можно преобразовать влинейную, как это было сделано, например, логарифмированием с функциейКобба-Дугласа. Однако не все функции поддаются такой непосредственнойлинеаризации. Любую дифференцируемую нужное число раз функцию можно разложить вфункциональный ряд и затем оценить регрессию объясняемой переменной с членамиэтого ряда. Тем не менее такое разложение всегда осуществляется в окрестностиопределенной точки, и лишь в этой окрестности достаточно точно аппроксимируетоцениваемую функцию. В то же время оценить зависимость требуется обычно наболее или менее значительном интервале, а не только в окрестности некоторойточки. При линеаризации функции или разложении её в ряд с целью оценки регрессиивозникают и другие проблемы: искажение отклонений ей нарушение ихпервоначальных свойств, статистическая зависимость членов ряда между собой.Например, если оценивается формула
/>
полученнаяпутем линеаризации или разложения в ряд, то независимые переменные х и х2связаны между собой даже не статистически, но функционально. Если исходнаяошибка е здесь связана с переменной х, то добавление х2 приводит к появлению (ссоответствующими коэффициентами) квадрата этой переменной и её удвоенногопроизведения с х, что искажает исходные предпосылки модели. Поэтому во многихслучаях актуальна непосредственная оценка нелинейной формулы регрессии. Дляэтого можно воспользоваться нелинейным МНК. Идея МНК основана на том, чтобыминимизировать сумму квадратов отклонений расчетных значений от эмпирических,т.е. нужно оценить параметры о функции f(a,x) таким образом, чтобы ошибки еi= уi-f(а, х), точнее — их квадраты, посовокупности были минимальными. Для этого нужно решить задачу минимизации
/>(4.1)
Для решенияэтой задачи существует два пути. Во-первых, может быть осуществленанепосредственная минимизация функции F с помощью методов нелинейнойоптимизации, позволяющих находить экстремумы выпуклых линий. Это, например,метод наискорейшего спуска, при использовании которого в некоторой исходнойточке определяется антиградиент (направление наиболее быстрого убывания)функции F. Далее находится минимум F при движении в данном направлении, и вточке этого минимума снова определяется градиент. Процедура повторяется до техпор, пока разница значений f на двух последовательных шагах не окажется меньше заданной малойвеличины. Другой путь состоит в решении системы нелинейных уравнений, котораяполучается из необходимых условий экстремума функции F. Эти условия — равенствонулю частных производных функции F по каждому из параметров аj., т.е.
Faj = 0,
j=1,..,m. Получается система уравнений
-2S(yi-f(a,xi))*fai'(a,xi)= 0, j = 1,..,m(4.2)
нелинейностькоторой обусловлена нелинейностью функции f относительно параметров аj. Эта система уравнений может бытьрешена итерационными методами (когда последовательно находятся векторыпараметров, все в меньшей степени нарушающие уравнения системы). Однако в общемслучае решение такой системы не является более простым способом нахождениявектора а, чем непосредственная оптимизация методом наискорейшего спуска.
Существуютметоды оценивания нелинейной регрессии, сочетающие непосредственнуюоптимизацию, использующую нахождение градиента, с разложением в функциональныйряд (ряд Тейлора) для последующей оценки линейной регрессии. Наиболее известениз них метод Марквардта, сочетающий в себе достоинства каждого из двухиспользуемых методов.
Припостроении нелинейных уравнений более остро, чем в линейном случае, стоитпроблема правильной оценки формы зависимости между переменными. Неточности привыборе формы оцениваемой функции существенно сказываются на качестве отдельныхпараметров уравнений регрессии и, соответственно, на адекватности всей модели вцелом.[1] Авторегрессионное преобразование
Важнойпроблемой при оценивании регрессии является автокорреляция остатков е, котораяговорит об отсутствии первоначально предполагавшейся их взаимной независимости.Автокорреляция остатков первого порядка, выявляемая с помощью статистикиДарбина-Уотсона, говорит о неверной спецификации уравнения либо о наличиинеучтенных факторов. Естественно, для её устранения нужно попытаться выбратьболее адекватную формулу зависимости, отыскать и включить важные неучтенныефакторы или уточнить период оценивания регрессии. В некоторых случаях, однако,это не даст результата, а отклонения еi просто связаны авторегрессионной зависимостью. Если этоавторегрессия первого порядка, то её формула имеет вид еi=rei-1 + ui(r — коэффициент авторегрессии, |r|
/>
Есливеличины ui.действительно обладают нужными свойствами, то в линейной регрессионнойзависимости у'i= а1 + bx'i + ui автокорреляции остатков ui уже не будет, и статистика DW окажется близкой к двум.Коэффициент b этой формулы принимается для исходной формулы у = а+bх+е непосредственно, а коэффициент а,рассчитывается по формуле />.
Оценкикоэффициентов а и b нужно сравнить с первоначальными оценками, полученными длярасчета отклонений еi Если эти оценки совпадают, то процесс заканчивается; если нет — то при новых значениях а и b вновь рассчитываются отклонения е до тех пор, пока оценки а и b на двух соседних итерациях не совпадутс требуемой точностью.
В случае,когда остатки «также автокоррелированы, авторегрессионное преобразование можетбыть применено ещё раз. Это означает использование авторегрессионногопреобразования более высокого порядка, которое заключается в оценкекоэффициентов авторегрессии соответствующего порядка для отклонений е. ииспользовании их для построения новых переменных. Такое преобразование вместоAR(1) называется AR(s) — если используется авторегрессия порядка s.
Оцелесообразности применения авторегрессионного преобразования говоритнекоррелированность полученных отклонений ui,. Однако даже в этом случаеистинной причиной первоначальной автокорреляции остатков может бытьнелинейность формулы или неучтенный фактор. Мы же, вместо поиска этой причины,ликвидируем её бросающееся в глаза следствие. В этом — основной недостатокметода AR и содержательное ограничение для его применения.
Кромеавторегрессионного преобразования, для устранения автокорреляции остатков иуточнения формулы регрессионной зависимости может использоваться методскользящих средних (MovingAve-rages, или МА). В этом случае считается, чтоотклонения от линии регрессии еi описываются как скользящие средние случайных нормальнораспределенных ошибок еi предполагается, что
/>(5.1)
Это формуладля преобразования МА q-го порядка, или MA(q); МА(1), например, имеет вид еi = єi + q1єi-1. Параметры qi, как и в случае авторегрессионногопреобразования, могут оцениваться итерационными методами.
Во многихслучаях сочетание методов AR и МА позволяет решить проблему автокорреляцииостатков даже при небольших s и q. Еще раз повторим, что адекватным такое решение проблемы являетсялишь в том случае, если автокорреляция остатков имеет собственные внутренниепричины, а не вызвана наличием неучтенных (одного или нескольких) факторов.
Методы AR иМА могут использоваться в сочетании с переходом от объемных величин в модели кприростным, для которых статистическая взаимосвязь может быть более точной иявной. Модель, сочетающая все эти подходы, называется моделью/1/?/Л/А(Aiitoreg-- ressive Integrated Moving Averages). В общем виде ее формулу можнозаписать так:
/> (5.2)
где {rр^} и {q9^} — неизвестные параметры, и е — независимые, одинаково нормально распределенные СВс нулевым средним. Величины у* представляют собой конечные разности порядка dвеличин у, а модель обозначается как АRIМА(р,d,q).
ПрименениеМНК в экономике
Порядокприменения шкалы регрессии ставок единого социального налоганалогоплательщиками, указанными в подпункте 1 пункта 1 статьи 235 Налоговогокодекса Российской Федерации (т.е. налогоплательщиками-работодателями, включаяработодателей-предпринимателей без образования юридического лица).
Всоответствии с пунктом 2 статьи 241 и статьи 245 Налогового кодекса РоссийскойФедерации шкала регрессии ставок единого социального налога в 2001 г.применяется налогоплательщиками при условии, что фактический размер выплат,начисленный в среднем на одного работника и принимавшийся за базу при расчетестраховых взносов в Пенсионный фонд Российской Федерации во втором полугодии2000 г., превышал 25000 рублей.
При этом уналогоплательщиков с численностью работников свыше 30 человек не учитываютсявыплаты 10 процентам работников, имеющих наибольшие по размеру выплаты, уналогоплательщиков с численностью работников до 30 человек (включительно) –выплаты 30 процентам работников, имеющих наибольшие по размеру выплаты.
Широкоеприменение линейной регрессии обусловлено тем, что достаточно большоеколичество реальных процессов в экономике и бизнесе можно с достаточной точностьюописать линейными моделями. В Data Mining, регрессия широко используется длярешения задач прогнозирования и численного предсказания.
Заключение
Информация,представленная в настоящем курсовом проекте, может стать основой для дальнейшейпроработки и усовершенствования приведенных статистических методов. По каждомуиз описанных методов может быть предложена задача построения соответствующихалгоритмов. По разработанным алгоритмам в дальнейшем возможна разработкапрограммных продуктов для практического использования методов в аналитических,исследовательских, коммерческих и других областях.
Наиболееполная информация приведена по применению скользящих средних. В работеописывается лишь малая часть имеющихся в настоящее время методов дляисследования и обработки различных видов статистической информации. Здесьпредставлен краткий и поверхностный обзор некоторых методов, исходя изнезначительного объёма настоящей работы.
Список литературы
1. О.О. Замков, А.В. Толстопятенко, Р.Н. Черемных Взвешенный методнаименьших квадратов Взвешенный метод наименьших квадратов Математическиеметоды в экономике. – М.: Дис, 1997.
2. Анна Эрлих Технический анализ товарных и финансовых рынков. – М.:ИНФРА, 1996.
3. Я.Б. Шор Статистические методы анализа и контроля качества инадёжности. – М.: Советское радио, 1962.
4. В.С. Пугачёв Теория вероятностей и математическая статистика. –М.: Наука, 1979. – 394 с.