/>
ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ
КАФЕДРА СТАТИСТИКИ
О Т Ч Е Т
о результатах выполнения
компьютерной лабораторной работы
Автоматизированный корреляционно-регрессионный анализ взаимосвязи статистических данных в среде MS Excel
Вариант № 65
Выполнил: ст. III курса гр. 3
Широких Е.Б.
Проверил: доц. Левчегов О.Н.
Липецк 2011 г.
1. Постановка задачи статистического исследования
Корреляционно-регрессионный анализ взаимосвязи признаков является составной частью проводимого статистического исследования деятельности 30-ти предприятий и частично использует результаты ЛР-1.
В ЛР-2 изучается взаимосвязь между факторным признаком Среднегодовая стоимость основных производственных фондов (признак Х) и результативным признаком Выпуск продукции (признак Y), значениями которых являются исходные данные ЛР-1 после исключения из них аномальных наблюдений.
Исходные данные
Номер предприятия
Среднегодовая стоимость основных производственных фондов, млн.руб.
Выпуск продукции, млн. руб.
5
1205,00
945,00
23
1299,50
1255,50
27
1407,50
1080,00
1
1448,00
1390,50
8
1502,00
1485,00
32
1529,00
1566,00
22
1637,00
1336,50
19
1677,50
1282,50
2
1704,50
1525,50
3
1758,50
1701,00
13
1772,00
1809,00
26
1812,50
1660,50
9
1839,50
1741,50
4
1853,00
1890,00
28
1893,50
1687,50
17
1907,00
1728,00
6
1947,50
1620,00
14
1947,50
1971,00
25
1947,50
1755,00
7
2001,50
2187,00
31
2082,50
1755,00
18
2109,50
2052,00
10
2123,00
2173,50
20
2136,50
1755,00
24
2177,00
2011,50
29
2190,50
1849,50
15
2231,00
2389,50
12
2325,50
2295,00
21
2379,50
2362,50
16
2555,00
2565,00
В процессе статистического исследования необходимо решить ряд задач.
Установить наличие статистической связи между факторным признаком Х и результативным признаком Y графическим методом.
Установить наличие корреляционной связи между признаками Х и Y методом аналитической группировки.
Оценить тесноту связи признаков Х и Y на основе эмпирического корреляционного отношения η.
Построить однофакторную линейную регрессионную модель связи признаков Х и Y, используя инструмент Регрессия надстройкиПакет анализа, и оценить тесноту связи признаков Х и Y на основе линейного коэффициента корреляции r.
Определить адекватность и практическую пригодность построенной линейной регрессионной модели, оценив:
а) значимость и доверительные интервалы коэффициентов а, а1;
б) индекс детерминации R2 и его значимость;
в) точность регрессионной модели.
Дать экономическую интерпретацию:
а) коэффициента регрессии а1;
б) коэффициента эластичности КЭ;
в) остаточных величин εi.
Найти наиболее адекватное нелинейное уравнение регрессии с помощью средств инструмента Мастер диаграмм.
2. Выводы по результатам выполнения лабораторной работы
Задача 1
. Установление наличия статистической связи между факторным признаком Х и результативным признаком Y графическим методом.
Статистическая связь является разновидностью стохастической (случайной) связи, при которой с изменением факторного признака X закономерным образом изменяется какой–либо из обобщающих статистических показателей распределения результативного признака Y.
Вывод:
Точечный график связи признаков (диаграмма рассеяния, полученная в ЛР-1 после удаления аномальных наблюдений) позволяет сделать вывод, что имеет место статистическая связь. Предположительный вид связи – линейная прямая.
Задача 2. Установление наличия корреляционной связи между признаками Х и Y методом аналитической группировки.
Корреляционная связь– важнейший частный случай стохастической статистической связи, когда под воздействием вариации факторного признака Х закономерно изменяются от группы к группе средние групповые значения />результативного признака Y (усредняются результативные значения />, полученные под воздействием фактора />). Для выявления наличия корреляционной связи используется метод аналитической группировки.
Вывод:
Результаты выполнения аналитической группировки предприятий по факторному признаку Среднегодовая стоимость основных производственных фондов даны в табл. 2.2 Рабочего файла, которая показывает, что с увеличением значений факторного признака Х закономерно
увеличиваются средние групповые значения результативного признака />. Следовательно, между признаками Х и Y существует корреляционная связь.
Задача 3. Оценка тесноты связи признаков Х и Y на основе эмпирического корреляционного отношения.
Для анализа тесноты связи между факторным и результативным признаками рассчитывается показатель η – эмпирическое корреляционное отношение, задаваемое формулой
/>,
где />и /> — соответственно межгрупповая и общая дисперсии результативного признака Y — Выпуск продукции (индекс х дисперсии />означает, что оценивается мера влияния признака Х на Y).
Для качественной оценки тесноты связи на основе показателя эмпирического корреляционного отношения служит шкала Чэддока:
Значение η
0,1 – 0,3
0,3 – 0,5
0,5 – 0,7
0,7 – 0,9
0,9 – 0,99
Сила связи
Слабая
Умеренная
Заметная
Тесная
Весьма тесная
Результаты выполненных расчетов представлены в табл. 2.4 Рабочего файла.
Вывод:
Значение коэффициента η =0,56, что в соответствии с оценочнойшкалой Чэддока говорит озаметной
степени связи изучаемых признаков.
Задача 4. Построение однофакторной линейной регрессионной модели связи изучаемых признаков с помощью инструмента Регрессия надстройки Пакет анализа и оценка тесноты связи на основе линейного коэффициента корреляции r.
4.1. Построение регрессионной модели заключается в нахождении аналитического выражения связи между факторным признаком X и результативным признаком Y.
Инструмент Регрессия на основе исходных данных (xi, yi), производит расчет параметров а0и а1 уравнения однофакторной линейной регрессии />, а также вычисление ряда показателей, необходимых для проверки адекватности построенного уравнения исходным (фактическим) данным.
Примечание. В результате работы инструмента Регрессия получены четыре результативные таблицы (начиная с заданной ячейки А75). Эти таблицы выводятся в Рабочий файл без нумерации, поэтому необходимо присвоить им номера табл.2.5 – табл.2.8 в соответствии с их порядком.
Вывод:
Рассчитанные в табл.2.7 (ячейки В91 и В92) коэффициенты а0и а1 позволяют построить линейную регрессионную модель связи изучаемых признаков в виде уравнения />-728,665+1,089х.
4.2. В случае линейности функции связи для оценки тесноты связи признаков X и Y, устанавливаемой по построенной модели, используется линейный коэффициент корреляции r.
Значение коэффициента корреляции r приводится в табл.2.5 в ячейке В78 (термин «Множественный R»).
Вывод:
Значение коэффициента корреляции r =0,913, что в соответствии с оценочной шкалой Чэддока говорит о весьма тесной степени связи изучаемых признаков.
Задача 5
. Анализ адекватности и практической пригодности построенной линейной регрессионной модели.
Анализ адекватности регрессионной модели преследует цель оценить, насколько построенная теоретическая модель взаимосвязи признаков отражает фактическую зависимость между этими признаками, и тем самым оценить практическую пригодность синтезированной модели связи.
Оценка соответствия построенной регрессионной модели исходным (фактическим) значениям признаков X и Y выполняется в 4 этапа:
оценка статистической значимости коэффициентов уравнения а0, а1 и определение их доверительных интервалов для заданного уровня надежности;
определение практической пригодности построенной модели на основе оценок линейного коэффициента корреляции r и индекса детерминации R2;
проверка значимости уравнения регрессии в целом по F-критерию Фишера;
оценка погрешности регрессионной модели.
Оценка статистической значимости коэффициентов уравнения а0, а1 и определение их доверительных интервалов
Так как коэффициенты уравнения а0, а1 рассчитывались, исходя из значений признаков только для 30-ти пар (xi, yi), то полученные значения коэффициентов являются лишь приближенными оценками фактических параметров связи а0, а1. Поэтому необходимо:
проверить значения коэффициентов на неслучайность (т.е. узнать, насколько они типичны для всей генеральной совокупности предприятий отрасли);
определить (с заданной доверительной вероятностью 0,95 и 0,683) пределы, в которых могут находиться значения а0, а1 для генеральной совокупности предприятий.
Для анализа коэффициентов а0, а1 линейного уравнения регрессии используется табл.2.7, в которой:
– значения коэффициентов а0, а1 приведены в ячейках В91 и В92 соответственно;
– рассчитанный уровень значимости коэффициентов уравнения приведен в ячейках Е91 и Е92;
– доверительные интервалы коэффициентов с уровнем надежностиР=0,95 и Р=0,683 указаны в диапазоне ячеек F91:I92.
5.1.1. Определение значимости коэффициентов уравнения
Уровень значимости
– это величина α=1–Р, где Р – заданный уровень надежности (доверительная вероятность).
Режим работы инструмента Регрессия использует по умолчанию уровень надежности Р=0,95. Для этого уровня надежности уровень значимости равен α = 1 – 0,95 = 0,05. Этот уровень значимости считается заданным.
В инструменте Регрессия надстройки Пакет анализа для каждого из коэффициентов а0и а1 вычисляется уровень его значимости αр, который указан в результативной таблице (табл.2.7 термин «Р-значение»). Если рассчитанный для коэффициентов а0, а1 уровень значимости αр, меньше заданного уровня значимости α= 0,05, то этот коэффициент признается неслучайным (т.е. типичным для генеральной совокупности), в противном случае – случайным.
Примечание. В случае, если признается случайным свободный член а0, то уравнение регрессии целесообразно построить заново без свободного члена а0. В этом случае в диалоговом окне Регрессия необходимо задать те же самые параметры за исключением лишь того, что следует активизировать флажок Константа-ноль (это означает, что модель будет строиться при условии а0=0). В лабораторной работе такой шаг не предусмотрен.
Если незначимым (случайным) является коэффициент регрессии а1, то взаимосвязь между признаками X и Y в принципе не может аппроксимироваться линейной моделью.
Вывод:
Для свободного члена а0уравнения регрессии рассчитанный уровень значимости есть αр =0,1. Так как он больше заданного уровня значимости α=0,05, то коэффициент а0признаетсяслучайным.
Для коэффициента регрессии а1 рассчитанный уровень значимости есть αр =/>Так как он меньше заданного уровня значимости α=0,05, то коэффициент а1 признается типичным.
5.1.2. Зависимость доверительных интервалов коэффициентов уравнения от заданного уровня надежности
Доверительные интервалы коэффициентов а0, а1 построенного уравнения регрессии при уровнях надежности Р=0,95 и Р=0,683 представлены в табл.2.7, на основе которой формируется табл.2.9.
Таблица 2.9
Границы доверительных интервалов коэффициентов уравнения
Коэффициенты
Границы доверительных интервалов
Для уровня надежности Р=0,95
Для уровня надежности Р=0,683
нижняя
верхняя
нижняя
верхняя
а0
-1622,1
164,8
-1173,04
-284,3
а1
0,90
1,28
1,00
1,2
Вывод:
В генеральной совокупности предприятий значение коэффициента а0 следует ожидать с надежностью Р=0,95 в пределах-1622,1/>а0/>164,8 значение коэффициента а1 в пределах 0,90/>а1/>1,28. Уменьшение уровня надежности ведет к сужению доверительных интервалов коэффициентов уравнения.
Определение практической пригодности построенной регрессионной модели.
Практическую пригодность построенной модели />можно охарактеризовать по величине линейного коэффициента корреляции r:
близость />к единице свидетельствует о хорошей аппроксимации исходных (фактических) данных с помощью построенной линейной функции связи />;
близость />к нулю означает, что связь между фактическими данными Х и Y нельзя аппроксимировать как построенной, так и любой другой линейной моделью, и, следовательно, для моделирования связи следует использовать какую-либо подходящую нелинейную модель.
Пригодность построенной регрессионной модели для практического использования можно оценить и по величине индекса детерминации R2, показывающего, какая часть общей вариации признака Y объясняется в построенной модели вариацией фактора X.
В основе такой оценки лежит равенство R = r(имеющее место для линейных моделей связи), а также шкала Чэддока, устанавливающая качественную характеристику тесноты связи в зависимости от величины r.
Согласно шкале Чэддока высокая степень тесноты связи признаков достигается лишь при />>0,7, т.е. при />>0,7. Для индекса детерминации R2 это означает выполнение неравенства R2 >0,5.
При недостаточно тесной связи признаков X, Y (слабой, умеренной, заметной) имеет место неравенство />/>0,7, а следовательно, и неравенство />.
С учетом вышесказанного, практическая пригодность построенной модели связи />оценивается по величине R2 следующим образом:
неравенство R2 >0,5 позволяет считать, что построенная модель пригодна для практического применения, т.к. в ней достигается высокая степень тесноты связи признаков X и Y, при которой более 50% вариации признака Y объясняется влиянием фактора Х;
неравенство />означает, что построенная модель связи практического значения не имеет ввиду недостаточной тесноты связи между признаками X и Y, при которойменее 50% вариации признака Y объясняется влиянием фактора Х, и, следовательно, фактор Х влияет на вариацию Y в значительно меньшей степени, чем другие (неучтенные в модели) факторы.
Значение индекса детерминации R2 приводится в табл.2.5 в ячейке В79 (термин "R — квадрат").
Вывод:
Значение линейного коэффициента корреляции r и значение индекса детерминации R2 согласно табл. 2.5 равны: r =0,91, R2 =0,83. Поскольку />и />, то построенная линейная регрессионная модель связи пригодна для практического использования.
Общая оценка адекватности регрессионной модели по F-критерию Фишера
Адекватность построенной регрессионной модели фактическим данным (xi, yi) устанавливается по критерию Р.Фишера, оценивающему статистическую значимость (неслучайность) индекса детерминации R2.
Рассчитанная для уравнения регрессии оценка значимости R2 приведена в табл.2.6 в ячейке F86 (термин «Значимость F»). Если она меньше заданного уровня значимости α=0,05, то величина R2 признается неслучайной и, следовательно, построенное уравнение регрессии />может быть использовано как модель связи между признаками Х и Y для генеральной совокупности предприятий отрасли.
Вывод:
Рассчитанный уровень значимости αр индекса детерминации R2 есть αр=/>. Так как онменьше заданного уровня значимости α=0,05, то значение R2 признаетсятипичным и модель связи между признаками Х и Y />-728,665+1,089х. применима для генеральной совокупности предприятий отрасли в целом.
Оценка погрешности регрессионной модели
Погрешность регрессионной модели можно оценить по величине стандартной ошибки />построенного линейного уравнения регрессии />. Величина ошибки />оценивается как среднее квадратическое отклонение по совокупности отклонений />исходных (фактических) значений yi признака Y от его теоретических значений />, рассчитанных по построенной модели.
Погрешность регрессионной модели выражается в процентах и рассчитывается как величина />.100.
В адекватных моделях погрешность не должна превышать 12%-15%.
Значение />приводится в выходной таблице «Регрессионная статистика» (табл.2.5) в ячейке В81 (термин «Стандартная ошибка»), значение />– в таблице описательных статистик (ЛР-1, Лист 1, табл.3, столбец 2).
Вывод:
Погрешность линейной регрессионной модели составляет />что подтверждает адекватность построенной модели/>-728,665+1,089х
Задача 6. Дать экономическую интерпретацию:
1) коэффициента регрессии а1;
3) остаточных величин />i.
2) коэффициента эластичности КЭ;
6.1. Экономическая интерпретация коэффициента регрессии а1
В случае линейного уравнения регрессии />=a0+a1x величина коэффициента регрессии a1 показывает, на сколько в среднем (в абсолютном выражении) изменяется значение результативного признака Y при изменении фактора Х на единицу его измерения. Знак при a1 показывает направление этого изменения.
Вывод:
Коэффициент регрессии а1 =1,09 показывает, что при увеличении факторного признака Среднегодовая стоимость основных производственных фондов на 1 млн руб. значение результативного признака Выпуск продукции увеличивается в среднем на 1,09 млн. руб.
6.2. Экономическая интерпретация коэффициента эластичности.
С целью расширения возможностей экономического анализа явления используется коэффициент эластичности />, который измеряется в процентах и показывает, на сколько процентов изменяется в среднем результативный признак при изменении факторного признака на 1%.
Средние значения />и />приведены в таблице описательных статистик (ЛР-1, Лист 1, табл.3).
Расчет коэффициента эластичности:
/>
Вывод:
Значение коэффициента эластичности Кэ=1,17 показывает, что при увеличении факторного признака Среднегодовая стоимость основных производственных фондов на 1% значение результативного признака Выпуск продукции увеличивается в среднем на 1,17 %.
6.3. Экономическая интерпретация остаточных величин εi
Каждый их остатков />характеризует отклонение фактического значения yi от теоретического значения />, рассчитанного по построенной регрессионной модели и определяющего, какого среднего значения />следует ожидать, когда фактор Х принимает значение xi.
Анализируя остатки, можно сделать ряд практических выводов, касающихся выпуска продукции на рассматриваемых предприятиях отрасли.
Значения остатков />i (таблица остатков из диапазона А98: С128) имеют как положительные, так и отрицательные отклонения от ожидаемого в среднем объема выпуска продукции />(которые в итоге уравновешиваются, т.е./>).
Экономический интерес представляют наибольшие расхождения между фактическим объемом выпускаемой продукции yi и ожидаемым усредненным объемом />.
Вывод:
Согласно таблице остатков максимальное превышение ожидаемого среднего объема выпускаемой продукции />имеют три предприятия — с номерами 7,14,30, а максимальные отрицательные отклонения — три предприятия с номерами 18, 19, 28. Именно эти шесть предприятий подлежат дальнейшему экономическому анализу для выяснения причин наибольших отклонений объема выпускаемой ими продукции от ожидаемого среднего объема и выявления резервов роста производства.
Задача 7. Нахождение наиболее адекватного нелинейного уравнения регрессии с помощью средств инструмента Мастер диаграмм.
Уравнения регрессии и их графики построены для 3-х видов нелинейной зависимости между признаками и представлены на диаграмме 2.1 Рабочего файла.
Уравнения регрессии и соответствующие им индексы детерминации R2 приведены в табл.2.10 (при заполнении данной таблицы коэффициенты уравнений необходимо указывать не в компьютерном формате, а в общепринятой десятичной форме чисел).
Таблица 2.10 Регрессионные модели связи
Вид уравнения
Уравнение регрессии
Индекс
детерминации R2
Полином 2-го порядка
/>5Е-0,5 х2 +0,670х+ 210,7
0,835
Полином 3-го порядка
/>7E-0,8x3— 0,0009x2+ 5,0506x – 6265,1
0,8381
Степенная функция
/>0,2044x1,1789
0,8371
Выбор наиболее адекватного уравнения регрессии определяется максимальным значением индекса детерминации R2: чем ближе значение R2 к единице, тем более точно регрессионная модель соответствует фактическим данным.
Вывод:
Максимальное значение индекса детерминации R2 =0,8381.Следовательно, наиболее адекватное исходным данным нелинейное уравнение регрессии имеет вид />7E-0,8x3 — 0,0009x2 + 5,0506x – 6265,1
ПРИЛОЖЕНИЕ
Результативные
таблицы и графики
Исходные данные
Номер предприятия
Среднегодовая стоимость основных производственных фондов, млн.руб.
Выпуск продукции, млн. руб.
1
3608,00
3450,50
2
4244,50
3785,50
3
4378,50
4221,00
4
4613,00
4690,00
5
3005,00
2345,00
6
4847,50
4020,00
7
4981,50
5427,00
8
3742,00
3685,00
9
4579,50
4321,50
10
5283,00
5393,50
12
5785,50
5695,00
13
4412,00
4489,00
14
4847,50
4891,00
15
5551,00
5929,50
16
6355,00
6365,00
17
4747,00
4288,00
18
5249,50
5092,00
19
4177,50
3182,50
20
5316,50
4355,00
21
5919,50
5862,50
22
4077,00
3316,50
23
3239,50
3115,50
24
5417,00
4991,50
25
4847,50
4355,00
26
4512,50
4120,50
27
3507,50
2680,00
28
4713,50
4187,50
29
5450,50
4589,50
31
5182,50
4355,00
32
3809,00
3886,00
Таблица 2.2
Зависимость выпуска продукции от среднегодовой стоимости основных фондов
Номер группы
Группы предприятий по стоимости основеных фондов
Число предприятий
Выпуск продукции
Всего
В среднем
на одно
предприятие
1
3005-3675
4
16147,00
4036,75
2
3675-4345
5
19798,50
3959,70
3
4345-5015
11
55543,00
5049,36
4
5015-5685
7
26766,50
3823,79
5
5685-6355
3
12830,50
4276,83
Итого
30
131085,50
4369,52
Таблица 2.3
Показатели внутригрупповой вариации
Номер группы
Группы предприятий по стоимости основеных фондов
Число предприятий
Внутригрупповая дисперсия
1
3005-3675
4
216874,81
2
3675-4345
5
994044,16
3
4345-5015
11
780900,50
4
5015-5685
7
561903,70
5
5685-6355
3
85540,39
Итого
30
Таблица 2.4
Показатели дисперсии и эмпирического корреляционного отношения
Общая дисперсия
Средняя из внутригрупповых дисперсия
Межгрупповая дисперсия
Эмпирическое корреляционное отношение
903163,1081
620585,7564
282577,3517
0,559352496
Выходные таблицы
ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R
0,91318826
R-квадрат
0,833912798
Нормированный R-квадрат
0,827981112
Стандартная ошибка
400,8969854
Наблюдения
30
Дисперсионный анализ
df
SS
MS
F
Значимость F
Регрессия
1
22594778,24
22594778,24
140,5861384
1,97601E-12
Остаток
28
4500115,002
160718,3929
Итого
29
27094893,24
Коэффициенты
Стандартная ошибка
t-статистика
P-Значение
Нижние 95%
Y-пересечение
-728,6655802
436,1611477
-1,670633856
0,10593656
-1622,101178
Переменная X 1
1,089355181
0,09187519
11,85690257
1,97601E-12
0,901157387
Верхние 95%
Нижние 68,3%
Верхние 68,3%
Y-пересечение
164,7700179
-1173,045872
-284,2852881
Переменная X 1
1,277552975
0,995748668
1,182961694
ВЫВОД ОСТАТКА
Наблюдение
Предсказанное Y
Остатки
1
3201,727913
248,7720873
2
3895,102485
-109,6024854
3
4041,07608
179,9239204
4
4296,52987
393,4701305
5
2544,846739
-199,8467386
6
4551,983659
-531,9836595
7
4697,957254
729,0427463
8
3347,701507
337,2984931
9
4260,036471
61,46352902
10
5026,397841
367,1021592
11
5573,798819
121,2011808
12
4077,569478
411,4305218
13
4551,983659
339,0163405
14
5318,345029
611,1549707
15
6194,186595
170,8134052
16
4442,503464
-154,5034638
17
4989,904442
102,0955578
18
3822,115688
-639,6156882
19
5062,891239
-707,8912393
20
5719,772413
142,7275865
21
3712,635493
-396,1354926
22
2800,300529
315,1994715
23
5172,371435
-180,871435
24
4551,983659
-196,9836595
25
4187,049674
-66,54967386
26
3092,247717
-412,247717
27
4406,010065
-218,5100652
28
5208,864834
-619,3648336
29
4916,917645
-561,9176451
30
3420,688304
465,3116959
/>
Рис. 1