--PAGE_BREAK--xфакторов, которая характеризует отклонение эмпирических (фактических) значений результативного признака yiот их выровненных значений yxi.
Соотношение между факторной и общей дисперсиями характеризует меру тесноты связи между признаками xи y
(3)
Этот показатель называется индексом детерминации (причинности). Он выражает долю факторной дисперсии, т.е. характеризует, какая часть общей вариации результативного признака yобъясняется изменением факторного признака x. На основе предыдущей формулы определяется индекс корреляции R:
(4)
Используя правило сложения дисперсий, можно вычислить индекс корреляции.
(5)
При прямолинейной форме связи показатель тесноты связи определяется по формуле линейного коэффициента корреляции r:
(6)
Для оценки значимости коэффициента корреляции rприменяется t-критерий Стьюдента с учетом заданного уровня значимости и числа степеней свободы k.
Если , то величина коэффициента корреляции признается существенной.
Для оценки значимости индекса корреляции Rприменяется F-критерий Фишера. Фактическое значение критерия FRопределяется по формуле:
, (7)
где m– число параметров уравнения регрессии.
Величина FRсравнивается с критическим значением FK, которое определяется по таблице F– критерия с учетом принятого уровня значимости и числа степеней свободы k1=m-1и k2=n-m.
Если FR> FK, то величина индекса корреляции признается существенной.
По степени тесноты связи различают количественные критерии оценки тесноты связи.
Таблица Чэддока
С целью расширения возможностей экономического анализа используются частные коэффициенты эластичности:
(8)
Он показывает, насколько процентов в среднем изменится значение результативного признака при изменении факторного на 1%.
4. Пример для теоретической части
Имеются следующие данные о производстве молочной продукции и стоимости основных производственных фондов по 15 предприятиям Московской области. Произведем синтез адекватной экономико-математической модели между изучаемыми признаками на базе метода наименьших квадратов. С экономической точки зрения сформулируем выводы относительно исследуемой связи.
Зависимость yот xнайдем с помощью корреляционно-регрессионного анализа. Рассмотрим прямолинейную форму зависимости yот x:
Параметры этого уравнения найдем с помощью метода наименьших квадратов и, произведя предварительные расчеты, получим:
Получаем следующее уравнение регрессии:
Далее определим адекватность полученной модели. Определим фактические значения t-критерия для aи a1.
для параметра a0:
для параметра a1:
где στ – среднее квадратическое отклонение результативного признака от выровненных значений ŷ ;
σх – среднее квадратическое отклонение факторного признака x от
общей средней .
Данные подставляем в формулы и получаем:
По таблице распределения Стьюдента я нахожу критическое значение t-критерия для ν= 15-2 = 13. Вероятность α я принимаю 0,05. tтабл равно 2,1604. Так как, оба значения ta0 и ta1 больше tтабл, то оба параметра а0 и а1 признаются значимыми и отклоняется гипотеза о том, что каждый из этих параметров в действительности равен 0, и лишь в силу случайных обстоятельств оказался равным проверяемой величине.
Из полученного уравнения следует, что с увеличением основных производственных фондов на 1 млн. руб., стоимость молочной продукции возрастает в среднем на 1,311 млн. руб.
II.
Расчетная часть
Имеются исходные выборочные данные по организациям одной из отраслей хозяйствования в отчетном году (выборка 20%-ная, бесповторная) о результатах производственной деятельности организаций:
Задание 1.
По исходным данным табл. Исходные данные:
1. Построить статистический ряд распределения организаций по продолжение
--PAGE_BREAK--уровню производительности труда, образовав, пять групп с равными интервалами.
2. Постройте графики полученного ряда распределения.
3. Рассчитайте характеристики ряда распределения: среднюю арифметическую, среднее квадратическое отклонение, коэффициент вариации.
4. Вычислите среднюю арифметическую по исходным данным (табл. Х), сравните её с аналогичным показателем, рассчитанным в п. 3 настоящего задания. Объясните причину их расхождения.
Сделайте выводы по результатам выполнения Задания.
Выполнение Задания 1.
1. Решение:
Для построения интервального ряда распределения определяем величину интервала hпо формуле:
, (1)
где – наибольшее и наименьшее значения признака в исследуемой совокупности,k– число групп интервального ряда.
При заданных k= 5, xmax= 360тыс.руб./чел и xmin= 120 тыс.руб./чел
При h= 48 тыс. руб./чел границы интервалов ряда распределения имеют следующий вид (табл. 1):
Определяем количество организаций, входящих в каждую группу, используя принцип полуоткрытого интервала [ ), согласно которому организации со значениями признаков, служащие одновременно верхними и нижними границами смежных интервалов (168, 216, 264, 312 и 360), будем относить ко второму из смежных интервалов.
Для определения числа организаций в каждой группе строим таблицу 2.
На основе групповых итоговых строк «Всего» табл. 2 формируем итоговую таблицу 3, представляющую интервальный ряд распределения организаций по уровню производительности труда.
Приведем еще три характеристики полученного ряда распределения — частоты групп в относительном выражении, накопленные (кумулятивные) частоты Sj, получаемые путем последовательного суммирования частот всех предшествующих (j-1)интервалов, и накопленные частости, рассчитываемые по формуле
. (2)
Вывод.Анализ интервального ряда распределения изучаемой совокупности организаций показывает, что распределение организаций по уровню производительности труда не является равномерным: преобладают организации с уровнем производительности труда от 216 до 264 тыс.руб./чел (это 12 организаций, доля которых составляет 40%); самая малочисленная группа организаций имеет уровень производительности труда от 120 до 168 тыс. руб./чел, которая включает 3 организации, что составляет 10% от общего числа организаций.
2. Решение:
По данным таблицы 3 (графы 2 и 3) строим график распределения организаций по уровню производительности труда.
продолжение
--PAGE_BREAK--
Рис. 1. График полученного ряда распределения
Мода (Мо) – значение случайной величины, встречающееся с наибольшей вероятностью в дискретном вариационном ряду – вариант, имеющий наибольшую частоту. Наибольшей частотой является число 12. Этой частоте соответствует модальное значение признака, т.е. количество предприятий. Мода свидетельствует, что в данном примере чаще всего встречаются группы предприятий, входящие в интервал от 216 до 264.
В интервальных рядах распределения с равными интервалами мода вычисляется по формуле:
(3)
где хМo– нижняя граница модального интервала,
h– величина модального интервала,
fMo– частота модального интервала,
fMo-1– частота интервала, предшествующего модальному,
fMo+1– частота интервала, следующего за модальным.
Вывод.В данном случае наибольший процент предприятий по уровню производительности труда приходится на интервал от 216 до 264, а само значение средней характеризуется 246 (тыс.руб./чел)
Медиана (Ме) – это вариант, который находится в середине вариационного ряда. Медиана делит ряд на две равные (по числу единиц) части – со значениями признака меньше медианы и со значениями признака больше медианы. Чтобы найти медианы, необходимо отыскать значение признака, которое находится в середине упорядоченного ряда.
Определяем медианный интервал, используя графу 5 табл. 4. Медианным интервалом является интервал 216-264 тыс.руб./чел, т.к. именно в этом интервале накопленная частота Sj=19впервые превышает полу-сумму всех частот .
В интервальных рядах распределения медианное значение (поскольку оно делит всю совокупность на две равные по численности ряды) оказывается в каком-то из интервалов признака х. Этот интервал характерен тем, что его кумулятивная частота (накопленная сумма частот) равна или превышает полу-сумму всех частот ряда. Значение медианы вычисляется линейной интерполяцией по формуле:
(4)
Вывод:Полученный результат говорит о том, что из 30 организаций половина организаций имеют уровень производительности труда менее 248 тыс. руб./чел, а вторая свыше.
3. Решение:
Для расчета характеристик ряда распределения , σ, σ2, Vσна основе табл. 4 строим вспомогательную таблицу 5 (x’j– середина интервала).
Средняя арифметическая взвешенная– средняя сгруппированных величин x1, x2, …, xn– вычисляется по формуле:
(5)
Среднее квадратическое отклонение– это обобщающая характеристика размеров вариации признака в совокупности; оно показывает, на сколько в среднем отклоняются конкретные варианты от среднего значения; является абсолютной мерой колеблемости признака и выражается в тех же единицах, что и варианты, поэтому экономически хорошо интерпретируется.
Рассчитаем среднее квадратическое отклонение, которое равно корню квадратному из дисперсии:
(6)
Рассчитаем дисперсию:
σ2 = 54,14052=2931,2
Коэффициент вариации представляет собой выраженное в процентах отношение средне квадратического отклонения к средней арифметической.
Рассчитаем коэффициент вариации:
(7)
Вывод. Анализ полученных значений показателей и σ говорит о том, что средняя величина уровня производительности труда составляет 248 тыс.руб./чел отклонение от этой величины в ту или иную сторону составляет 54,1405 (или 21,83%), наиболее характерный уровень производительности труда находится в пределах от 194 до 302 тыс.руб./чел (диапазон ).
Значение Vσ= 21,83% не превышает 33%, следовательно, вариация уровня производительности труда в исследуемой совокупности организаций незначительна и совокупность по данному признаку однородна. Расхождение между значениями незначительно (=248 тыс.руб./чел, Мо=246 тыс.руб./чел, Ме=248 тыс. руб./чел), что подтверждает вывод об однородности совокупности организаций. Таким образом, найденное среднее значение уровня типичной производительности является типичной, надежной характеристикой исследуемой совокупности организаций.
4. Решение:
Для расчета средней арифметической по исходным данным по уровню производительности труда применяется формула средней арифметической простой:
, (8)
Причина расхождения средних величин, рассчитанных по исходным данным (247 тыс.руб./чел) и по интервальному ряду распределения (248 тыс.руб./чел), заключается в том, что в первом случае средняя определяется по фактическим значениям исследуемого признака для всех 30-ти организаций, а во втором случае в качестве значений признака берутся середины интервалов хj’и, следовательно, значение средней будет менее точным. Вместе с тем, при округлении обеих рассматриваемых величин их значения совпадают, что говорит о достаточно равномерном распределении уровня производительности труда внутри каждой группы интервального ряда.
Задание 2.
По исходным данным табл. Исходные данные с использованием результатов выполнения Задания 1 необходимо выполнить следующее:
1. Установить наличие и характер корреляционной связи между признаками фондоотдача и уровень производительности труда, образовав пять групп с равными интервалами по каждому из признаков, используя метод аналитической группировки;
2. Измерить тесноту корреляционной связи, между фондоотдачей и уровнем производительности труда с использованием коэффициента детерминации и эмпирического корреляционного отношения.
3. Оценка значимости (неслучайности) полученных характеристик
связи признаков и
Сделать выводы.
Выполнение Задания 2:
По условию Задания 2 факторным является признак Фондоотдача, результативным – признак Уровень производительности труда.
1. Решение:
Аналитическая группировка строится по факторному признаку Х и для каждой j-ой группы ряда определяется средне групповое значение результативного признака Y. Если с ростом значений фактора Х от группы к группе средние значения систематически возрастают (или убывают), между признаками X и Y имеет место корреляционная связь.
Используя разработочную таблицу 2, строим вспомогательную таблицу 6 для проведения в дальнейшем аналитической группировки.
Используя таблицу 6, строим аналитическую группировку, характеризующую зависимость между факторным признаком продолжение
--PAGE_BREAK--Х – Фондоотдача
и результативным признаком Y– Уровень производительности труда.
Групповые средние значения yj получаем из таблицы 6 (графа 5), основываясь на итоговых строках «Всего». Построенную аналитическую группировку представляет табл. 7.:
Вывод.Анализ данных табл. 7 показывает, что с увеличением фондоотдачи от группы к группе систематически возрастает и средний уровень производительности труда по каждой группе организаций, что свидетельствует о наличии прямой корреляционной связи между исследуемыми признаками.
2. Решение:
Коэффициент детерминации характеризует силу влияния факторного (группировочного) признака Х на результативный признак Yи рассчитывается как доля межгрупповой дисперсии признака Yв его общей дисперсии:
, (9)
где – общая дисперсия признака Y, – межгрупповая (факторная) дисперсия признака Y.
Общая дисперсия характеризует вариацию результативного признака, сложившуюся под влиянием всех действующих наYфакторов (систематических и случайных) и вычисляется по формуле
, (10)
где yi– индивидуальные значения результативного признака;
– общая средняя значений результативного признака;
n– число единиц совокупности.
Межгрупповая дисперсия измеряет систематическую вариацию результативного признака, обусловленную влиянием признака-фактора Х(по которому произведена группировка) и вычисляется по формуле:
, (11)
где –групповые средние,
– общая средняя,
–число единиц в j-ой группе,
k– число групп.
Для расчета показателей и необходимо знать величинуобщей средней , которая вычисляется как средняя арифметическая простая по всем единицам совокупности:
, (12)
Значения числителя и знаменателя формулы имеются в табл. 7 (графы 3 и 4 итоговой строки). Используя эти данные, получаем общую среднюю :
Для расчета общей дисперсии применяется вспомогательная табл. 8.
Рассчитаем общую дисперсию по формуле (10):
Для расчета межгрупповой дисперсии продолжение
--PAGE_BREAK-- строим вспомогательную таблицу 9. При этом используются групповые средние значения из табл. 7 (графа 5).
Рассчитаем межгрупповую дисперсию по формуле (11):
Определяем коэффициент детерминации по формуле (9):
Вывод.93,53% вариации уровня производительности труда обусловлено вариацией уровня фондоотдачи, а 6,47% – влиянием прочих неучтенных факторов.
Эмпирическое корреляционное отношение оценивает тесноту связи между факторным и результативным признаками и вычисляется по формуле:
(13)
Рассчитаем показатель :
Для оценки тесноты связи с помощью корреляционного отношения используется шкала Чэддока (см. теоретическую часть стр. 14):
Вывод: согласно шкале Чэддока связь между средним уровнем производительности труда и фондоотдачей по организациям является весьма тесной.
3. Решение:
Показатели и рассчитаны для выборочной совокупности, т.е. на основе ограниченной информации об изучаемом явлении. Поскольку при формировании выборки на первичные данные могли иметь воздействии какие-либо случайные факторы, то есть основание полагать, что и полученные характеристики связи , несут в себе элемент случайности. Ввиду этого, необходимо проверить, насколько заключение о тесноте связи, сделанное по выборке, будет правомерными и для генеральной совокупности, из которой была произведена выборка.
Проверка выборочных показателей на их неслучайность осуществляется в статистике с помощью тестов на статистическую значимость (существенность) показателя. Для проверки значимости коэффициента детерминации служит дисперсионный F-критерий Фишера, который рассчитывается по формуле
, (14)
где n– число единиц выборочной совокупности,
m– количество групп,
– межгрупповая дисперсия,
– дисперсия j-ой группы (j=1,2,…,m),
– средняя арифметическая групповых дисперсий.
Величина рассчитывается, исходя из правила сложения дисперсий:
,
где – общая дисперсия.
Для проверки значимости показателя рассчитанное значение F-критерия Fрасч сравнивается с табличным Fталдля принятого уровня значимости и параметров k1, k2, зависящих от величин nи m: k1=m-1, k2=n-m.Величина Fтаблдля значений , k1,k2определяется по таблице распределения Фишера, где приведены критические (предельно допустимые) величины F-критерия для различных комбинаций значений , k1,k2.Уровень значимости в социально-экономических исследованиях обычно принимается равным 0,05 (что соответствует доверительной вероятности Р=0,95).
Если Fрасч>Fтабл, коэффициент детерминации признается статистически значимым, т.е. практически невероятно, что найденная оценка обусловлена только стечением случайных обстоятельств. В силу этого, выводы о тесноте связи изучаемых признаков, сделанные на основе выборки, можно распространить на всю генеральную совокупность.
Если FрасчFтабл, то показатель считается статистически незначимым и, следовательно, полученные оценки силы связи признаков относятся только к выборке, их нельзя распространить на генеральную совокупность.
Фрагмент таблицы Фишера критических величин F-критерия для значений =0,05; k1=3,4,5; k2=24-35 представлен ниже:
Таблица 10
k2
k1
24
25
26
27
28
29
30
31
32
33
34
35
3
3,01
2,99
2,98
2,96
2,95
2,93
2,92
2,91
2,90
2,89
2,88
2,87
4
2,78
2,76
2,74
2,73
2,71
2,70
2,69
2,68
2,67
2,66
2,65
2,64
5
2,62
2,60
2,59
2,57
2,56
2,55
2,53
2,52
2,51
2,50
2,49
2,48
Рассчитаем дисперсионный F-критерия Фишера для оценки =93,53%, полученной при =3386,83; =3167,73 по формуле (14):
Fрасч
Табличное значение F-критерия при = 0,05:
n
m
k1=m-1
k2=n-m
Fтабл(,4, 25)
30
5
4
25
2,76
ВЫВОД: поскольку Fрасч>Fтабл, то величина коэффициента детерминации =93,53% признается значимой (неслучайной) с уровнем надежности 95% и, следовательно, найденные характеристики связи между признаками фондоотдача иуровнем производительности труда правомерны не только для выборки, но и для всей генеральной совокупности фирм.
Задание 3:
По результатам выполнения Задания 1 с вероятностью 0,683 определите:
1. ошибку выборки среднего уровня производительности труда и границы, в которых будет находиться средний уровень производительности труда в генеральной совокупности.
2. ошибку выборки доли организаций с уровнем производительности труда 264 тыс. руб. и более и границы, в которых будет находиться генеральная доля.
Выполнение Задания 3.
1. Решение:
Применяя выборочный метод наблюдения, необходимо рассчитать ошибки выборки (ошибки репрезентативности), т.к. генеральные и выборочные характеристики, как правило, не совпадают, а отклоняются на некоторую величину ε.
Принято вычислять два вида ошибок выборки — среднюю и предельную продолжение
--PAGE_BREAK--.
Для расчета средней ошибки выборки применяются различные формулы в зависимости от вида и способа отбора единиц из генеральной совокупности в выборочную.
Для собственно-случайной и механической выборки с бесповторным способом отбора средняя ошибка для выборочной средней определяется по формуле
, (15)
где – общая дисперсия изучаемого признака,
N– число единиц в генеральной совокупности,
n– число единиц в выборочной совокупности.
Предельная ошибка выборки определяет границы, в пределах которых будет находиться генеральная средняя:
,
, (16)
где – выборочная средняя,
– генеральная средняя.
Предельная ошибка выборки кратна средней ошибке с коэффициентом кратности t(называемым также коэффициентом доверия):
(17)
Коэффициент кратности tзависит от значения доверительной вероятности Р, гарантирующей вхождение генеральной средней в интервал, называемый доверительным интервалом.
Наиболее часто используемые доверительные вероятности Р и соответствующие им значения tзадаются следующим образом (табл. 11):
Таблица 11
По условию Задания 2 выборочная совокупность насчитывает 30 организаций, выборка 20% бесповторная, следовательно, генеральная совокупность включает 150 организаций. Выборочная средняя , дисперсия определены в Задании 1 (п. 3). Значения параметров, необходимых для решения задачи, представлены в табл. 12:
Таблица 12
Рассчитаем среднюю ошибку выборки по формуле (15):
Рассчитаем предельную ошибку выборки по формуле (17):
тыс.руб./чел
Определим доверительный интервал для генеральной средней по формуле (16):
248- 8,8411248+8,8411
239тыс.руб/чел 257 тыс.руб./чел
Вывод.На основании проведенного выборочного обследования с вероятностью 0,683 можно утверждать, что для генеральной совокупности организаций средняя величина среднего уровня производительности труда находится в пределах от 239 до 257 тыс.руб./чел.
2. Решение:
Доля единиц выборочной совокупности, обладающих тем или иным заданным свойством, выражается формулой
, (18)
где m– число единиц совокупности, обладающих заданным свойством;
n– общее число единиц в совокупности.
Для собственно-случайной и механической выборки с бесповторным способом отбора предельная ошибка выборки доли единиц, обладающих заданным свойством, рассчитывается по формуле
, (19)
где w– доля единиц совокупности, обладающих заданным свойством;
(1-w)– доля единиц совокупности, не обладающих заданным свойством,
N– число единиц в генеральной совокупности,
n– число единиц в выборочной совокупности.
Предельная ошибка выборки определяет границы, в пределах которых будет находиться генеральная доля рединиц, обладающих исследуемым признаком:
(20)
По условию Задания 3 исследуемым свойством организаций является равенство или превышение среднего уровня производительности труда 264 тыс. руб/чел.
Число организаций с данным свойством определяется из табл. 2 (графа 2):
m=11
Рассчитаем выборочную долю по формуле (18):
Рассчитаем предельную ошибку выборки для доли по формуле (19):
Определим доверительный интервал генеральной доли по формуле (20):
0,32 0,48
или
32% 48%
Вывод.С вероятностью 0,683 можно утверждать, что в генеральной совокупности организаций региона доля организаций с средним уровнем производительности труда 264 тыс.руб./чел и более будет находиться в пределах от 32% до 48%.
Задание 4.
По результатам расчетов заданий 1 и 2 найдите уравнение корреляционной связи между фондоотдачей и производительностью труда, изобразите корреляционную связь графически.
Для определения тесноты корреляционной связи рассчитайте коэффициент корреляции. Сделайте выводы.
Выполнение задания 4.
1. Решение:
Имеются данные по 30 предприятиям по уровню производительности труда и фондоотдачи.
Уравнение корреляционной связи (уравнение регрессии, модели) выражает количественное соотношение между факторным (x – фондоотдача) и результативным (y– уровень производительности труда) признаками. Рассмотрим прямолинейную форму зависимости yот x:
Поскольку для установления наличия корреляционной связи между признаками применялся метод аналитической группировки, то параметры для уравнения регрессии рационально определить по сгруппированным данным (табл. 7). В таком случае система нормальных уравнений для уравнения прямой будет иметь вид:
(21)
где – групповые средние результативного признака, x– середина интервалов факторного признака. Используя данные табл. 7 строим расчетную таблицу 13, чтобы получить численные значения параметров уравнения регрессии а0 и а1:
Данные подставим в систему уравнений (21) и решим:
Итак, получилось, что а0= -388,45, а а1=580,92. Нас интересует именно параметр а1, показывающий изменение результативного признака при изменении факторного признака на единицу. Коэффициент регрессии показывает, что при увеличении фондоотдачи на единицу значение уровня производительности труда увеличивается в среднем на 580,92 тыс.руб./чел
Итак, уравнение корреляционной связи между фондоотдачей и производительностью труда выглядит так:
В моей работе графически корреляционная связь выглядит так
продолжение
--PAGE_BREAK--