Статистическое изучение взаимосвязей
Содержание
1. Сущность корреляционной связи
2. Статистические методы выявления наличия корреляционнойсвязи между признаками
3. Измерение степени тесноты корреляционной связи междудвумя признаками
4. Уравнение регрессии и способыего расчета
1. Сущность корреляционной связи
Изучение действительности показывает, что каждоеобщественное явление находится в тесной связи и взаимодействии с другимиявлениями. Так, например, уровень производительности труда работников будетзависеть от степени совершенства применяемого оборудования технологии,организации производства труда и управления и других факторов. Именно изучениетакой зависимости окружающих условий на вариацию признака и составляетсодержание теории корреляции.
При изучении конкретных зависимостей одни признаки выступаютв качестве факторов, обуславливающих изменение других признаков и называютсяпризнаками — факторами (факторными признаками). Признаки, которые являютсярезультатом влияния этих факторов называются результатами. Например,производительность труда — результирующий признак.
Рассматривая зависимости между признаками, необходимовыделить прежде всего две категории зависимостей:
1) зависимости функциональные;
2) зависимости корреляционные.
Функциональная характеризуется полным соответствием междуизменением причины и изменением результативной величины и соответствием каждомузначению признака — фактора определенного результативного признака.
В корреляционных связях между изменением факторного ирезультативного признаков нет полного соответствия и влияние отдельных факторовпроявляется лишь в среднем при массовом наблюдении факторов, поскольку каждомузначению факторного признака может соответствовать распределение значений результативногопризнака. Одновременное воздействие на изучаемый признак большого количествасамых разнообразных факторов приводит к тому, что одному и тому же значениюпризнака фактора будет соответствовать целое распределение значенийрезультативного признака, поскольку в каждом конкретном случае прочие факторныепризнаки могут изменять силу и направление своего воздействия.
Сравнивая между собой функциональные и корреляционныезависимости следует принять во внимание, что при наличие корреляционной зависимостиустанавливается только тенденция изменения результативного признака приизменении величины факторного признака.
При исследовании корреляционных зависимостей междупризнаками решению подлежит широкий круг вопросов, к которым следует отнести:
1. предварительный анализ свойств совокупностиединиц;
2. установление фактора наличия связи,определения ее направления и формы;
3. изменение степени точности связи междупризнаками;
4. построение регрессионной модели;
5. оценка модели, ее экономическое обоснованиеи практическое применение.
Чтобы результаты корреляционного анализа нашли практическоеприменение, должны выполняться определенные требования в отношении отбораобъекта исследования и признаков — факторов.
1. однородность единиц, подвергающихсяизучению методами корреляционного анализа;
2. оценка однородности исследуемойсовокупности при помощи показателей вариации (коэффициентов вариации);
3. достаточное число наблюдений;
4. независимость друг от друга факторныхпризнаков;
5. нормальный характер распределенияисследуемых признаков;
6. количественное выражение факторныхпризнаков, что дает возможность составить модель корреляционной зависимости.
2. Статистические методы выявления наличиякорреляционной связи между признаками
Для выявления наличия или отсутствия корреляционной связииспользуется ряд методов:
1. параллельное сопоставление рядов значений результативногои факторного признаков. При этом значения факторного признака располагают ввозрастающем порядке, а затем прослеживают направление изменениярезультативного. Результативный признак будет — Y, афакторный — Х;
2. построение групповой и корреляционной таблиц.;
3. дисперсионный анализ.
Результативный признак функцию обозначаем через Y, факторныйпризнак через Х. Например, по 20 партиям деталей была установлена величинасреднего времени межоперационных перерывов между двумя смежнымитехнологическими операциями и величина средней занятости рабочего меставыполнением одной операции.
Таблица 1№ партии деталей Средняя занятость рабочего места, ч Среднее время межоперационных перерывов, ч № партии деталей Средняя занятость рабочего места, ч Среднее время межоперационных перерывов, ч 1 0,22 1,46 11 0,26 0,69 2 0,22 1,12 12 0,30 0,80 3 0,22 1,18 13 0,30 0,61 4 0,24 0,82 14 0,30 0,95 5 0,24 1,26 15 0,30 0,73 6 0,24 0,90 16 0,32 0,50 7 0,24 1,02 17 0,32 0,37 8 0,24 1,08 18 0,32 0,47 9 0,26 0,57 19 0,32 0,32 10 0,26 1,37 20 0,32 0,36
Параллельное сопоставление позволяет установить, чтоувеличение средней занятости рабочего места влечет за собой уменьшение среднеговремени межоперационных перерывов, хотя в отдельных случаях наличие отмеченнойзависимости может и не усматриваться.
Однако наличие большого числа различных значенийрезультативных признаков, соответствующих одному и тому же значению признака — фактора затрудняет восприятие таких рядов, поэтому для установления фактаналичия связи пользуются корреляционными или групповыми таблицами.
В корреляционной таблице факторный признак Х располагается встроках, а результат Y в колонках таблицы. Числа расположенные на пересечениистрок и столбцов показывают частоту повторений данного сочетания значений Х и Y.
Построим корреляционную таблицу 2, в которой Х — средняязанятость рабочего места (факторный признак); Y — среднее время межоперационныхперерывов (результативный признак).
Среднее время
межоперац.
перерывов.
Средняя Группа
Занятость поY
/>по Х 0,32 -0,55 0,55 — 0,78 0,78 — 1,01 1,01 — 1,24 1,24 — 1,47
/>
/> Середина интервала 0,435 0,665 0,895 1,125 1,355
0,22
0,24
0,26
0,30
0,32 5
2
2
2
2
2
2
1
1
1
3
5
3
4
5
1, 202
1,079
0,895
0,780
0,435
/> 5 4 4 4 3 20
/> - среднеезначение результатов признака;
/> - частота повторений данного варианта значений факторногопризнака во всей совокупности;
/> - частота повторений значений результатов признака во всейсовокупности.
Для результатов признака необходимо определить величину интервалапо формуле Стреджесса
/>,
/>.
Среднее время межоперационных перерывов для партии деталейимеющих среднюю занятость рабочего места 0,223
/> и т.д.
Корреляционная таблица уже при общем знакомстве даетвозможность выдвинуть предложение о наличии или отсутствии связи, а такжевыявить ее направление.
Если частота в корреляционной таблице расположена подиагонали из левого верхнего угла в правый нижний угол (т.е. большим значениямХ соответствует большее значение Y) можно предположитьо наличии прямой корреляционной зависимости, если наоборот то обратной. Т.о. уменьшениесредних значений результативного признака с увеличением значения факторногопризнака еще раз свидетельствует о обратной корреляционной зависимости среднеговремени межоперационных перерывов партии деталей от средней занятости рабочегоместа. Другим приемом обнаружения связи является построение групповой таблицы 3.Все наблюдения разбиваем на группы в зависимости от величины признака — фактораи по каждой группе вычисляем среднее значение результативного признака. Группы партий деталей по уровню средней занятости Сумма значений результативного признака в группе Число партий деталей в группе Среднее значение результативного признака в группе 0,22 3,76 3 1,253 0,24 5,08 5 1,016 0,26 2,63 3 0,877 0,30 3,09 4 0,773 0,32 2,02 5 0,404 Итого 16,58 20 0,829
Сравнив средние значения результирующего признака по группамможно также сделать вывод, что рост средней занятости рабочего места влечет засобой снижение величины межоперационных перерывов, т.е. можно сказать имеетместо обратная корреляционная связь.
Если бы связи между факторными и результативными признакамне было, то все групповые средние были бы приблизительно одинаковы по величине.Оценка существенности расхождения групповых средних лежит в основеиспользования метода дисперсионного анализа для выявления наличия и оценкисвязи.
Для предварительного выявления связи и раскрытия еехарактера применяют графический метод. Используя данные таблицы 1 построитьточечный график, который называют поле корреляции.
Нанеся данные таблицы 3 и соединяя последовательно отрезкамипрямых соответствующих им точек, получим эмпирическую линию связи.
Если эмпирическая линия приближается к прямой, — предполагают наличие прямолинейной корреляционной связи, если к какой либокривой, то это может быть связано с наличием криволинейной корреляционной связи.
3. Измерение степени тесноты корреляционной связимежду двумя признаками
Показатели тесноты связи дают возможность охарактеризоватьстепень зависимости вариации результативного признака от вариации признака — фактора.
Зная показатели тесноты корреляционной связи можно ответитьна следующие группы вопросов.
1. о необходимости изучения данной связи между признаками ицелесообразности ее практического применения;
2. о степени различий тесноты связи в ее проявлении дляконкретных условий;
3. сопоставляя показатели тесноты связи результативногопризнака с различными факторами, можно выявить те факторы, которые в данныхконкретных условиях являются решающими.
К простейшим показателям тесноты связи относится коэффициенткорреляции знаков (коэффициент Г. Фехнера), основанный на оценке степенисогласованности направлений отклонений индивидуальных значений факторного ирезультативного признаков от соответствующей средней.
Если обозначить /> - числосовпадений знаков отклонений индивидуальных величин от средней, /> - число несовпадений,тогда коэффициент Фехнера будет иметь вид:
/> />
Если знаки всех отклонений совпадут то /> и /> - свидетельствует оналичие прямой связи, если все знаки не совпадают, тогда /> и /> - наличие обратной связи.
Рассмотрим расчет /> напримере
/>
№
партии Средняя занятость рабочего места Среднее время межоперационного перерыва, ч, у Знак отклонения от средней
Совпадение (а) или несовпадение (в)
для х
для у 1 0,22 1,46 - +
в 2 0,22 1,12 - +
в 3 0,22 1,18 - +
в 4 0,324 0,82 - -
а 5 0,24 1,26 - +
в 6 0,24 0,90 - +
в 7 0,24 1,02 - +
в 8 0,24 1,08 - +
в 9 0,26 0,57 - -
а 10 0,26 1,37 - +
в 11 0,26 0,69 - -
а 12 0,30 0,80 + -
в 13 0,30 0,61 + -
в 14 0,30 0,95 + +
а 15 0,30 0,73 + -
в 16 0,32 0,50 + -
в 17 0,32 0,37 + -
в 18 0,32 0,47 + -
в 19 0,32 0,32 + -
в 20 0,32 0,36 + -
в Итого 5,44 16,58
Получаем:
/> = 4, /> = 16,
Тогда
/>,
что свидетельствует от наличии
обратной зависимости.
При малом объеме исходной информации коэффициент Фехнераотвечает также на вопрос о наличии связи.
Более современным показателем степени тесноты связи являетсялинейный коэффициент корреляции r.
При расчете этого показателя учитывается не только знакиотклонений индивидуальных значений от средней, но и сами величины такихотклонений, т.е. />. Однаконепосредственно сопоставить полученные абсолютные величины нельзя, т.к ониобычно выражаются в разных единицах. Поэтому сравнению могут подлежатьотклонения выраженные в относительных величинах, обычно в долях среднегоквадратичного отклонения (нормируемые отклонения).
Так для факторного признака эта величина будет равна />, а для результативного />;
Для того, чтобы на основе сопоставления рассчитанныхнормируемых отклонений получить обобщающую характеристику степени тесноты связимежду признаками рассчитывают среднее произведение нормированных отклонений. Полученнаятаким образом средняя и является линейным коэффициентом корреляции r
/>/>;
преобразовав формулу:
/>;
Далее
/>.
Линейный коэффициент принимает значения от — 1 до +1.
Чем ближе коэффициент r по абсолютной величине к 1, тем теснеекорреляционная связь. Положительный знак r указывает на прямопропорциональную зависимость, а отрицательный на обратно. пропорциональнуюзависимость.
Для примера рассчитаем r
/>
/>
/>
/>
Полученная величина свидетельствует о достаточно теснойвзаимосвязи между рассматриваемыми признаками.
Квадрат линейного коэффициента называется коэффициентомдетерминации. Для примера /> Этоозначает, что /> вариации временимежоперационных перерывов объясняется вариацией средней занятости рабочегоместа выполненной одной операцией.
При исследовании степени тесноты связи между качественнымипризнаками, каждый из которых представлен в виде альтернативного признака,используют коэффициент ассоциации. Например, нужно оценить влияют лисуществующие формы повышения квалификации бухгалтеров на уровень ихпрофессионального мастерства. Располагая данными о результатах аттестацииэкспертами 320 бухгалтеров, из которых 240 повысили квалификацию, составляемследующую таблицу. Группы преподавателей Средний балл по сравнению с предыдущим результатом аттестации Всего
Не изменился,
и вырос Снизился Повысившие квалификацию
163 (а)
77 (b) 240 Не прошедшие повышение квалификации
43 (c)
34 (d) 80 Всего 209 111 320
Построенная в такой форме таблица носит название таблицы“четырех полей", частоты которых обозначим соответственно а, b, c, d/
Коэффициент ассоциации />определяемпо формуле
/>.
В проводимом примере этот коэффициент равен
/>
Таким образом, по данным обследования вряд ли можно сделатьо существенном повышении профессионального мастерства по одной из принятых форм(стажировка, курсы, факультативы, творческий отпуск и т.д.).4. Уравнение регрессии и способы его расчета
Изучение корреляционных зависимостей основывается наисследовании таких связей между переменными, при которых значения однойпеременной изменяются в зависимости от того, какие значения принимает другаяпеременная, рассматриваемая как причина по отношению к зависимой переменной.
Определяя средние значения результативного признака дляданной группы значений признака отчасти элиминируется влияние случайностей. Вычисляяпараметры теоретической линии связи, производится их дальнейшее элиминированиеи результатом является однозначное изменение Y сизменением фактора Х.
Теоретической линией регрессии называется та линия, вокругкоторой группируется точки корреляционного поля и которая указывает основноенаправление, основную тенденцию связи.
Эта линия должна быть проведена так, что бы сумма отклоненийточек поля корреляции от соответствующей теоретической линии регрессииравнялась нулю, а сумма квадратов этих отклонений была бы минимальной величиной.
Важным этапом регрессионного анализа является определениетипа функции, с помощью которой характеризуется зависимость между признаками. Наиболеечасто для характеристики связей экономических явлений используют следующие типыфункций:
линейную />;
гиперболическую />;
параболическую />;
степенную />
В рассматриваемом примере линии регрессии больше всего приближаетсяк прямой и следовательно, теоретическая линия регрессии может быть представленауравнением прямой
/>;
Для нахождения параметров а и b уравнения регрессии используем метод наименьших квадратов.
Критерий методов наименьших квадратов можно записать такимобразом
/>
т.к />, то
/>
После преобразований с используем производных получимсистему уравнений способа наименьших квадратов для определения параметров аи b уравнения линейной корреляционной связи.
/>
Используя данные таблиц 3 и 4 можно записать системууравнений
/>/>
Параметр b в уравненииназывают коэффициентом регрессии. При наличии прямой корреляционной зависимостикоэффициент регрессии имеет положительное значение, а в случае обратной — коэффициент регрессии отрицательный.
Коэффициент регрессии показывает, насколько в среднемизменится величина результативного признака Y приизменении факторного признака Х на единицу.
Зная линейный коэффициент корреляции можно определитькоэффициент регрессии b по следующей формуле
/>,
где />, /> - средне квадратичноеотклонение результативного и факторного признаков.
Наличие этого соотношения дает возможность производитьвычисление коэффициента корреляции и параметров уравнения линейной регрессииодновременно.
Расчет показателей по не сгруппированным данным приводит кследующим результатам
/> = 0,0386, /> = 0,3461, r = — 0,812
тогда />
и />
и уравнение линейной регрессии примет вид:
/> = 2,8091 — 7,28х
коэффициент регрессии применяют для определения коэффициентаэластичности, который показывает на сколько процентов в среднем изменитсявеличина результативного признака Y при изменениипризнака — фактора Х на один процент.
Для определения коэффициента эластичности используетсяформула
/>
/>
Это означает, что при расчете средней занятости рабочегоместа на 1% величина межоперационных перерывов снизится на 2,389%.
Значение корреляционной зависимости между двумя переменнымиимеет существенное практическое значение, т.к дает возможность составитьпрогноз значений результирующего признака в предположении, что признак — факторимеет определенное значение.