ЗАДАЧА № 1
Найти значения коэффициента регрессии (b) и сводного члена уравнения регрессии (а)
Определить стандартную ошибку предсказания являющейся мерой качества реальной зависимости величинами Y и х с помощью уравнения линейной регрессии.
Проверить значимость коэффициента регрессии при р=0,05
/>Определить выборочный коэффициент Браве-Пирсона. Проверить гипотезу о значимости выборочного коэффициента корреляции при уровне значимости р=0,05.
X
1
2
3
4
5
6
7
8
9
10
Y
8.013
12.933
19.85
20.503
28.228
24.741
33.105
32.04
32.914
36.473
Линейная регрессия
Простая линейная регрессия позволяет найти линейную зависимость между одной входной и одной выходной переменными. Для этого определяется уравнение регрессии – это модель, отражающая зависимость значений Y, зависимой величины Y от значений х, независимой переменной х и генеральной совокупности, описывается уровнением:
где А0 – свободный член уравнения регрессии;
А1 – коэффициент уравнения регрессии
Затем строится соответствующая прямая, называемая линией регрессии. Коэффициенты А0 и А1, называемые также параметрами модели, выбираются таким образом, чтобы сумма квадратов отклонений точек, соответствующих реальным наблюдениям данных, от линии регрессии, была бы минимальной. Подбор коэффициентов производится по методу наименьших квадратов. Иными словами, простая линейная регрессия описывает линейную модель, которая наилучшим образом аппроксимирует зависимость между одной входной и одной выходной переменными.
Цели регрессионного анализа
Определение наличия и характера (математического уравнения, описывающего зависимость) связи между переменными
Определение степени детерминированности вариации критеральной переменной предикторами
Предсказать значение зависимой переменной с помощью независимой
Определить вклад независимых переменных в вариацию зависимой
Найдем значения коэффициента регрессии (А) и сводного члена уравнения регрессии (А)
Представление исходной информации в виде векторов
Определение суммы элементов векторов и произведений векторов:
/>
/>
/>
/>
Определение параметров уравнения регрессии
/>
/>
/>
Свободный член уравнения регрессии А
Коэффициент уравнения регрессии А
Графическое изображение линии уравнения регрессии и точек кор-реляции
/>
/>
Определим параметры уравнения регрессии А и Ас помощью встроенных функций системы MathCad
intercept (X,Y) — коэффициент Алинейной регрессии;
slope (X,Y) — коэффициент А линейной регрессии;
corr(X,Y) — коэффициент корреляции
Определение свободного члена уравнения регрессии Ас помощью встроенной функции intercept(X.Y)--PAGE_BREAK--
/>
/>
Определение коэффициента уравнения регрессии А с помощью встроенной функции slope(X.Y)
/>
/>
Определим коэффициент корреляции R с помощью встроенной функции corr(X,Y)
Определим стандартную ошибку предсказания являющейся мерой качества реальной зависимости величинами Y и х с помощью уравнения линейной регрессии.
Мерой качества приближенного описания реальной зависимости между величинами Y и х с помощью уравнения линейной регрессии является стандартное отклонение значений у от регрессионной прямой, вычисляемое по формуле:
/>
SYX является мерой точности предсказания значений случайной величины Y по заданным значениям величины х, поэтому SYX называют также стандартной ошибкой предсказания.
Найдем стандартную ошибку предсказания для нашего примера:
/>
Проверим значимость коэффициента регрессии при р=0,05
Если в результате проведенной проверки нет оснований сомневаться в адекватности линейной модели, то необходимо проверить гипотезу о том, что в действительности в генеральной совокупности отсутствует линейная регрессия, а то, что полученный коэффициент регрессии отличен от нуля объясняется только случайностью выборки.
Гипотеза Нпроверяется с помощью стандартного t-критерия Стьюдента. Значение t-критерия определяется по формуле:
/>
где А1 – абсолютная величина коэффициента регрессии,
SYX– стандартная ошибка предсказаний.
Если значения t>tp, то нулевая гипотеза отклоняется, и можно сделать вывод, что линейная регрессия значима на уровне значимости р. Зададимся уровнем значимости р=0,05. В противном случае гипотеза Нпринимается
Оценим значимость коэффициента регрессии при уровне значимости р=0,05.
Подставим найденные ранее значения в формулу и определим значение t-критерия.
/>
/>
/>
t0.05=2.306
Поскольку t>t0.05, то на уровне значимости 0,05 отклонением гипотезу Н, т.е. коэффициент регрессии является статистически значимым.
1.4 Определим выборочный коэффициент Браве-Пирсона. Проверим гипотезу о значимости выборочного коэффициента корреляции при уровне значимости р=0,05.
Коэффициент корреляции Браве-Пирсона (RXY) — это параметри-ческий показатель, для вычисления которого сравнивают средние и стандартные отклонения результатов двух измерений.
/>
где Xi, Yi— значения первой и второй выборок данных;
Xsr, Ysr — средние значения первой и второй выборок.
/>
/>
/>
/>
/>
/>
/>
Проверим гипотезу о значимости выборочного коэффициента корреляции при уровне значимости р=0,05
/>
/>
Поскольку t>t0.05, то на уровне значимости 0,05 отклонением гипотезу Н, т.е. коэффициент регрессии является статистически значимым.
ЗАДАЧА №2
При уровне значимости р=0,05 методом дисперсионного анализа проверить эффективность воздействия рентгеновского облучения на темп размножения определенного вида бактерий по данным, приведенным по таблице, где представлен относительный уровень (в процентах) размножения облученных бактерий к необлученным.
Номер испытания
Дозы облучения F, 10P
F1=1
F2=2
F3=3
F4=4 продолжение
--PAGE_BREAK--
1
87
83
77
2
91
85
76
3
97
86
82
77
4
92
88
84
79
5
95
80
81
В процессе медико-биологических исследований часто возникает потребность оценить влияние на какой-нибудь результативный признак одного или нескольких факторов.
Одним из современных статических методов, которые дают возможность проводить специальный анализ эффективности влияния многих факторов, является дисперсионный анализ. С помощью этого метода оценивают также вероятность влияния каждого из рассматриваемых факторов, их комбинации и общей совокупности. Важным преимуществом дисперсионного анализа является возможность определения вероятных расхождений в небольших группах экспериментальных данных, когда какой-нибудь другой метод может дать не определенный ответ. Это связано с тем, что в других методах проводится сравнение изолированных групп. Объединение отдельных групп в дисперсионный комплекс дает возможность четче выявить наличие расхождений, потому что при таком объединении выявлению расхождений каждой группы содействуют все другие группы комплекса.
Смысл дисперсионного анализа заключается в сопоставлении между собой показателей варьирования результативных признаков, которое служит причиной действия постоянных и случайных факторов. В зависимости от числа факторов, которые учитываются при дисперсионном анализе, статистические комплексы делятся на:
однофакторный дисперсионный анализ с одинаковым числом испытаний на уровнях;
однофакторный дисперсионный анализ с неодинаковым числом испытаний на уровнях;
двухфакторный дисперсионный анализ
Ниже будет рассмотрен пример однофакторного дисперсионного анализа с неодинаковым числом испытаний на уровнях.
Неодинаковое число испытаний на уровнях.
Если число испытаний проведенных на различных уровнях действия фактора, различно, а именно: на уровне А1проведено q1испытаний, на уровне А2— q2испытаний и т. д. на уровне Аi– qiиспытаний, то факторную и остаточную дисперсии находят по следующим формулам:
/>
/>
Здесь
/>
— общее количество результатов испытаний
/>
— сумма значений величины Х на уровне Аj;
/>
— сумма квадратов значений величины Х на уровне Аj
Определим величины:
Предполагая, что распределения значений, характеризующих эффективность рентгеновского облучения, при каждом испытании является нормальными, а соответствующие генеральные дисперсии равны, применим метод однофакторного дисперсионного анализа.
/>
/>
/>
/>
/>
Найдем общее количество результатов испытаний:
/>
/>
Определим сумму значений величины х на уровне Аj:
/>
/>
Определим сумму квадратов значений величины х на уровне Аj
/>
/>
Теперь можно определить факторную и остаточную дисперсии по следующим формулам:
/>
/>
/>
/>
Поскольку /> следует проверить значимость различий между этими дисперсиями. Для этого вычисляем экспериментальное значение критерия
/>
/>
/> продолжение
--PAGE_BREAK--
/>
/>
/>
Так как />это различие между факторной и остаточной дисперсиями является значимым (при уровне значимости р=0,05). В соответствии с методом дисперсионного анализа нулевую гипотезу о равенстве групповых средних следует отвергнуть, т. е. различия между групповыми средними значимы, что соответствует наличию существенного различий между эффективностью воздействия рентгеновского облучения на темп размножения бактерий.
Вывод:Можно утверждать, что рассматриваемый физический фактор оказывает существенное влияние на размножение бактерий.
ЗАДАЧА №3
Для заданной таблицы данных:
X
1
2
3
4
5
6
7
8
9
10
Y
7.628
6.153
5.519
5.602
5.47
5.012
5.075
4.964
4.902
5.128
С помощью функции genfit – системы MathCad провести нелинейную ре-гресссию общего вида для
f(x)=ax+b/x;
f1(x)=ax+bx+c;
f3(x)=a/>+ab
Под нелинейной регрессией общего видаподразумевается нахождение вектора Р параметров произвольной функции F (x, u1, u2, ..., un), при котором обеспечивается минимальная среднеквадратичная погрешность приближения “облака” исходных точек. Для проведения нелинейной регрессии общего вида используется функция genfit (X, Y, S, F1). Она возвращает вектор Р параметров функции F, дающий минимальную среднеквадратичную погрешность приближения функцией F(x, u1, u2, ..., un) исходных данных. F должен быть вектором с символьными элементами, причем они должны содержать аналитические выражения для исходной функции и ее производных по всем параметрам. Вектор S должен содержать начальные значения элементов вектора P, необходимые для решения системы нелинейных уравнений регрессии итерационным методом.
При решении этой задачи возникают две проблемы. Прежде всего, надо вычислить значения производных по переменным а и b. Это может быть cделано с помощью символьных операций, что наглядно показывает пользу от таких операций. Вторая проблема связана с необходимостью применения функции genfit в ее стандартном виде. Поэтому пришлось заменить параметр а на u1, а параметр b на u2и т. д..
Пример использования метода в среде MathCad:
І СПОСОБ (Для функции -f1(x)=ax+bx+c)
/>/>/>
Вводим результаты измерений величин X и Y:
/>
/>
Выбрав функцию приближения
/>/>
где a, b — искомые коэффициенты регрессии,
/>
найдем частные производные этой функции по коэффициентам регрессии:
по а:
/>
по b:
/>
по с:
1
Введем вектор, элементами которого являются функция приближения и её производные, переобозначив коэффициенты регрессии
u1=a,
u2=b,
u3=c:
вектор F1 должен быть вектором с символьными элементами, причем они должны содержать аналитические выражения для исходной функции и ее производных по всем параметрам.
/>
4) Вводим вектор с начальными приближениями коэффициентов регрессии (вектор S должен содержать начальные значения элементов вектора u):
/>
5) С помощью функции genfit(Х,Y,S,F1), найдем значения коэффициентов регрессии a, b,
гдеX и Y — векторы экспериментальных данных, продолжение
--PAGE_BREAK--
S — вектор с начальными приближениями коэффициентов регрессии,
F1 — вектор F1(x,u)
/>
/>
6) Подставляя найденные значения коэффициентов регрессии в первый элемент вектора F1(x,u), определите искомую функцию приближения экспериментальных данных (уравнение регрессии):
/>/>
7) Построим линию регрессии и график экспериментальных данных:
/>
ІІ СПОСОБ (Для этой же функции - f2(x)=ax+bx+c )
Найдем параметров a, bпо следующей системе нормальных уравнений:
/>
/>
/>
Чтобы решить эту систему относительно параметров a, bи с, нужно предварительно рассчитать суммы:
/>
/>
/>
/>
/>
Составим систему нормальных уравнений:
/>
/>
/>
Решая эту систему относительно коэффициентов a, bи с, найдем их значение:
/>
/>
/>
/>
/>
Отсюда эмпирическое уравнение параболы второго порядка таково:
/>
Подставляя в это уравнение вместо х значения независимой переменной Х, можно рассчитать ожидаемые величины:/>
Эти величины хорошо согласуются с фактическими данными, это можно увидеть на (более плавно идущей) линии регрессии:
/>
Найдем среднеквадратическое уравнение. СКО характеризует разброс любого результата из ряда наблюдений относительно среднего результата анализа:
/>
/>
Для функции f2(x)=ax+b/x;
Для функции приближения (с теми же результатами измерений величин X и Y)
/>
где a, b — искомые коэффициенты регрессии,
/>
Найдем частные производные этой функции по коэффициентам регрессии:
по а:
/>
по b:
/>
/> продолжение
--PAGE_BREAK--
/>
Найдем значения коэффициентов регрессии a, b:
/>
/>
Уравнение регрессии:
/>
/>
Для функции f3(x)=a/>+ab
Для функции приближения (с теми же результатами измерений величин X и Y)
/>/>/>
/>
где a, b — искомые коэффициенты регрессии,
/>
Найдем частные производные этой функции по коэффициентам регрессии:
по а:
/>
по b:
/>
/>
/>
Найдем значения коэффициентов регрессии a, b:
/>
/>
Уравнение регрессии:
/>
/>
ЛИТЕРАТУРА
Основы математической статистики: Учебное пособие для by-тов физ. культ./ Под. ред В. С. Иванова. – М.: Физкультура и спорт, 1990. – 176., ил.
Лакин Г. Ф. Биометрия: Учеб. пособие для биол спец. вузов – 4-е изд., перераб. и доп. – М.: Высш. шк., 1990. – 352 с., ил.
Кирьянов Д. В.Самоучитель Mathcad И. — СПб.: БХВ-Петербург, 2003. — 560 с: ил.
Гурский Д. А., Турбина Е. С. Вычисления в Mathcad 12. — СПб.: Питер, 2006. — 544 с: ил.
Алексеев Е. Р., Чеснокова О. В. Решение задач вычислительной математики в пакетах Mathcad 12, МАТLАВ 7, Мар1е 9/Алексеев Е. Р., Чеснокова О. В. — М.: НТ Пресс, 2006. — 496 с.: ил. — (Самоучитель).
Макаров Е. Г. Инженерные расчеты в Mathcad. Учебный курс. – Спб.; Питер, 2005. – 448 с.: ил.
www.exponenta.ru/educat/systemat/kazah/matecon/2_5.aspЛабораторные работы по курсам «Математика для экономистов» и «Экономико-математические методы и моделирование» в системе MathCAD Р.М. Оспанов
www.statsoft.ru/HOME/TEXTBOOK/modules/stmulreg.html
iskunstvo.narod.ru/edu/inf/regr.htm
edu.nstu.ru/courses/enc/control_quality/full/XX42.htm Ссылки (links):
www.exponenta.ru/educat/systemat/kazah/matecon/2_5.aspwww.statsoft.ru/HOME/TEXTBOOK/modules/stmulreg.htmliskunstvo.narod.ru/edu/inf/regr.htmedu.nstu.ru/courses/enc/control_quality/full/XX42.htm