Конспект лекций по предмету "Математическая статистика"


Случай многозначной случайной величины

Существует достаточно обширный класс задач со случайными величинами, распределенными на номинальной шкале с тремя и более допустимыми значениями.
В таких задачах обычно используется все тот же критерий c2 с числом степеней свободы более одной. По сути дела, используют почти ту же формулу –
c2 = å, {6–2} в которой просто не используется поправка на непрерывность.
Так, например, наблюдая численности покупок четырех категорий некоторого товара, мы могли зафиксировать следующие данные:
Таблица 6–1
Товары
A
B
C
D
Всего
Число покупок
30
55
27
48
160
Выдвинем гипотезы:
Њ0: Все товары одинаково популярны или РА=РB=РC=РD=0.25
Њ1: Популярности товаров значимо различны.
Несложный расчет дает расчетную величину критерия около 14, т.е. ощутимо больше критического значения 7.8 для 3–х степеней свободы по табл. 6–1. Это дает нам основание отвергнуть гипотезу о равной популярности этих видов товара.


7.2. Выборочные распределения на шкале Ord
Случайные величины с порядковой шкалой измерения – это дискретные, для всех допустимых значений которых, кроме отношений“=" или "#”, разрешены отношения “<" или ">”. Классическим примером порядковых величин являются оценки знаний, успеваемости, приоритета. Для таких СВ, как и для номинальных, не имеют смысла понятия моментов распределений.
Продемонстрируем ряд задач, возникающих при оперировании такими величинами и рассмотрим специальные методы непараметрической статистики в применении к этим задачам.
Следует различать ситуации, связанные с величинами на порядковой шкале:
· случайная величина имеет всего два допустимых значения (одно из них больше, предпочтительнее второго);
· случайная величина имеет более двух допустимых значений.
В первом случае мы имеем по сути дела двух позиционную номинальную шкалу и все сказанное выше о распределениях на шкале Nom вполне приемлемо для решения задач на такой шкале Rel. К примеру ­– задачи о проверке симметрии монеты или о допустимом количестве бракованных изделий вполне могут рассматриваться с использование порядковой шкалы, если считать герб “старше” решки, бракованное изделие “хуже” исправного.
Второй тип СВ предполагает наличие нескольких фиксированных значений, упорядоченных по некоторому признаку, свойству или нашему предпочтению. В этих случаях говорят, что случайная величина (например – оценка знаний, сорт товара) может быть величиной “первого ранга”, “второго ранга” и т.д.
В принципе корректная постановка задач о распределении СВ на порядковых (ранговых) шкалах ничем не отличается от рассмотренных ранее методов статистики для интервальных, относительных и номинальных шкал.
Пусть мы наблюдали, зафиксировали оценки знаний 100 обучаемых по четырех ранговой шкале (“отлично”, “хорошо”, “удовлетворительно” и “плохо”)
Таблица 7–1
Оценка знаний
Отл.
Хор.
Удовл.
Плохо
Всего
Ранг оценки по смыслу
1
2
3
4

Количество наблюдений
25
45
20
10
100
Ранг по итогам наблюдений
2
1
3
4


Как обычно, далее приходится строить гипотезы и подбирать критерии для их проверки. При выдвижении нулевой гипотезы надо, прежде всего, помнить о необходимости с её помощью рассчитать распределение СВ – в нашем случае это означает расчет количества оценок в условиях истинности Њ0.
Конечно, без “технологических” представлений о природе СВ выдвижение и проверка гипотез (а затем использование статистических выводов) ­– пустая трата времени.

Пусть мы осознаем зависимость оценки знаний от предварительной подготовки обучаемых (она может быть одинакова у всех или значимо отличаться), от эффективности системы обучения и, наконец, от способа проверки знаний. Тогда результаты наблюдений могут оказаться полезными при решении задач управления обучением и, по крайней мере, контроля процесса обучения.
Если у нас есть основания считать предварительную подготовку обучаемых одинакового уровня для всех и способ проверки знаний достаточно объективным, то тогда можно выдвинуть нулевую гипотезу Њ0: система обучения эффективна. Конечно, мы не можем теоретически предсказать количество оценок каждого из рангов. Но этого и не нужно ­– оценки не числа, и частота наблюдения оценки “отлично” не может быть умножена на значение этой оценки. Другое дело, если мы договоримся считать систему обучения эффективной только в том случае, если она по отношению к одинаково подготовленным обучаемым дает большие числа более высоких оценок.
Тогда, в соответствии с Њ0 ранги 2–й строки табл.7–1 могут рассматриваться как гипотетические, а ранги 4-й строки ­– как выборочные, наблюдаемые. Осталось установить ­– какой же критерий принять для проверки нашей гипотезы. Один из часто используемых в подобных задачах критериев носит название коэффициента ранговой корреляции Спирмэна
, {7–1}
в котором di – разности гипотетических и наблюдаемых рангов; n – число рангов.
Величина коэффициента ранговой корреляции имеет непрерывное распределение на интервале [–1…+1] с математическим ожиданием 0 – если, конечно, гипотеза Њ0 верна. Поэтому значение вычисленного Rs можно использовать в качестве критерия проверки гипотез. В нашем примере сумма квадратов разностей рангов равна S=2 и для n=4 коэффициент Спирмэна по итогам наблюдений составит Rs = 0.8. Обратимся теперь к статистическим таблицам и рассмотрим ту, которая рассчитана для числа рангов n=4.
Таблица 7–2
Наблюдаемое значение суммы S
2
4
6
8
10
Вероятность S при ошибочности Њ0
0.042
0.167
0.208
0.375
0.458
Для нашего примера предположение о полной эффективности системы обучения вполне обосновано.
Мы ознакомились только с одним из существующих методов статистического анализа СВ со шкалой Ord. Существуют и другие, обоснованные и апробированные методы (коэффициент ранговой корреляции Кэндалла). Отличие между ними только в способе расчета критерия принятия или отбрасывания нулевой гипотезы.Вместе с тем мы не затронули вопроса о проблемах, возникающих при наличии нескольких величин с ранговой шкалой измерения. Эти проблемы связаны с множественной ранговой корреляцией или конкордацией (согласованностью рангов).
Пусть у нас имеются ранжировки m=4 экспертов по отношению к n=6 факторам, которые определяют эффективность некоторой экономической системы:
Эксперты / Факторы
F1
F2
F3
F4
F5
F6
å
A
5
4
1
6
3
2
21
B
2
3
1
5
6
4
21
C
4
1
6
3
2
5
21
D
4
3
2
5
1
6
21
Сумма рангов
15
11
10
19
12
17
84
Суммарный ранг
4
2
1
6
3
5

Отклонение суммы рангов от 84/6 =14
+1
-3
-4
+5
-2
+3

Квадраты этих отклонений
1
9
16
25
4
9
64

Заметим, что полная сумма рангов составляет 84, что дает в среднем по 14 на фактор. Для общего случая n факторов и m экспертов среднее значение суммы рангов для любого фактора определится выражением
D 0.5·m·(n+1) {7–2}
Теперь можно оценить степень согласованности мнений экспертов по отношению к шести факторам. Для каждого из факторов наблюдается отклонение суммы рангов, указанных экспертами, от среднего значения такой суммы.
Поскольку сумма этих отклонений всегда равна нулю, для их усреднения разумно использовать квадраты значений. В нашем случае сумма таких квадратов составит S= 64, а в общем случае эта сумма будет наибольшей только при полном совпадении мнений всех экспертов по отношению ко всем факторам:
Smax m2 · (n3– n) / 12 {7 –3} что в нашем примере дает 280.
М. Кэндаллом предложен показатель согласованности или коэффициент конкордации, определяемый как
W = S / Smax {7–4} принимающий, в отличие от обычных (парных) коэффициентов ранговой корреляции, значения от 1 (при наибольшей согласованности) до 0.
В нашем примере значение коэффициента конкордации составляет около 0.23 и явно недостаточно для принятия гипотезы о согласованности мнений экспертов.
Существуют специальные таблицы, позволяющие отыскивать значения сумм S, настолько близких к Smax , что вероятность ошибки при принятии гипотезы о полной согласованности мнений экспертов не превосходит 5%. Вот одна из таких таблиц с критическими (достаточными) значениями сумм квадратов отклонений рангов S для n=3…7 факторов при m= 3…15 экспертов.
m n
3
4
5
6
7
3


64
104
157
4

50
88
143
217
5

63
112
182
276
6

76
136
221
335
8
48
102
184
299
453
10
60
128
231
377
571
15
90
193
350
571
865
Для нашего примера указанная вероятность соответствует сумме квадратов отклонений S= 143, что намного больше наблюдаемой суммы 64. Поэтому гипотезу о согласованности мнений экспертов придется отбросить.
8.3. Материал семинарских занятий


Не сдавайте скачаную работу преподавателю!
Данный конспект лекций Вы можете использовать для создания шпаргалок и подготовки к экзаменам.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем конспект самостоятельно:
! Как написать конспект Как правильно подойти к написанию чтобы быстро и информативно все зафиксировать.