Лекция 6. Математическая статистика
План лекции
6.2. Точечные оценки параметров
6.3. Примеры некоторых распределений
Табл. 6.3
Построим полигон выборочного распределения (рис. 6.3).
Wi
… x
0 1 8 9 10 11 12 13 14 15
Рис. 6.3
Модой распределения Мо является варианта 11, для которой относительная частота наибольшая. Медиана Ме вычисляется по формуле:
Ме = .
1
0,5
. . . .
0 1 8 9 10 11 12 13 14 15 x
Рис. 6.4
Эмпирическая функция распределения (рис. 6.4), соответствующая полученной статистической таблице распределения, строится по той же методике, что и в теории вероятностей. Она имеет ступенчатый вид: в точках (i = 1, 2,..., 7) имеются ”скачки” величиной Wi , причём = 0 для x < и = 1 для x > .
П р и м е р № 2. Измерения толщины (в мм) слюдяных прокладок дали следующие результаты: 0,042; 0,030; 0,039; 0,031; 0,042; 0,034; 0,036; 0,030; 0,033; 0,024; 0,031; 0,040; 0,031; 0,033; 0,031; 0,022; 0,031; 0,034; 0,027; 0,032; 0,048; 0,030; 0,026; 0,031; 0,043; 0,030; 0,033; 0,028; 0,028; 0,032; 0,039; 0,031; 0,034; 0,031; 0,035; 0,037; 0,025; 0,029; 0,027; 0,031; 0,028; 0,030; 0,029; 0,045; 0,033; 0.046; 0,036; 0,049; 0,021; 0,037. Построить гистограмму.
Р е ш е н и е. Объём выборки равен n = 50. Сгруппируем данные в интервалы, число которых найдём по формуле: k = log250 + 1 = 6,6. Округлим это число до ближайшего целого, превышающего полученное: k = 7. Поскольку размах выборки равен xmax – xmin = 0,049 – 0,021 = 0,028 мм, то каждый из интервалов составляет 0,004 мм. Посчитаем, сколько измеренных значений попало в соответствующие интервалы, и составим статистическую таблицу распределения группированных данных (табл. 6.4), дополнив её необходимой для построения гистограммы строкой, содержащей значения (по условию Dx = 0,004).
Заметим, что объем выборки .
В качестве вариант возьмём середины промежутков:
Dхi
[0.021- 0.025)
[0.025-0.029)
[0.029-0.033)
[0.033-0.037)
[0.037-0.041)
[0.041-0.045)
[0.045-0.049]
Wi
3/50
7/50
18/50
10/50
5/50
3/50
4/50
Wi/Dx
Табл. 6.4
Wi /Dx
0,021 0,025 … 0,049 х
Рис. 6.5
Гистограмма, соответствующая полученной статистической таблице, изображена на рис. 6.5. Она является аналогом плотности вероятности случайной непрерывной величины Х - толщины слюдяной прокладки.
6.2. Точечные оценки параметров
Пусть имеется выборка (x1, x2, ... , xn) из некоторой генеральной совокупности. Записав некое математическое выражение, содержащее эти значения, получим функцию выборки Zn (x1, x2, ... , xn), которая сама будет случайной величиной в силу того, что в выборку отбираются случайные элементы из генеральной совокупности. Например, можно рассмотреть среднее арифметическое значение выборки (аналог математического ожидания в теории вероятностей), которое называется выборочным средним: ( x1+ x2+...+ xn ) / n. Разброс же значений в выборке можно характеризовать исправленной выборочной дисперсией: .
Задача оценки неизвестного параметра l (например, М(Х) или D(Х)), который как-либо связан с генеральной совокупностью, порождённой функцией распределения случайной величины Х, на основании полученной выборки (х1, х2, ..., хn), означает следующее. Надо задать (придумать!) такую функцию выборки Zn, реализация которой Zn = Z(х1, х2, ..., хn) в некотором смысле могла бы рассматриваться как «хорошее» приближенное значение параметра l, т.е. должно выполняться условие l » Zn .
Такая функция выборки Zn = Z(х1, х2, ..., хn) называется точечной оценкой параметра l. Реализовавшееся значение функции выборки Zn будем называть выборочным (или эмпирическим) значением параметра l.
Точечная оценка Zn = Z(х1, х2, ..., хn) параметра l называется несмещенной, если М(Zn) = l.
Точечная оценка Zn параметра l называется состоятельной, если Р(|Zn - l| < e) ® 1, при n ® ¥, где e - сколь угодно малое положительное число. То есть состоятельность оценки означает, что при очень большой выборке и сколь угодно малом e > 0, вероятность события (| Zn - l| < e) сколь угодно близка к 1.
Нас будут интересовать оценки Р(Х = А) - вероятности события А, математического ожидания М(Х), дисперсии D(Х) и коэффициента корреляции Gxy. Основные требования, предъявляемые к их оценкам, состоят в несмещённости и состоятельности.
Мы будем использовать следующие оценки четырех, перечисленных выше параметров М(Х), D(Х), Р(Х = А), Gху:
1) - выборочное среднее;
2) - исправленная выборочная дисперсия;
3)- частота события А, где , если событие А произошло в i - ом опыте, и , если оно не произошло. Величину можно рассматривать как оценку вероятности Р в схеме испытаний Бернулли.
Если в генеральной совокупности содержится две интересующие нас случайные величины Х и Y, то выборка объема n состоит из последовательности пар В этом случае оценка коэффициента корреляции случайных величин Х и Y производится по формуле:
где
Можно доказать, что приведенные выше оценки являются несмещёнными и состоятельными точечными оценками.
Приведенные формулы для вычисления соответствуют не группированным выборкам. Если проведена группировка выборки объема n и получена статистическая таблица в виде табл. 6.2, то расчет проводят по формулам:
З а м е ч а н и е. На практике часто пользуются для оценки дисперсии D(X) выборочной дисперсией . Но оказывается оценкой смещённой, т.е. М() ¹ D(X). При больших значениях n значения исправленной выборочной дисперсии и выборочной дисперсии практически совпадают . Поэтому при небольших объемах выборки лучше использовать оценку , которую получают по формуле . А про точечную оценку можно сказать, что она является несмещенной только асимптотически (при n >> 1).
З а д а ч а. Вернёмся к выборке для толщины слюдяных прокладок, приведенной в примере № 2 п.6.1. Необходимо найти оценки параметров М(Х), D(Х) и - математического ожидания, дисперсии и среднеквадратического отклонения для толщины слюдяной прокладки.
Р е ш е н и е. Вначале вычисляем выборочное среднее:
= (0,023 × 3 + 0,027 × 7 + 0,031 × 18 + 0,035 × 10 + 0,039 × 5 + 0,043 × 3 + 0,047 × 4)/50 =
= 0,03356 мм.
Теперь находим выборочную дисперсию:=
= (0,0232 × 3 + 0,0272 × 7 + 0,0312 × 18 + 0,0352 × 10 + 0,0392 × 5 + 0.0432 × 3 +
+ 0,0472 × 4) / 50 – 0,033562 = 3,82464 × 10-5 мм2.
Исправленная выборочная дисперсия легко находится:
= × 3,82464 × 10-5 = 3,9027 × 10-5 мм 2.
Выборочное среднеквадратическое отклонение толщины прокладки равно
Из-за того, что в группированной выборке участвуют уже только середины интервалов разбиения, группировка выборки приводит к некоторой потере информации, содержащейся в исходной выборке. Поэтому, исходя из опыта, объем выборки n берут достаточно большим (не менее нескольких десятков), а число интервалов разбиения k – в пределах от 5 до 15. В этом случае разница в оценках параметров распределения, полученных по группированной и не группированной выборкам, оказывается незначительной. Так, в только что рассмотренном примере оценки М(Х) и s, вычисленные по группированной выборке, оказались равными: А если выборку не группировать, то для оценок М(Х) и s получатся соответственно значения 0,0331 мм и 6,25 мк, что весьма незначительно отличается от значений оценок по группированной выборке.
З а м е ч а н и е. В случае малых или, наоборот, больших значений для упрощения вычисления полезно использовать формулу, позволяющую оперировать с привычными числами:
,
где числа C1 и C выбираются, исходя из удобств вычислений.
Например, вычисление в предыдущем примере проще осуществить по формуле: .
В заключение отметим, что возможность вычисления значений предусмотрена в “инженерных” и “научных” калькуляторах.
6.3. Примеры некоторых распределений
В лекции 2 описано нормальное распределение случайной непрерывной величины. Плотность вероятности нормального распределения величины Х, имеющей математическое ожидание М(Х) = а и дисперсию D(Х) = s2 имеет вид
.
Множество нормально распределенных случайных величин с параметрами а и s2 обозначается N(а, s2). В теории вероятностей доказывается, что сумма нормально распределенных случайных величин имеет нормальное распределение. Поэтому случайная величина , где - независимые случайные величины, будет нормально распределена с параметрами а и . Иными словами,
З а м е ч а н и е. Равенства были получены в конце п. 6.3 (задача № 2).
Пусть (х1, х2, ..., хn) - математическая выборка из генеральной совокупности, порожденной распределением или из генеральной совокупности, образованной независимыми случайными величинами с математическим ожиданием а и дисперсией . Тогда можно доказать несколько следующих утверждений.
1. Случайная величина имеет стандартизированное нормальное распределение N(0; 1) или асимптотически стандартизированное нормальное распределение, плотность вероятности которого .
В п. 2.6.2.2 было показано, что если x > 0, то , где - функция Лапласа. Для любого имеем
.
Заметим, что функция - чётная: , а функция Лапласа – нечётная: .
Таблицы значений функций и для x > 0 приводятся в Приложении (табл. 1 и 2).
2. Рассмотрим схему испытаний Бернулли, где в каждом из n опытов событие А реализуется с вероятностью р. Введём случайные величины: хi = 1, если в i-ом опыте произошло событие А, и хi = 0, если в i-ом опыте событие А не произошло. Образуем случайную величину .
Доказывается, что случайная величина имеет асимптотически стандартизированное распределение, т.е. при достаточно большом числе опытов .
3. Случайная величина , где , называется отношением Стьюдента с (n - 1) степенью свободы. Поясним последнее обстоятельство. Величина Т зависит от случайных величин (в силу того, что ) и S, т.е. Т зависит от (n + 1) случайной величины. Но среди этих случайных величин есть две функциональные связи: и . Поэтому независимых случайных величин, участвующих в формировании случайной величины Т, будет , что и является её числом степеней свободы.
Заметим, что в теории вероятностей доказывается, что и S - независимые случайные величины.
Обозначим плотность вероятности случайной величины Т с степенями свободы через . Распределение величины Т называется распределением Стьюдента с k степенями свободы. Известно, что эта плотность вероятности – функция чётная: , а также, что .
Таблицы при заданных значениях m, g, a для определения значений x > 0, удовлетворяющих равенствам
и ,
приводятся в Приложении (табл.4).
4. Случайная величина имеет распределение Стьюдента с числом степеней свободы m = n - 2, если . Здесь - коэффициент корреляции случайных величин X и Y, а - его выборочное значение, равное .
5. Случайная величина имеет распределениехи-квадрат с m = n - 1 степенью свободы. Обозначим плотность вероятности величины c2 как . Тогда для x > 0 имеем
Если , то вероятность случайной величине принять значение между х1 и х2 равна
Таблица при заданных параметрах m = n – 1, 0 < a < 1 для значений х, удовлетворяющих равенству , приводится в Приложении (табл. 5).
Математическое ожидание и дисперсия для хи-квадрат распределения равны ; мода распределения, т.е. значение варианты, для которой плотность вероятности максимальна, равна xо = m – 2.
Таблицы для определения х, удовлетворяющего уравнению , обычно приводятся для числа степеней свободы m в диапазоне: . Если же m > 30, то используется тот факт, что случайная величина распределена асимптотически нормально, т.е. Î , m >> 1. Это позволяет получить приближенное решение уравнения в виде , где Ka - квантиль порядка a нормального стандартизированного распределения (квантиль порядка a случайной величины Х определяется как корень уравнения F(Ka) = , что нормальной случайной величины выглядит так: , где - функция Лапласа). Если величина a близка к 0 или 1, то следует пользоваться приближением .
З а д а ч а № 1 . Найти значение х, удовлетворяющее уравнению
, где m = 100, a = 0,01.
Р е ш е н и е . Т.к. число степеней свободы m = 100 > 30, то использовать табл. 5 нельзя. Воспользуемся формулой , где Кa - корень уравнения , т.е. . По табл. 2 значений функции Лапласа Ф(х) получим: (-Кa) = 2,33, т.е. Кa = -2,33. Затем вычисляем .
Если же воспользоваться формулой , то получим . Т.е. оба приближения дают практически одинаковые значения х: 69,3 и 70.
З а д а ч а № 2. В предыдущем примере возьмём a = 0,001 и найдём х.
Р е ш е н и е . Значение х следующее: , где величина Кa удовлетворяет уравнению . По табл.2 находим: (-Кa) = 3,08, т.е. Кa = - 3,08, и поэтому
.
Формула дает значение
.
Итак, с уменьшением вероятности a от 0,01 до 0,001 разница между искомыми значениями х, вычисленными по двум разным формулам: и , увеличилась, хотя оба приближения и дают близкие результаты (60,8 и 62).
К началу К следующей лекции
К приложению К содержанию К титулу