Лекция 6. Математическая статистика
План лекции
6.2. Точечные оценки параметров
6.3. Примеры некоторых распределений
Табл. 6.3
Построим полигон выборочного распределения (рис. 6.3).

Wi


















… x
0 1 8 9 10 11 12 13 14 15
Рис. 6.3
Модой распределения Мо является варианта 11, для которой относительная частота наибольшая. Медиана Ме вычисляется по формуле:
Ме =

.



1


0,5














. . . .
0 1 8 9 10 11 12 13 14 15 x
Рис. 6.4
Эмпирическая функция распределения

(рис. 6.4), соответствующая полученной статистической таблице распределения, строится по той же методике, что и в теории вероятностей. Она имеет ступенчатый вид: в точках

(i = 1, 2,..., 7) имеются ”скачки” величиной Wi , причём

= 0 для x <

и

= 1 для x >

.
П р и м е р № 2. Измерения толщины (в мм) слюдяных прокладок дали следующие результаты: 0,042; 0,030; 0,039; 0,031; 0,042; 0,034; 0,036; 0,030; 0,033; 0,024; 0,031; 0,040; 0,031; 0,033; 0,031; 0,022; 0,031; 0,034; 0,027; 0,032; 0,048; 0,030; 0,026; 0,031; 0,043; 0,030; 0,033; 0,028; 0,028; 0,032; 0,039; 0,031; 0,034; 0,031; 0,035; 0,037; 0,025; 0,029; 0,027; 0,031; 0,028; 0,030; 0,029; 0,045; 0,033; 0.046; 0,036; 0,049; 0,021; 0,037. Построить гистограмму.
Р е ш е н и е. Объём выборки равен n = 50. Сгруппируем данные в интервалы, число которых найдём по формуле: k = log250 + 1 = 6,6. Округлим это число до ближайшего целого, превышающего полученное: k = 7. Поскольку размах выборки равен xmax – xmin = 0,049 – 0,021 = 0,028 мм, то каждый из интервалов составляет 0,004 мм. Посчитаем, сколько измеренных значений попало в соответствующие интервалы, и составим статистическую таблицу распределения группированных данных (табл. 6.4), дополнив её необходимой для построения гистограммы строкой, содержащей значения

(по условию Dx = 0,004).
Заметим, что объем выборки

.
В качестве вариант возьмём середины промежутков:
Dхi
[0.021- 0.025)
[0.025-0.029)
[0.029-0.033)
[0.033-0.037)
[0.037-0.041)
[0.041-0.045)
[0.045-0.049]
Wi
3/50
7/50
18/50
10/50
5/50
3/50
4/50
Wi/Dx
Табл. 6.4


Wi /Dx


0,021 0,025 … 0,049 х
Рис. 6.5
Гистограмма, соответствующая полученной статистической таблице, изображена на рис. 6.5. Она является аналогом плотности вероятности случайной непрерывной величины Х - толщины слюдяной прокладки.
6.2. Точечные оценки параметров
Пусть имеется выборка (x1, x2, ... , xn) из некоторой генеральной совокупности. Записав некое математическое выражение, содержащее эти значения, получим функцию выборки Zn (x1, x2, ... , xn), которая сама будет случайной величиной в силу того, что в выборку отбираются случайные элементы из генеральной совокупности. Например, можно рассмотреть среднее арифметическое значение выборки (аналог математического ожидания в теории вероятностей), которое называется выборочным средним:

( x1+ x2+...+ xn ) / n. Разброс же значений в выборке можно характеризовать исправленной выборочной дисперсией:

.
Задача оценки неизвестного параметра l (например, М(Х) или D(Х)), который как-либо связан с генеральной совокупностью, порождённой функцией распределения случайной величины Х, на основании полученной выборки (х1, х2, ..., хn), означает следующее. Надо задать (придумать!) такую функцию выборки Zn, реализация которой Zn = Z(х1, х2, ..., хn) в некотором смысле могла бы рассматриваться как «хорошее» приближенное значение параметра l, т.е. должно выполняться условие l » Zn .
Такая функция выборки Zn = Z(х1, х2, ..., хn) называется точечной оценкой параметра l. Реализовавшееся значение функции выборки Zn будем называть выборочным (или эмпирическим) значением параметра l.
Точечная оценка Zn = Z(х1, х2, ..., хn) параметра l называется несмещенной, если М(Zn) = l.
Точечная оценка Zn параметра l называется состоятельной, если Р(|Zn - l| < e) ® 1, при n ® ¥, где e - сколь угодно малое положительное число. То есть состоятельность оценки означает, что при очень большой выборке и сколь угодно малом e > 0, вероятность события (| Zn - l| < e) сколь угодно близка к 1.
Нас будут интересовать оценки Р(Х = А) - вероятности события А, математического ожидания М(Х), дисперсии D(Х) и коэффициента корреляции Gxy. Основные требования, предъявляемые к их оценкам, состоят в несмещённости и состоятельности.
Мы будем использовать следующие оценки

четырех, перечисленных выше параметров М(Х), D(Х), Р(Х = А), Gху:
1)

- выборочное среднее;
2)

- исправленная выборочная дисперсия;
3)

- частота события А, где

, если событие А произошло в i - ом опыте, и

, если оно не произошло. Величину

можно рассматривать как оценку вероятности Р в схеме испытаний Бернулли.
Если в генеральной совокупности содержится две интересующие нас случайные величины Х и Y, то выборка объема n состоит из последовательности пар

В этом случае оценка коэффициента корреляции случайных величин Х и Y производится по формуле:

где

Можно доказать, что приведенные выше оценки

являются несмещёнными и состоятельными точечными оценками.
Приведенные формулы для вычисления

соответствуют не группированным выборкам. Если проведена группировка выборки объема n и получена статистическая таблица в виде табл. 6.2, то расчет проводят по формулам:

З а м е ч а н и е. На практике часто пользуются для оценки дисперсии D(X) выборочной дисперсией

. Но

оказывается оценкой смещённой, т.е. М(

) ¹ D(X). При больших значениях n значения исправленной выборочной дисперсии

и выборочной дисперсии

практически совпадают

. Поэтому при небольших объемах выборки лучше использовать оценку

, которую получают по формуле

. А про точечную оценку

можно сказать, что она является несмещенной только асимптотически (при n >> 1).
З а д а ч а. Вернёмся к выборке для толщины слюдяных прокладок, приведенной в примере № 2 п.6.1. Необходимо найти оценки параметров М(Х), D(Х) и

- математического ожидания, дисперсии и среднеквадратического отклонения для толщины слюдяной прокладки.
Р е ш е н и е. Вначале вычисляем выборочное среднее:

= (0,023 × 3 + 0,027 × 7 + 0,031 × 18 + 0,035 × 10 + 0,039 × 5 + 0,043 × 3 + 0,047 × 4)/50 =
= 0,03356 мм.
Теперь находим выборочную дисперсию:


=
= (0,0232 × 3 + 0,0272 × 7 + 0,0312 × 18 + 0,0352 × 10 + 0,0392 × 5 + 0.0432 × 3 +
+ 0,0472 × 4) / 50 – 0,033562 = 3,82464 × 10-5 мм2.
Исправленная выборочная дисперсия легко находится:

=

× 3,82464 × 10-5 = 3,9027 × 10-5 мм 2.
Выборочное среднеквадратическое отклонение толщины прокладки равно

Из-за того, что в группированной выборке участвуют уже только середины интервалов разбиения, группировка выборки приводит к некоторой потере информации, содержащейся в исходной выборке. Поэтому, исходя из опыта, объем выборки n берут достаточно большим (не менее нескольких десятков), а число интервалов разбиения k – в пределах от 5 до 15. В этом случае разница в оценках параметров распределения, полученных по группированной и не группированной выборкам, оказывается незначительной. Так, в только что рассмотренном примере оценки М(Х) и s, вычисленные по группированной выборке, оказались равными:

А если выборку не группировать, то для оценок М(Х) и s получатся соответственно значения 0,0331 мм и 6,25 мк, что весьма незначительно отличается от значений оценок по группированной выборке.
З а м е ч а н и е. В случае малых или, наоборот, больших значений

для упрощения вычисления

полезно использовать формулу, позволяющую оперировать с привычными числами:

,
где числа C1 и C выбираются, исходя из удобств вычислений.
Например, вычисление

в предыдущем примере проще осуществить по формуле:

.
В заключение отметим, что возможность вычисления значений

предусмотрена в “инженерных” и “научных” калькуляторах.
6.3. Примеры некоторых распределений
В лекции 2 описано нормальное распределение случайной непрерывной величины. Плотность вероятности нормального распределения величины Х, имеющей математическое ожидание М(Х) = а и дисперсию D(Х) = s2 имеет вид

.
Множество нормально распределенных случайных величин с параметрами а и s2 обозначается N(а, s2). В теории вероятностей доказывается, что сумма нормально распределенных случайных величин имеет нормальное распределение. Поэтому случайная величина

, где

- независимые случайные величины, будет нормально распределена с параметрами а и

. Иными словами,

З а м е ч а н и е. Равенства

были получены в конце п. 6.3 (задача № 2).
Пусть (х1, х2, ..., хn) - математическая выборка из генеральной совокупности, порожденной распределением

или из генеральной совокупности, образованной независимыми случайными величинами с математическим ожиданием а и дисперсией

. Тогда можно доказать несколько следующих утверждений.
1. Случайная величина

имеет стандартизированное нормальное распределение N(0; 1) или асимптотически стандартизированное нормальное распределение, плотность вероятности которого

.
В п. 2.6.2.2 было показано, что если x > 0, то

, где

- функция Лапласа. Для любого

имеем

.
Заметим, что функция

- чётная:

, а функция Лапласа – нечётная:

.
Таблицы значений функций

и

для x > 0 приводятся в Приложении (табл. 1 и 2).
2. Рассмотрим схему испытаний Бернулли, где в каждом из n опытов событие А реализуется с вероятностью р. Введём случайные величины: хi = 1, если в i-ом опыте произошло событие А, и хi = 0, если в i-ом опыте событие А не произошло. Образуем случайную величину

.
Доказывается, что случайная величина

имеет асимптотически стандартизированное распределение, т.е. при достаточно большом числе опытов

.
3. Случайная величина

, где

, называется отношением Стьюдента с (n - 1) степенью свободы. Поясним последнее обстоятельство. Величина Т зависит от случайных величин

(в силу того, что

) и S, т.е. Т зависит от (n + 1) случайной величины. Но среди этих случайных величин есть две функциональные связи:

и

. Поэтому независимых случайных величин, участвующих в формировании случайной величины Т, будет

, что и является её числом степеней свободы.
Заметим, что в теории вероятностей доказывается, что

и S - независимые случайные величины.
Обозначим плотность вероятности случайной величины Т с

степенями свободы через

. Распределение величины Т называется распределением Стьюдента с k степенями свободы. Известно, что эта плотность вероятности – функция чётная:

, а также, что

.
Таблицы при заданных значениях m, g, a для определения значений x > 0, удовлетворяющих равенствам

и

,
приводятся в Приложении (табл.4).
4. Случайная величина

имеет распределение Стьюдента с числом степеней свободы m = n - 2, если

. Здесь

- коэффициент корреляции случайных величин X и Y, а

- его выборочное значение, равное

.
5. Случайная величина

имеет распределениехи-квадрат с m = n - 1 степенью свободы. Обозначим плотность вероятности величины c2 как

. Тогда для x > 0 имеем

Если

, то вероятность случайной величине принять значение между х1 и х2 равна

Таблица при заданных параметрах m = n – 1, 0 < a < 1 для значений х, удовлетворяющих равенству

, приводится в Приложении (табл. 5).
Математическое ожидание и дисперсия для хи-квадрат распределения равны

; мода распределения, т.е. значение варианты, для которой плотность вероятности максимальна, равна xо = m – 2.
Таблицы для определения х, удовлетворяющего уравнению

, обычно приводятся для числа степеней свободы m в диапазоне:

. Если же m > 30, то используется тот факт, что случайная величина

распределена асимптотически нормально, т.е.

Î

, m >> 1. Это позволяет получить приближенное решение уравнения

в виде

, где Ka - квантиль порядка a нормального стандартизированного распределения (квантиль порядка a случайной величины Х определяется как корень уравнения F(Ka) =

, что нормальной случайной величины выглядит так:

, где

- функция Лапласа). Если величина a близка к 0 или 1, то следует пользоваться приближением

.
З а д а ч а № 1 . Найти значение х, удовлетворяющее уравнению

, где m = 100, a = 0,01.
Р е ш е н и е . Т.к. число степеней свободы m = 100 > 30, то использовать табл. 5 нельзя. Воспользуемся формулой

, где Кa - корень уравнения

, т.е.

. По табл. 2 значений функции Лапласа Ф(х) получим: (-Кa) = 2,33, т.е. Кa = -2,33. Затем вычисляем

.
Если же воспользоваться формулой

, то получим

. Т.е. оба приближения дают практически одинаковые значения х: 69,3 и 70.
З а д а ч а № 2. В предыдущем примере возьмём a = 0,001 и найдём х.
Р е ш е н и е . Значение х следующее:

, где величина Кa удовлетворяет уравнению

. По табл.2 находим: (-Кa) = 3,08, т.е. Кa = - 3,08, и поэтому

.
Формула

дает значение

.
Итак, с уменьшением вероятности a от 0,01 до 0,001 разница между искомыми значениями х, вычисленными по двум разным формулам:

и

, увеличилась, хотя оба приближения и дают близкие результаты (60,8 и 62).
К началу К следующей лекции
К приложению К содержанию К титулу