Лекция 6. Математическая статистика

Лекция 6. Математическая статистика

План лекции

6.2. Точечные оценки параметров
6.3. Примеры некоторых распределений

Табл. 6.3

Построим полигон выборочного распределения (рис. 6.3).

… x
0 1 8 9 10 11 12 13 14 15

Рис. 6.3

Модой распределения Мо является варианта 11, для которой относительная частота наибольшая. Медиана Ме вычисляется по формуле:
Ме =

0,5

. . . .
0 1 8 9 10 11 12 13 14 15 x
Рис. 6.4
Эмпирическая функция распределения

(рис. 6.4), соответствующая полученной статистической таблице распределения, строится по той же методике, что и в теории вероятностей. Она имеет ступенчатый вид: в точках

(i = 1, 2,..., 7) имеются ”скачки” величиной Wi , причём

= 0 для x <

= 1 для x >

.
П р и м е р № 2. Измерения толщины (в мм) слюдяных прокладок дали следующие результаты: 0,042; 0,030; 0,039; 0,031; 0,042; 0,034; 0,036; 0,030; 0,033; 0,024; 0,031; 0,040; 0,031; 0,033; 0,031; 0,022; 0,031; 0,034; 0,027; 0,032; 0,048; 0,030; 0,026; 0,031; 0,043; 0,030; 0,033; 0,028; 0,028; 0,032; 0,039; 0,031; 0,034; 0,031; 0,035; 0,037; 0,025; 0,029; 0,027; 0,031; 0,028; 0,030; 0,029; 0,045; 0,033; 0.046; 0,036; 0,049; 0,021; 0,037. Построить гистограмму.
Р е ш е н и е. Объём выборки равен n = 50. Сгруппируем данные в интервалы, число которых найдём по формуле: k = log250 + 1 = 6,6. Округлим это число до ближайшего целого, превышающего полученное: k = 7. Поскольку размах выборки равен xmax – xmin = 0,049 – 0,021 = 0,028 мм, то каждый из интервалов составляет 0,004 мм. Посчитаем, сколько измеренных значений попало в соответствующие интервалы, и составим статистическую таблицу распределения группированных данных (табл. 6.4), дополнив её необходимой для построения гистограммы строкой, содержащей значения

(по условию Dx = 0,004).
Заметим, что объем выборки

.
В качестве вариант возьмём середины промежутков:

Dхi
[0.021- 0.025)
[0.025-0.029)
[0.029-0.033)
[0.033-0.037)
[0.037-0.041)
[0.041-0.045)
[0.045-0.049]
Wi
3/50
7/50
18/50
10/50
5/50
3/50
4/50
Wi/Dx

Узнать цену работы по вашей теме

Табл. 6.4

Wi /Dx

0,021 0,025 … 0,049 х

Рис. 6.5

Гистограмма, соответствующая полученной статистической таблице, изображена на рис. 6.5. Она является аналогом плотности вероятности случайной непрерывной величины Х - толщины слюдяной прокладки.

6.2. Точечные оценки параметров

Пусть имеется выборка (x1, x2, ... , xn) из некоторой генеральной совокупности. Записав некое математическое выражение, содержащее эти значения, получим функцию выборки Zn (x1, x2, ... , xn), которая сама будет случайной величиной в силу того, что в выборку отбираются случайные элементы из генеральной совокупности. Например, можно рассмотреть среднее арифметическое значение выборки (аналог математического ожидания в теории вероятностей), которое называется выборочным средним:

( x1+ x2+...+ xn ) / n. Разброс же значений в выборке можно характеризовать исправленной выборочной дисперсией:

.
Задача оценки неизвестного параметра l (например, М(Х) или D(Х)), который как-либо связан с генеральной совокупностью, порождённой функцией распределения случайной величины Х, на основании полученной выборки (х1, х2, ..., хn), означает следующее. Надо задать (придумать!) такую функцию выборки Zn, реализация которой Zn = Z(х1, х2, ..., хn) в некотором смысле могла бы рассматриваться как «хорошее» приближенное значение параметра l, т.е. должно выполняться условие l » Zn .
Такая функция выборки Zn = Z(х1, х2, ..., хn) называется точечной оценкой параметра l. Реализовавшееся значение функции выборки Zn будем называть выборочным (или эмпирическим) значением параметра l.
Точечная оценка Zn = Z(х1, х2, ..., хn) параметра l называется несмещенной, если М(Zn) = l.
Точечная оценка Zn параметра l называется состоятельной, если Р(|Zn - l| < e) ® 1, при n ® ¥, где e - сколь угодно малое положительное число. То есть состоятельность оценки означает, что при очень большой выборке и сколь угодно малом e > 0, вероятность события (| Zn - l| < e) сколь угодно близка к 1.
Нас будут интересовать оценки Р(Х = А) - вероятности события А, математического ожидания М(Х), дисперсии D(Х) и коэффициента корреляции Gxy. Основные требования, предъявляемые к их оценкам, состоят в несмещённости и состоятельности.
Мы будем использовать следующие оценки

четырех, перечисленных выше параметров М(Х), D(Х), Р(Х = А), Gху:
1)

- выборочное среднее;
2)

- исправленная выборочная дисперсия;
3)

- частота события А, где

, если событие А произошло в i - ом опыте, и

, если оно не произошло. Величину

можно рассматривать как оценку вероятности Р в схеме испытаний Бернулли.
Если в генеральной совокупности содержится две интересующие нас случайные величины Х и Y, то выборка объема n состоит из последовательности пар

В этом случае оценка коэффициента корреляции случайных величин Х и Y производится по формуле:

где

Можно доказать, что приведенные выше оценки

являются несмещёнными и состоятельными точечными оценками.
Приведенные формулы для вычисления

соответствуют не группированным выборкам. Если проведена группировка выборки объема n и получена статистическая таблица в виде табл. 6.2, то расчет проводят по формулам:

З а м е ч а н и е. На практике часто пользуются для оценки дисперсии D(X) выборочной дисперсией

. Но

оказывается оценкой смещённой, т.е. М(

) ¹ D(X). При больших значениях n значения исправленной выборочной дисперсии

и выборочной дисперсии

практически совпадают

. Поэтому при небольших объемах выборки лучше использовать оценку

, которую получают по формуле

. А про точечную оценку

можно сказать, что она является несмещенной только асимптотически (при n >> 1).
З а д а ч а. Вернёмся к выборке для толщины слюдяных прокладок, приведенной в примере № 2 п.6.1. Необходимо найти оценки параметров М(Х), D(Х) и

- математического ожидания, дисперсии и среднеквадратического отклонения для толщины слюдяной прокладки.
Р е ш е н и е. Вначале вычисляем выборочное среднее:

= (0,023 × 3 + 0,027 × 7 + 0,031 × 18 + 0,035 × 10 + 0,039 × 5 + 0,043 × 3 + 0,047 × 4)/50 =
= 0,03356 мм.
Теперь находим выборочную дисперсию:

=
= (0,0232 × 3 + 0,0272 × 7 + 0,0312 × 18 + 0,0352 × 10 + 0,0392 × 5 + 0.0432 × 3 +
+ 0,0472 × 4) / 50 – 0,033562 = 3,82464 × 10-5 мм2.
Исправленная выборочная дисперсия легко находится:

× 3,82464 × 10-5 = 3,9027 × 10-5 мм 2.
Выборочное среднеквадратическое отклонение толщины прокладки равно

Из-за того, что в группированной выборке участвуют уже только середины интервалов разбиения, группировка выборки приводит к некоторой потере информации, содержащейся в исходной выборке. Поэтому, исходя из опыта, объем выборки n берут достаточно большим (не менее нескольких десятков), а число интервалов разбиения k – в пределах от 5 до 15. В этом случае разница в оценках параметров распределения, полученных по группированной и не группированной выборкам, оказывается незначительной. Так, в только что рассмотренном примере оценки М(Х) и s, вычисленные по группированной выборке, оказались равными:

А если выборку не группировать, то для оценок М(Х) и s получатся соответственно значения 0,0331 мм и 6,25 мк, что весьма незначительно отличается от значений оценок по группированной выборке.
З а м е ч а н и е. В случае малых или, наоборот, больших значений

для упрощения вычисления

полезно использовать формулу, позволяющую оперировать с привычными числами:

,
где числа C1 и C выбираются, исходя из удобств вычислений.
Например, вычисление

в предыдущем примере проще осуществить по формуле:

.
В заключение отметим, что возможность вычисления значений

предусмотрена в “инженерных” и “научных” калькуляторах.

6.3. Примеры некоторых распределений

В лекции 2 описано нормальное распределение случайной непрерывной величины. Плотность вероятности нормального распределения величины Х, имеющей математическое ожидание М(Х) = а и дисперсию D(Х) = s2 имеет вид

.
Множество нормально распределенных случайных величин с параметрами а и s2 обозначается N(а, s2). В теории вероятностей доказывается, что сумма нормально распределенных случайных величин имеет нормальное распределение. Поэтому случайная величина

, где

- независимые случайные величины, будет нормально распределена с параметрами а и

. Иными словами,

З а м е ч а н и е. Равенства

были получены в конце п. 6.3 (задача № 2).
Пусть (х1, х2, ..., хn) - математическая выборка из генеральной совокупности, порожденной распределением

или из генеральной совокупности, образованной независимыми случайными величинами с математическим ожиданием а и дисперсией

. Тогда можно доказать несколько следующих утверждений.
1. Случайная величина

имеет стандартизированное нормальное распределение N(0; 1) или асимптотически стандартизированное нормальное распределение, плотность вероятности которого

.
В п. 2.6.2.2 было показано, что если x > 0, то

, где

- функция Лапласа. Для любого

имеем

.
Заметим, что функция

- чётная:

, а функция Лапласа – нечётная:

.
Таблицы значений функций

для x > 0 приводятся в Приложении (табл. 1 и 2).
2. Рассмотрим схему испытаний Бернулли, где в каждом из n опытов событие А реализуется с вероятностью р. Введём случайные величины: хi = 1, если в i-ом опыте произошло событие А, и хi = 0, если в i-ом опыте событие А не произошло. Образуем случайную величину

.
Доказывается, что случайная величина

имеет асимптотически стандартизированное распределение, т.е. при достаточно большом числе опытов

.
3. Случайная величина

, где

, называется отношением Стьюдента с (n - 1) степенью свободы. Поясним последнее обстоятельство. Величина Т зависит от случайных величин

(в силу того, что

) и S, т.е. Т зависит от (n + 1) случайной величины. Но среди этих случайных величин есть две функциональные связи:

. Поэтому независимых случайных величин, участвующих в формировании случайной величины Т, будет

, что и является её числом степеней свободы.
Заметим, что в теории вероятностей доказывается, что

и S - независимые случайные величины.
Обозначим плотность вероятности случайной величины Т с

степенями свободы через

. Распределение величины Т называется распределением Стьюдента с k степенями свободы. Известно, что эта плотность вероятности – функция чётная:

, а также, что

.
Таблицы при заданных значениях m, g, a для определения значений x > 0, удовлетворяющих равенствам

,
приводятся в Приложении (табл.4).
4. Случайная величина

имеет распределение Стьюдента с числом степеней свободы m = n - 2, если

. Здесь

- коэффициент корреляции случайных величин X и Y, а

- его выборочное значение, равное

.
5. Случайная величина

имеет распределениехи-квадрат с m = n - 1 степенью свободы. Обозначим плотность вероятности величины c2 как

. Тогда для x > 0 имеем

Если

, то вероятность случайной величине принять значение между х1 и х2 равна

Таблица при заданных параметрах m = n – 1, 0 < a < 1 для значений х, удовлетворяющих равенству

, приводится в Приложении (табл. 5).
Математическое ожидание и дисперсия для хи-квадрат распределения равны

; мода распределения, т.е. значение варианты, для которой плотность вероятности максимальна, равна xо = m – 2.
Таблицы для определения х, удовлетворяющего уравнению

, обычно приводятся для числа степеней свободы m в диапазоне:

. Если же m > 30, то используется тот факт, что случайная величина

распределена асимптотически нормально, т.е.

, m >> 1. Это позволяет получить приближенное решение уравнения

в виде

, где Ka - квантиль порядка a нормального стандартизированного распределения (квантиль порядка a случайной величины Х определяется как корень уравнения F(Ka) =

, что нормальной случайной величины выглядит так:

, где

- функция Лапласа). Если величина a близка к 0 или 1, то следует пользоваться приближением

.
З а д а ч а № 1 . Найти значение х, удовлетворяющее уравнению

, где m = 100, a = 0,01.
Р е ш е н и е . Т.к. число степеней свободы m = 100 > 30, то использовать табл. 5 нельзя. Воспользуемся формулой

, где Кa - корень уравнения

, т.е.

. По табл. 2 значений функции Лапласа Ф(х) получим: (-Кa) = 2,33, т.е. Кa = -2,33. Затем вычисляем

.
Если же воспользоваться формулой

, то получим

. Т.е. оба приближения дают практически одинаковые значения х: 69,3 и 70.
З а д а ч а № 2. В предыдущем примере возьмём a = 0,001 и найдём х.
Р е ш е н и е . Значение х следующее:

, где величина Кa удовлетворяет уравнению

. По табл.2 находим: (-Кa) = 3,08, т.е. Кa = - 3,08, и поэтому

.
Формула

дает значение

.
Итак, с уменьшением вероятности a от 0,01 до 0,001 разница между искомыми значениями х, вычисленными по двум разным формулам:

, увеличилась, хотя оба приближения и дают близкие результаты (60,8 и 62).

К началу К следующей лекции

К приложению К содержанию К титулу

Не сдавайте скачаную работу преподавателю!

Данный конспект лекций Вы можете использовать для создания шпаргалок и подготовки к экзаменам.

Доработать Узнать цену работы по вашей теме

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Заказать работу:

!	Курсовая работа
!	Дипломная работа
!	Реферат
!	Решение задач
!	Отчет по практике
!	Контрольная работа

Пишем конспект самостоятельно:

!	Как написать конспект Как правильно подойти к написанию чтобы быстро и информативно все зафиксировать.

Другие популярные конспекты:

Конспект	Движение тел в жидкостях и газах.
Конспект	Основные проблемы и этапы развития средневековой философии
Конспект	СОЕДИНЕНИЕ ПЛАНЕТЫ С ЛУННЫМИ УЗЛАМИ.
Конспект	Основы финансовых вычислений
Конспект	Лекция 1. История возникновения и развития межкультурной коммуникации
Конспект	Проблема познаваемости мира. Гносеологический оптимизм, скептицизм, агностицизм. Взаимосвязь субъекта и объекта познания
Конспект	Внутренняя политика первых Романовых.
Конспект	Понятие финансовой устойчивости организации
Конспект	Синтагматические, парадигматические и иерархические отношения в языке
Конспект	Техника безопасности при работах на высоте и за бортом судна

Сейчас смотрят :

Конспект	Понятие культуры и основные методологические подходы к определению культуры
Конспект	Теории управления
Конспект	Глобальные проблемы современности
Конспект	СЕРЕБРЯНЫЙ ВЕК» РУССКОЙ КУЛЬТУРЫ
Конспект	Логистика на автомобильном транспорте

Конспект лекций по предмету "Геология"

Лекция 6. Математическая статистика

Другие популярные конспекты:

Сейчас смотрят :