Реферат по предмету "Математика"


Распределение "хи-квадрат" и его применение

Министерствообразования и науки Российской Федерации
Федеральноеагентство по образованию города Иркутска
Байкальскийгосударственный университет экономики и права
Кафедра Информатикии Кибернетики
Распределение«хи-квадрат» и его применение
Самостоятельнаяработа
Автор работы:
Колмыкова Анна Андреевна
студентка 2 курса
группы ИС-09-1
Иркутск 2010
Содержание
Введение
1. Распределение «хи-квадрат»
2. «Хи-квадрат» в задачах статистического анализа данных
Приложение
Заключение
Список используемой литературы
Введение
Как подходы, идеи ирезультаты теории вероятностей используются в нашей жизни?
Базой являетсявероятностная модель реального явления или процесса, т.е. математическаямодель, в которой объективные соотношения выражены в терминах теории вероятностей.Вероятности используются, прежде всего, для описания неопределенностей, которыенеобходимо учитывать при принятии решений. Имеются в виду, как нежелательныевозможности (риски), так и привлекательные («счастливый случай»).Иногда случайность вносится в ситуацию сознательно, например, при жеребьевке,случайном отборе единиц для контроля, проведении лотерей или опросовпотребителей.
Теория вероятностейпозволяет по одним вероятностям рассчитать другие, интересующие исследователя.
Вероятностная модельявления или процесса является фундаментом математической статистики.Используются два параллельных ряда понятий – относящиеся к теории(вероятностной модели) и относящиеся к практике (выборке результатовнаблюдений). Например, теоретической вероятности соответствует частота,найденная по выборке. Математическому ожиданию (теоретический ряд)соответствует выборочное среднее арифметическое (практический ряд). Какправило, выборочные характеристики являются оценками теоретических. При этомвеличины, относящиеся к теоретическому ряду, «находятся в головахисследователей», относятся к миру идей (по древнегреческому философуПлатону), недоступны для непосредственного измерения. Исследователи располагаютлишь выборочными данными, с помощью которых они стараются установить интересующиеих свойства теоретической вероятностной модели.
Зачем же нужнавероятностная модель? Дело в том, что только с ее помощью можно перенестисвойства, установленные по результатам анализа конкретной выборки, на другиевыборки, а также на всю так называемую генеральную совокупность. Термин «генеральнаясовокупность» используется, когда речь идет о большой, но конечнойсовокупности изучаемых единиц. Например, о совокупности всех жителей России илисовокупности всех потребителей растворимого кофе в Москве. Цель маркетинговыхили социологических опросов состоит в том, чтобы утверждения, полученные повыборке из сотен или тысяч человек, перенести на генеральные совокупности внесколько миллионов человек. При контроле качества в роли генеральнойсовокупности выступает партия продукции.
Чтобы перенести выводы свыборки на более обширную совокупность, необходимы те или иные предположения освязи выборочных характеристик с характеристиками этой более обширнойсовокупности. Эти предположения основаны на соответствующей вероятностноймодели.
Конечно, можнообрабатывать выборочные данные, не используя ту или иную вероятностную модель.Например, можно рассчитывать выборочное среднее арифметическое, подсчитыватьчастоту выполнения тех или иных условий и т.п. Однако результаты расчетов будутотноситься только к конкретной выборке, перенос полученных с их помощью выводовна какую-либо иную совокупность некорректен. Иногда подобную деятельностьназывают «анализ данных». По сравнению с вероятностно-статистическимиметодами анализ данных имеет ограниченную познавательную ценность.
Итак, использованиевероятностных моделей на основе оценивания и проверки гипотез с помощьювыборочных характеристик – вот суть вероятностно-статистических методовпринятия решений.
1. Распределение «хи-квадрат»/> С помощью нормального распределения определяются трираспределения, которые в настоящее время часто используются при статистическойобработке данных. Этораспределения Пирсона («хи – квадрат»), Стьюдента и Фишера.
Мы остановимся на распределении /> («хи – квадрат»). Впервые этораспределение было исследовано астрономом Ф.Хельмертом в 1876 году. В связи сгауссовской теорией ошибок он исследовал суммы квадратов n независимыхстандартно нормально распределенных случайных величин. Позднее Карл Пирсон (KarlPearson) дал имяданной функции распределения «хи – квадрат». И сейчас распределениеносит его имя.
Благодарятесной связи с нормальным распределением, χ2-распределение играет важнуюроль в теории вероятностей и математической статистике. χ2-распределение,и многие другие распределения, которые определяются посредствомχ2-распределения (например — распределение Стьюдента), описываютвыборочные распределения различных функций от нормально распределенныхрезультатов наблюдений и используются для построения доверительных интервалов истатистических критериев.
РаспределениеПирсона /> (хи — квадрат) –распределение случайной величины/> где X1, X2,…, Xn — нормальные независимые случайные величины, причем математическое ожиданиекаждой из них равно нулю, а среднее квадратическое отклонение — единице.
Суммаквадратов
 
/>
 

распределенапо закону /> («хи –квадрат»)./>При этом число слагаемых, т.е. n, называется «числомстепеней свободы» распределения хи – квадрат. C увеличением числа степеней свободы распределение медленноприближается к нормальному./>Плотностьэтого распределения/>/> Итак,распределение χ2 зависит от одного параметра n – числа степеней свободы.
Функция распределенияχ2 имеет вид:
/>
если χ2≥0.(2.7.)/>На Рисунок1 изображен график плотности вероятности и функции χ2 – распределения дляразных степеней свободы.

/>
Рисунок 1 Зависимость плотности вероятности φ(x) в распределении χ2 (хи – квадрат) при разном числе степеней свободы.
Моменты распределения «хи-квадрат»:
M[χ2]=n
D[χ2]=2n
Распределение «хи-квадрат»используют при оценивании дисперсии (с помощью доверительного интервала), припроверке гипотез согласия, однородности, независимости, прежде всего длякачественных (категоризованных) переменных, принимающих конечное числозначений, и во многих других задачах статистического анализа данных. 2.«Хи-квадрат» в задачах статистического анализа данных
Статистические методыанализа данных применяются практически во всех областях деятельности человека.Их используют всегда, когда необходимо получить и обосновать какие-либосуждения о группе (объектов или субъектов) с некоторой внутреннейнеоднородностью.
Современный этап развитиястатистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсоносновал журнал «Biometrika». Первая треть ХХ в. прошла под знакомпараметрической статистики. Изучались методы, основанные на анализе данных изпараметрических семейств распределений, описываемых кривыми семейства Пирсона.Наиболее популярным было нормальное распределение. Для проверки гипотезиспользовались критерии Пирсона, Стьюдента, Фишера. Были предложены методмаксимального правдоподобия, дисперсионный анализ, сформулированы основные идеипланирования эксперимента.
Распределение «хи-квадрат»является одним из наиболее широко используемых в статистике для проверкистатистических гипотез. На основе распределения «хи-квадрат» построенодин из наиболее мощных критериев согласия – критерий «хи-квадрата»Пирсона.
Критерием согласияназывают критерий проверки гипотезы о предполагаемом законе неизвестногораспределения.
Критерий χ2 («хи-квадрат»)используется для проверки гипотезы различных распределений. В этом заключаетсяего достоинство.
Расчетная формулакритерия равна
/>
где mи m’ — соответственно эмпирические и теоретические частоты
рассматриваемогораспределения;
n — числостепеней свободы.
Для проверки намнеобходимо сравнивать эмпирические (наблюдаемые) и теоретические (вычисленные впредположении нормального распределения) частоты.
При полном совпаденииэмпирических частот с частотами, вычисленными или ожидаемыми S (Э – Т) = 0 и критерийχ2 тоже будет равен нулю. Если же S ( Э – Т) не равно нулю это укажет нанесоответствие вычисленных частот эмпирическим частотам ряда. В таких случаяхнеобходимо оценить значимость критерия χ2, который теоретически можетизменяться от нуля до бесконечности. Это производится путем сравненияфактически полученной величины χ2ф с его критическим значением(χ2st).Нулевая гипотеза, т. е. предположение, что расхождение междуэмпирическими и теоретическими или ожидаемыми частотами носит случайныйхарактер, опровергается, если χ2ф больше или равно χ2st для принятогоуровня значимости (a) и числа степеней свободы (n).
Распределение вероятныхзначений случайной величины χ2 непрерывно и ассиметрично. Оно зависит отчисла степеней свободы (n) иприближается к нормальному распределению по мере увеличения числа наблюдений.Поэтому применение критерия χ2 к оценке дискретных распределений сопряженос некоторыми погрешностями, которые сказываются на его величине, особенно намалочисленных выборках. Для получения более точных оценок выборка,распределяемая в вариационный ряд, должна иметь не менее 50 вариантов.Правильное применение критерия χ2 требует также, чтобы частоты вариантов вкрайних классах не были бы меньше 5; если их меньше 5, то они объединяются счастотами соседних классов, чтобы в сумме составляли величину большую илиравную 5. Соответственно объединению частот уменьшается и число классов (N).Число степеней свободы устанавливается по вторичному числу классов с учетомчисла ограничений свободы вариации.
Так как точностьопределения критерия χ2 в значительной степени зависит от точности расчетатеоретических частот (Т), для получения разности между эмпирическими ивычисленными частотами следует использовать неокругленные теоретические частоты.
В качестве примеравозьмем исследование, опубликованное на сайте, который посвящен применениюстатистических методов в гуманитарных науках.
Критерий «Хи-квадрат»позволяет сравнивать распределения частот вне зависимости от того, распределеныони нормально или нет.
Под частотой понимаетсяколичество появлений какого-либо события. Обычно, с частотой появления событияимеют дело, когда переменные измерены в шкале наименований и другой иххарактеристики, кроме частоты подобрать невозможно или проблематично. Другимисловами, когда переменная имеет качественные характеристики. Так же многиеисследователи склонны переводить баллы теста в уровни (высокий, средний,низкий) и строить таблицы распределений баллов, чтобы узнать количество человекпо этим уровням. Чтобы доказать, что в одном из уровней (в одной из категорий)количество человек действительно больше (меньше) так же используетсякоэффициент Хи-квадрат.
Разберем самый простойпример.
Среди младших подростковбыл проведён тест для выявления самооценки. Баллы теста были переведены в триуровня: высокий, средний, низкий. Частоты распределились следующим образом:
Высокий (В) 27 чел.
Средний (С) 12 чел.
Низкий (Н) 11 чел.
Очевидно, что детей свысокой самооценкой большинство, однако это нужно доказать статистически. Дляэтого используем критерий Хи-квадрат.
Наша задача проверить,отличаются ли полученные эмпирические данные от теоретически равновероятных.Для этого необходимо найти теоретические частоты. В нашем случае, теоретическиечастоты – это равновероятные частоты, которые находятся путём сложения всехчастот и деления на количество категорий.
В нашем случае:
(В + С + Н)/3 =(27+12+11)/3 = 16,6

Формула для расчетакритерия хи-квадрат:
χ2 = ∑(Э — Т)²/ Т/> Строимтаблицу: Эмпирич. (Э) Теоретич. (Т) (Э — Т)² / Т Высокий 27 чел. 16,6 6,41 Средний 12 чел. 16,6 1,31 Низкий 11 чел. 16,6 1,93 /> Находимсумму последнего столбца:/> χ2= 9,64/> Теперьнужно найти критическое значение критерия по таблице критических значений (Таблица 1 в приложении). Для этого нам понадобится числостепеней свободы (n)./> n = (R- 1) * (C — 1)гдеR – количество строк в таблице, C – количество столбцов./>В нашемслучае только один столбец (имеются в виду исходные эмпирические частоты) и тристроки (категории), поэтому формула изменяется – исключаем столбцы./> n = (R- 1) = 3-1 = 2/> Длявероятности ошибки p≤0,05 и n = 2 критическое значение χ2= 5,99./>Полученноеэмпирическое значение больше критического – различия частот достоверны (χ2= 9,64; p≤0,05)./>Как видим,расчет критерия очень прост и не занимает много времени. Практическая ценностькритерия хи-квадрат огромна. Этот метод оказывается наиболее ценным при анализеответов на вопросы анкет./>Разберемболее сложный пример./>К примеру,психолог хочет узнать, действительно ли то, что учителя более предвзятоотносятся к мальчикам, чем к девочкам. Т.е. более склонны хвалить девочек. Дляэтого психологом были проанализированы характеристики учеников, написанные учителями,на предмет частоты встречаемости трех слов: «активный», «старательный»,«дисциплинированный», синонимы слов так же подсчитывались. Данные очастоте встречаемости слов были занесены в таблицу: «Активный» «Старательный» «Дисциплинированный» Мальчики 10 5 6 Девочки 6 12 9
Для обработки полученныхданных используем критерий хи-квадрат.
Для этого построимтаблицу распределения эмпирических частот, т.е. тех частот, которые мынаблюдаем: «Активный» «Старательный» «Дисциплинированный» Итого: Мальчики 10 5 6 21 Девочки 6 12 9 27 Итого: 16 17 15 s=48
Теоретически, мы ожидаем,что частоты распределятся равновероятно, т.е. частота распределитсяпропорционально между мальчиками и девочками. Построим таблицу теоретических частот.Для этого умножим сумму по строке на сумму по столбцу и разделим получившеесячисло на общую сумму (s).
«Активный» «Старательный» «Дисциплинированный» Итого: Мальчики (21 * 16)/48 = 7 (21 * 17)/48 = 7.44 (21 * 15)/48 = 6.56 21 Девочки (27 * 16)/48 = 9 (27 * 17)/48 = 9.56 (27 * 15)/48 = 8.44 27 Итого: 16 17 15 s=48
Итоговая таблица длявычислений будет выглядеть так:Категория 1 Категория 2 Эмпирич. (Э) Теоретич. (Т) (Э — Т)² / Т Мальчики «Активный» 10 7 1,28 «Старательный» 5 7,74 0,8 «Дисциплинированный» 6 6,56 0,47 Девочки «Активный» 6 9 1 «Старательный» 12 9,56 0,62 «Дисциплинированный» 9 8,44 0,04 Сумма: 4,21
χ2 = ∑(Э — Т)²/ Т
n = (R — 1), где R –количество строк в таблице.
В нашем случае хи-квадрат= 4,21; n = 2.
По таблице критическихзначений критерия находим: при n = 2и уровне ошибки 0,05 критическое значение χ2 = 5,99.
Полученное значениеменьше критического, а значит принимается нулевая гипотеза.
Вывод: учителя не придаютзначение полу ребенка при написании ему характеристики.
Приложение/> Критическиеточки распределения χ2
 
Таблица1
/>
/>/>Заключение
Студенты почти всехспециальностей изучают в конце курса высшей математики раздел «теориявероятностей и математическая статистика», реально они знакомятся лишь снекоторыми основными понятиями и результатами, которых явно не достаточно дляпрактической работы. С некоторыми математическими методами исследованиястуденты встречаются в специальных курсах (например, таких, как«Прогнозирование и технико-экономическое планирование»,«Технико-экономический анализ», «Контроль качествапродукции», «Маркетинг», «Контроллинг»,«Математические методы прогнозирования», «Статистика» и др.– в случае студентов экономических специальностей), однако изложение вбольшинстве случаев носит весьма сокращенный и рецептурный характер. Врезультате знаний у специалистов по прикладной статистике недостаточно.
Поэтому большое значениеимеет курс «Прикладная статистика» в технических вузах, а вэкономических вузах – курса «Эконометрика», поскольку эконометрика –это, как известно, статистический анализ конкретных экономических данных./>Теориявероятности и математическая статистика дают фундаментальные знания дляприкладной статистики и эконометрики.Онинеобходимы специалистам для практической работы.Ярассмотрела непрерывную вероятностную модель и постаралась на примерах показатьее используемость./>И в концесвоей работы я пришла к выводу, что грамотная реализация основных процедурматематико-статического анализа данных, статическая проверка гипотез невозможнабез знания модели «хи-квадрат», а также умения пользоваться еетаблицей.
Список используемой литературы
1. Орлов А.И.Прикладная статистика. М.: Издательство «Экзамен», 2004.
2. Гмурман В.Е.Теория вероятностей и математическая статистика. М.: Высшая школа, 1999. – 479с.
3. Айвозян С.А.Теория вероятностей и прикладная статистика, т.1. М.: Юнити, 2001. – 656с.
4. Хамитов Г.П.,Ведерникова Т.И. Вероятности и статистика. Иркутск: БГУЭП, 2006 – 272с.
5. Ежова Л.Н.Эконометрика. Иркутск: БГУЭП, 2002. – 314с.
6. Мостеллер Ф.Пятьдесят занимательных вероятностных задач с решениями. М.: Наука, 1975. –111с.
7. Мостеллер Ф.Вероятность. М.: Мир, 1969. – 428с.
8. Яглом А.М.Вероятность и информация. М.: Наука, 1973. – 511с.
9. Чистяков В.П.Курс теории вероятностей. М.: Наука, 1982. – 256с.
10.  Кремер Н.Ш. Теориявероятностей и математическая статистика. М.: ЮНИТИ, 2000. – 543с.
11.  Математическаяэнциклопедия, т.1. М.: Советская энциклопедия, 1976. – 655с.
12.  http://psystat.at.ua/- Статистика в психологии и педагогике. Статья Критерий Хи-квадрат. Автор:Попов О.А.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.