Введение
Истоками математической статистики (М.С.) является большой объем
статистических данных и потребность после их специальной обработки сделать
прогноз развития исходной ситуации.
Первый раздел М.С. – описательная статистика – предназначена для
сбора, представления в удобном виде и описания исходных данных.
Описательная статистика обрабатывает два вида данных: количественные и
качественные.
К количественным относятся рост, вес и т.д. к качественным – тип
темперамента, пол.
Описательная статистика позволяет описать, обобщить, свести к
желаемому виду свойства массивов данных.
Второй раздел М.С. – теория статистического вывода – это
формализованная система методов решения задач, сводящихся к попытке вывести
свойства большого массива данных путем обследования его малой части.
Статистический вывод строится на описательной статистике и от частных
свойств выборки данных мы переходим к частным свойствам совокупности.
Третий раздел М.С. - планирование и анализ эксперта. Разработана для
обнаружения и анализа причинных связей между переменными.
Измерение, шкалы и статистика
Измерение – это приписывание чисел объектам в соответствии с
определенными правилами. Числа – это удобные в обработке объекты, в которые
мы преобразуем определенные свойства нашего восприятия.
Шкала наименований или номинальная шкала. Номинальное измерение
сводится к разбиению совокупности объектов на классы в каждом из которых
сосредоточены объекты, идентичные по какому-нибудь признаку или свойству,
например, по национальности, по полу, по типу темперамента.
При данных измерениях каждому из классов присваивается число, но оно
используется исключительно как название этого класса и никаких операций над
этими числами производить не предполагается.
Порядковое измерение возможно только тогда, когда в квалифицируемых
объектах можно различить разную степень признака и свойства, на основе
которого производится квалификация (например, конкурс красоты «Умники и
умницы»). В данном случае числа используют только одно свое свойство –
способность упорядочиваться.
Интервальная шкала принимается тогда, когда можно определить не
только количество, свойства или признака в объекте, но также зафиксировать
равные различия между объектами, то есть можно ввести единицу измерения для
свойства или признака (например, температура, возраст).
Числа при интервальных измерениях имеют свойство упорядоченности и
однозначности. Равные разности чисел соответствуют равным разностям
значений измеряемого свойства или признака объекта.
Шкала отношений отличается от интервальной только тем, что точка
отсчета не произвольна, а указывает на полное отсутствие измеряемого
свойства или признака объекта.
Переменные и их измерение
Переменные бывают дискретные и непрерывные. При измерениях, особенно
непрерывных свойств или признаков, можно достигнуть только косвенного
значения переменной, то есть приближенного к точному и степень этого
приближения будет определяться чувствительностью измерения.
Чувствительность определяется минимальной единицей цифровой шкалы,
имеющейся в нашем распоряжении.
Пределы для точного значения устанавливаются путем прибавления и
вычитания половины чувствительности измерительного процесса.
Множество чисел записывается с использованием произвольной величины с
индексом, который указывает порядковый номер величины в цепи данных (xi).
Обозначение ( и его свойства
1. [pic]
2. [pic]
3. [pic]
4. [pic]
5. [pic]
Табулирование и представление данных
Перед анализом и интерпретацией данных их обобщают.
Обобщение – запись данных в виде таблицы. Самый элементарный этап.
Ранжирование – упорядочение переменных от максимального до минимального или
наоборот. Такое упорядочивание называется несгруппированным рангом.
Распределение частот. Проранжированный список сворачивают, указывая все
полученные измерения подряд, однократно, а в соседней графе указывают
частоту, с которой встречается данная оценка
Распределение сгруппированных частот применяется при большом количестве
оценок (100 и более). Оценки группируются по признакам и каждая такая
группа называется разрядом оценок. В случае полного поглощения этими
группами всех данных, мы говорим о распределении сгруппированных частот.
Построение распределения сгруппированных частот
|Оценки |Интервал |Подсчет |Частота |
|90 95 51 112 |110-114 |1 |1 |
|66 78 109 62 |105-109 |111 |3 |
|106 70 89 91 |100-104 |11 |2 |
|84 47 58 93 |95-99 |1111 |4 |
|105 95 59 84 |90-94 |111 |3 |
|83 100 72 |85-89 |1 |1 |
|104 69 74 |80-89 |111111 |6 |
|82 44 75 |75-79 |1111 |4 |
|97 80 81 |70-74 |1111 |4 |
|97 75 71 |65-69 |111 |3 |
|59 75 68 |60-64 |1 |1 |
| |55-59 |111 |3 |
| |50-54 |1 |1 |
| |45-49 |1 |1 |
| |44-45 |1 |1 |
Предварительно образовывать не менее 12 и более 15. Меньше 12 искажает
результат, более 15 затрудняет работу с таблицей.
1) Определяем размах – разницу между максимальной и минимальной
оценкой (112-44=69)
2) Выбор интервала разряда: 69:12=5,75
Определяем с уменьшением до 5: 69:15=4,6
3) Определение границ раздела. Необходимо образовать достаточное
количество разрядов, чтобы не потерять самую маленькую и самую большую
оценки, поэтому табулирование начнем с величины кратной интервалу.
Ближайшее кратное 5 ниже нижней оценки – это 40. И делим на разряды до тех
пор, пока не будет охвачена самая высокая оценка. Если необходимо сравнить
2 и более выборки, их помещают в такую же таблицу.
Квантили
Квантили – это способ описать группу измерений. Квантиль – это общее
понятие.
Квантиль – точка на числовой шкале, которая делит совокупность
наблюдений на группы с соответствующими пропорциями в каждой из них.
Квартиль – делит наблюдения на 4 группы (Q)
Дециль – делит наблюдения на 10 групп (D)
Квинтель – делит наблюдения на 5 групп (К)
Процентиль – делит наблюдения на 100 групп (Р)
Определение процентелей
Процентель представляет собой точку, ниже которой лежит Р % - в
оценок.
Вычисление процентеля
|Нормальное |3 |
|Островершинное |больше 3 и может быть очень большим |
|Плосковершинное |больше нуля, но меньше 3 |
Эти четыре момента составляют набор особенностей распределения при
анализе данных.
Нормальное распределение
Нормальное распределение лучше всего описывается кривой созданной
ДеМуавром по следующей формуле:
[pic]
где U – высота кривой над осью x, ( и ? – числа, которые определяют
положение кривой относительно числовой оси и регулируют ее размах. Для ?=0,
(=1 график принимает вид:
Эта кривая при ?=0, (=1 получила статус стандарта, ее называют
единичной нормальной кривой, то есть любые собранные данные стремятся
преобразовать так, чтобы кривая их распределения была максимально близка к
этой стандартной кривой. Созданы статистические таблицы со значениями
площади под единичной нормальной кривой влево от любой точки на оси z в (-
3; 3). Общая площадь под кривой равна 1. И все остальные площади
рассматривают как процент от целого.
Свойства нормальных кривых:
Семейство нормальных кривых включают в себе все кривые, которые можно
получить по данной формуле, отличающиеся друг от друга только парой
значений ( и ? .
1. 68% площади лежит в интервале [pic]
2. 95% площади лежит в интервале [pic]
3. 99,7% площади лежит в интервале [pic]
Если x имеет нормальное распределение со средним ? и стандартным
отклонение (, то z равное [pic] характеризуется распределением со средним
равным нулю и стандартным отклонением равным 1. Площадь между двумя
значениями x в нормальном распределении равна площади между ux
стандартизованными величинами в единичном нормальном распределении.
Нормализованную кривую изобрели для решения задач теории вероятности, но
оказалось на практике, что она отлично аппроксимирует распределение черт
при большом числе наблюдений для множества переменных. Можно предположить,
сто не имея материальных ограничений на количество объектов и время
проведения эксперимента, статистическое исследование приводило к нормально
кривой.
Двумерное нормальное распределение
Если при исследовании появляется вопрос о связи между двумя
переменными для одного и того же объекта (например, рост и интеллект) мы
говорим о двумерных связях и результаты эксперимента находят свое отражение
в двумерном распределении частот.
Уравнение поверхности называется двумерным нормальным распределением
(гладкая непрерывная колоколообразная поверхность)
Характеристики нормального распределения . Распределение значений x без учета значений y есть нормальное распределение; . Распределение значений y без учета значений x, тоже нормальное распределение; . Для каждого фиксированного значения x значение y дают нормальное распределение с дисперсией [pic]; . Для каждого фиксированного значения y значение x распределяется нормально с дисперсией [pic]; . Среднее значения y для каждого отдельного значения x ложатся на переменную.
Меры изменчивости
При решении вопроса о наличии взаимосвязи (корреляции) между двумя
переменными, руководствуются несколькими коэффициентами. Связь, выраженная
графически, называется диаграммной рассеивания, где x – оценка IQ, y –
оценка теста по математике.
Положение каждого объекта на диаграмме распределения определяется
парой значений xi, yi и выражаются по отношению к мере центральной
тенденции величинами [pic], [pic]. Если объект имеет высокие показатели по
обеим переменным, то эти величины получаются большими и положительными, в
противном случае, если xi, yi малы, то разность большой и отрицательной.
В дальнейшем будем говорить о произведении этих разностей и в том
случае когда наблюдается прямая связь между этими переменными, произведение
будет большим и положительным, следовательно такой же будет и сумма этих
произведений [pic].
В случае обратной связи, когда большим значениям yi соответствуют
малые значения xi и наоборот, в этом случае произведение разностей будет
большим и отрицательным и сумма разностей также будет большой и
отрицательной.
Если между переменными не наблюдается какой-либо связи , количество
положительных и отрицательных произведений примерно рано и сумма их близка
к нулю. Таким образом большая положительная сумма – жесткая прямая
зависимость; большая отрицательная сумма – сильная обратная зависимость;
близость к нулю – отсутствие зависимости.
Недостатком этой меры является то, что ее величина зависит от числа
пар переменных x участвующих в расчетах.
Чтобы избежать связь независимого состояния V групп, мы усредняем эти
значения:
[pic] - ковариация
Частный случай, ковариация переменной с самой сабой – дисперсия
Чтобы избавить меру связи от отклонений двух групп значений:
[pic] - коэффициент кореляции Пирсона или произведение моментов.
[pic]
Значение коэффициента Пирсона не может выйти за границы интервала (-
1; 1).
Влияние линейного преобразования переменных на коэффициент кореляции
Вместо xi вводим в формулу bx+ a, где a, b – коэффициенты, для yi
вводим в формулу dy+ c, где c, d – коэффициенты.
[pic]
[pic]
[pic]
[pic]
Вопрос о кореляции между переменными будучи решен положительно не
означает наличия более общего вида связи (заработная плата учителям и
количество поступивших в ВУЗы после окончания школы). Если мы проводим
идентификацию групп с различным средним, наличие кореляции не исключено, но
возможно другое объяснение взаимосвязи, чем вытекающее их эксперимента.
Отсутствие связи при нулевом коэффициента Пирсона означает всего лишь
отсутствие линейной связи.
Дисперсия суммы и разности переменных
[pic]
[pic]
[pic]
Предсказание и оценивание
Переменная, которую мы хотим оценить называется зависимой переменной
или откликом , обозначим ее через y.
Переменная которую мы используем для оценки называется независимой
переменной или фактором, ее обозначим через x.
Конкретная характеристика (переменная x) имеющаяся в нашем
распоряжении, позволяет получить до проведения эксперимента значение y,
зависимой переменной. Мы получаем [pic] используя xi и коэффициенты b1 и
b0.
Даже при наилучшем линейном предсказании, предсказание [pic] будет
отличаться от реального yi на какую-то величину, которую мы назовем ошибкой
оценки и обозначим ei:
[pic]
Точность предсказания зависит от того, насколько удачно подобраны
коэффициента b1 и b0. Критерием успешности подбора коэффициентов является
минимальная величина суммы квадратов всех ошибок оценки [pic]– критерий
наименьших квадратов
Другой критерий: [pic]. Этот критерий приводит к медианой линии
регрессии. Из уравнения [pic] следует [pic]
Исходя из минимизации формулы наименьших квадратов найдем формулы:
[pic]; [pic]
Наше исследование получается наиболее результативным, если мы
предполагаем, что фактор и отклик имеют двумерные нормальные распределения.
Свойства двумерного нормального распределения
1. Выборочные средние отклика (y) для каждого значения x лежат на прямой;
2. Для любого значения x, соответствующие значения y нормально
распределены;
3. Для любого значения x, y – имеют одинаковую дисперсию [pic].
При прогнозировании является ли среднее ошибок оценки подходящей
мерой для прогнозирования.
[pic]
Средняя ошибка оценки всегда равна нулю. Один из способов доказать
этот факт, это выбрать в качестве меры прогнозирования дисперсию ошибки
оценки.
Стандартная ошибка оценки [pic]
Стандартную ошибку оценки применяют для определения пределов, в
окрестности предсказанного [pic]попадает фактическое значение yi.
В приделах Se – расположено 69% фактических значений объекта, в
приделах 2Se – 95%, в приделах 3Se – 97,5%.
Связь b1 и b0 с другими описательными статистиками
[pic]
[pic]
Если x и y распределены по нормальному закону и имеют одинаковую
дисперсию, то [pic].
Поскольку rxy не зависит от Sx и Sy, b1 - принимает максимальное
значение при rxy =1 и минимальное значение при rxy = -1, следовательно b1
никогда не может быть больше [pic], при rxy =1 и не может быть меньше [pic]
при rxy = -1.
Если между переменными отсутствует линейная связь, b1=0 уравнение
регрессии сводится к прямой без наклона, то есть [pic].
Измерение нелинейной связи между переменными
Для определения меры нелинейной связи между переменными используется
коэффициент [pic]
[pic]
Эта мера может быть использована и для оценки линейной связи.
Пример вычисления:
|x/возраст|10 |14 |18 |22 |26 |30 |34 |38 |
| |7 |8 |9 |11 |9 |8 |7 |8 |
| |8 |9 |10 |11 |10 |9 |9 | |
| |9 |10 |11 |12 |11 |9 |10 | |
| |9 |11 |12 |12 | |10 | | |
| |10 | | | | | | | |
[pic] [pic]
Находим среднее для каждого возраста и суммируем отношения каждого yi от
среднего соответствующего группы.
Для 10 - [pic]=8,6; 18 – 9,5; 22 – 11,5; 26 – 10; 90 – 9; 34 – 8,67; 38 –
8.
[pic]
[pic]
[pic] - является мерой нелинейности связи и [pic]
Другие меры связи
1. Измерения в дихотомической шкале (например, женат – не женат, мужчина – женщина)
2. Измерение в дихотомической шкале наименований в предположении нормального распределения. Предполагается, что при более полных, более совершенных измерениях данные распределятся по нормальному закону.
3. Шкала порядка
4. Измерение в шкале интервалов или отношений.
Рассмотренный ранее коэффициент кореляции Пирсона соответствует
сочетанию J при измерении исходных данных. Для описания степени кореляции
при других комбинациях шкал измерений исходных данных используются
следующие меры.
Случай A.
[pic]
px – доля людей имеющих 1 по x, py – доля людей имеющих 1 по y
qx – доля людей имеющих 0 по x, qy – доля людей имеющих 0 по y
pxy - доля людей имеющих 1 по x и y
№123456789101112x010011010001y011010010101x – женат / холост
y – исключенные из учебного заведения / оставшиеся
px =0,4167 ; py = 0,5 ; qx =0,5833 ; qy = 0,5 ; pxy =0,333; ?=0,507
Если нет особого интереса к доле px и py, дихатомические данные располагают в таблице сопряженности признаков. Пример таблицы сопряженности по приведенным данным
? – определяется по формуле:
[pic]
Коэффициент ?, это тот же коэффициент кореляции Пирсона, но эти данные не похожи на двумерное нормальное распределение, которое мы представляли при вычислении коэффициента Пирсона. Это рассматривается как большое неудобство статистиками.
Случай B.
Удовлетворительного коэффициента для этого случая не существует, рекомендуется исходить из предположения о нормальном распределении данных и вычислять ? в качестве меры связи для этого случая.
Случай C. Для этого случая подходят коэффициенты, о котором мы расскажем в случае I.
Случай D.
Используется биссериальный коэффициент кореляции: [pic]
[pic] - среднее по x объектов имеющих 1 по y.
[pic] - среднее по x объектов имеющих 0 по y.
Sx – стандартное отклонение
Случай E.
Тетрахорический коэффициент кореляции: [pic] Более удобно при расчете обращаться к статическим таблицам, содержащим вычисления из этого уравнения. Они составлены при условии, что bc/ad>1. В противном случае таблица содержит ad/bc и величина тетрахорического коэффициента будет отрицательной.
Случай F. Удовлетворительного коэффициента не разработано, рекомендуется продположить нормальное распределение для x и использовать биссериальный ранговый коэффициент (см. случай G).
Случай G. Биссериальный коэффициент: [pic]
u – ордината нормального распределения.
Случай H.
Используется коэффициент ранговой кореляции Спирмана: [pic] В том случае, если при измерении встречается связанные ранги, это уравнение не подходит в качестве меры кореляции. Связанный ранг возникает в том случае, если у некоторых объектов получено одинаковое значение переменной. В этом случае ранги, которые должны были бы получить эти объекты суммируются и делятся на количество объектов и каждый получает, пролученный при вычислении ранг. До сих пор коэффициенты кореляции представляли из себя или могли быть объяснены в терминах произведения моментов. Коэффициент кореляции, не связвнный с моментами построен Кендаллом и называется ? – Кендалла
[pic]
Случай I. Для этого случая коэффициенты не разработаны, рекомендуется преобразовать оценки по y в ранги и найти или коэффициент Спирмана или Кендалла Бисериальная ранговая кореляция: [pic]
P – сумма всех совпадений; Q – сумма всех инверсий; n0 – число объектов при нулевой дихотомии; n1– число объектов при единичной дихотомии.
-----------------------
|z |1 |2 |3 |4 |
| | | | | |
|1 | | | | |
| | | | | |
|-1 | | | | |
| | | | | |
|0.4 | | | | |
| | | | | |
|1 |A |(B) |(C) |(D) |
|2 |B |E |(F) |(G) |
|3 |C |F |H |(I) |
|4 |D |G |I |J |
| |холост|женат |итог |
|исключ|2 |4 |6 |
| |(А) |(B) |A+B |
|оставш|5 |1 |6 |
| |(C) |(D) |C+D |
|итог |7 |5 | |
| |A+C |B+D | |