Мода, медиана, квартили.
С.В. Усатиков, кандидат физ-мат наук, доцент; С.П.
Грушевский, кандидат физ-мат наук, доцент; М.М. Кириченко, кандидат
социологических наук
Очень
часто исследователю приходится иметь дело с достаточно длинным вариационным
рядом или с целой серией таковых. Это могут быть экономические показатели,
результаты тестирования различных групп, медико-физиологические замеры и т.п.
При их анализе зачастую недостаточно выделения средних арифметических и
дисперсий. В подобных случаях хорошую службу могут сослужить приемы выделения
моды и медианы, а также перцентильный анализ.
Суть
данного метода заключается в том, что объектом анализа являются не частоты сами
по себе, а их распределение относительно жестко структурированных вариант.
Значимость метода заключается не в том, что при его помощи мы анализируем
конкретный вариационый ряд. Понятия моды и медианы являются важной составляющей
частью так называемого нормального распределения, являющегося основой для
расчетов выборки, доказательства или опровержения выдвигаемых гипотез.
Мода.
Мода представляет из себя наиболее часто встречающиеся значения распределения.
При этом следует помнить о различиях модального значения для дисперсных и
непрерывных характеристик. В первом случае модой является варианта с наибольшей
частотой - скажем, максимальный процент выборов в вопросе с номинальной шкалой.
Если же речь идет об интервальном ряде, представляющем собой непрерывную
характеристику признака, то модальным значением будет являться группа с
наибольшим числом наблюдений.
Дискретный ряд (номи-нальная
шкала). Каждая варианта ряда - отдельное явление. В группе учащихся,
указавших на стремление к получению высшего образования, выделены желаемые
профессии (Сумма№ 100%, т.к. имелась возможность нескольких выборов)
Непрерывный ряд (шкала
отношений). Каждая варианта ряда - сгруппированные значения одного класса
явлений.
Результаты испытаний по тесту,
в котром минимально возможное значение - 0 баллов, максимальное - 100
1.
врач
15%
1.
до 10 баллов
0 чел.
2.
инженер-строитель
18%
2.
11-20 баллов
0 чел.
3.
агроном
11%
3.
21-30 баллов
4 чел.
4.
военнослужащий
9%
4.
31-40 баллов
11 чел.
5.
банкир
4%
5.
41-50 баллов
23 чел.
6.
менеджер
9%
6.
51-60 баллов
34 чел.
7.
педагог
13%
7.
61-70 баллов
19 чел
8.
переводчик
15%
8.
71-80 баллов
14 чел.
9.
бухгалтер-экономист
31,2%
9.
81-90 баллов
7 чел
10.
91-100 баллов
1 чел.
(Модальные
значения выделены жирным шрифтом)
При
всей практической полезности понятия моды, необходимо отметить, что ей присущ
ряд недостатков. Она не может служить четким выражением центральной тенденции.
Максимальная частота может преврсходить остальные на порядок (например, 60% в
одном пункте при 3-5% в 9 остальных). Кроме того, возможно встретить ряд, в
котором имеется 2 или более численно значимых частоты при малых значениях
остальных позиций. В этом случае подобные ряды относятся к бимодальным или
полимодальным распределениям( см. рис.1 и 2).
Рис.1
Бимодальное распределение Рис.2 Полимодальное распределение
Помимо
этого при работе со шкалой отношений мода будет не только “кочевать” из одной
группы в другую в зависимости от размера интервала (это вполне естественно), но
при этом изменится, зачастую весьма значительно, ее величина.
Эти
недостатки моды обуславливают то обстоятельство, что в анализе эта
измерительная процедура практически не используется. что впрочем не исключает
ее применеия в описательных целях, в основном в виде фраз типа “модальное
значение признака лежит в интервале...”.
Медиана.
Медианой именуется центральное (серединное) наблюдение в ряду распределения.
Так, в ряду из 203 наблюдений медианным будет являться 102. При четном числе
наблюдений медианой является среднее арифметическое из тех двух наблюдений,
которые делят ряд на две равные части (при n=202, это были бы №№ 101 и 102).
Для ряда логических процедур требуется более дробное деление ряда, поэтому
кроме медианы выделяются по мере необходимости децили (1/10 ряда), квинтили
(1/5) и квартили (1/4). Таким образом, любой ряд может быть разбит на 2 части
медианой, на 4 - квартилями, на 5 - квинтилями, на 10 - децилями.
Продемонстрируем эти значения, а также ряд осуществляемых с ними процедур на
гипотетическом примере. Допустим, при опросе родителей учащихся был использован
традиционный вопрос о размере душевого дохода в семье(см. таб1).
Таблица
1. Распределение по уровню душевого дохода семей учащихся станицы Н-ской
1
33000
21
50000
41
69000
61
91000
81
107000
2
33400
22
52000
42
71000
62
91100
82
120000
3
34000
23
53000
43
73000
63
91300
83
120400
4
35000
24
53800
44
73000
64
91900
84
122000
5
35500
25
55000
45
75000
65
94000
85
124000
6
36000
26
57000
46
77000
66
95000
86
126000
7
37000
27
57000
47
78000
67
96000
87
127000
8
38000
28
58500
48
78100
68
96500
88
133000
9
39700
29
59000
49
79000
69
96600
89
135000
10
41000
30
59000
50
80000
70
96700
90
139000
11
42000
31
60000
51
80000
71
97000
91
141000
12
42000
32
62000
52
81200
72
99000
92
155000
13
43000
33
62000
53
82000
73
99000
93
170000
14
44000
34
62400
54
83000
74
99100
94
172000
15
45000
35
63000
55
84000
75
99600
95
175000
16
45000
36
64000
56
85000
76
100000
96
177000
17
46000
37
65000
57
85000
77
100000
97
200000
18
47000
38
65700
58
86000
78
100000
98
205000
19
47000
39
65800
59
88000
79
101000
99
210000
20
49000
40
66000
60
90000
80
105000
100
250000
101
1750000
Всего:
10398300
Оставим
пока в стороне проблему обснования результата (вероятность ошибки, сложность
учета двух и более источников дохода, перевод в денежные суммы неденежных
поступлений и т.п.). Естественно, что приведенные в таблице данные отражают не
только социально-экономическое расслоение (хотя его нельзя сбрасывать со
счетов). Первые два десятка наблюдений будут состоять как из низкооплачеваемых
работников, так и многодетных семей, для которых естественен низкий уровень
душевого дохода даже при высоких заработках. Аналогично для последних 10-20
человек будет характерна противоположная тенденция - признак относительной
высокой зарплаты в этой группе будет сочетаться с незначительным числом детей -
фактором, сильно повышающим признак душевого дохода в семье.
Приведенный
выше график наглядно демонстрирует как работают меры центральной тенденции. При
среднем арифметическом в примере 103000 руб. медиана рассекла ряд как раз на
уровне почти в два раза меньшем (т.е. 50% в группе имеют душевой доход в 60000
и ниже, вторые 50% - более 60000). И таблица, и график наглядно демонстрируют,
каким образом несколько численно значимых членов ряда могут резко повысить
значение средней арифметической. (В нашем примере 3 квартиля, т.е. 3/4 семей
имеют доход менее ).
Этот
прием весьма удобен для официальной статистики, и государственными органами в
различных странах широко используется в целях дезинформации общественности.
Поэтому во избежание недоразумений при работе с экономическими показателями
обычно используются так называемый децильный коэффициент. Чаще всего он
употребляется при анализе распределения уровня дохода и выражает соотношения
денежного дохода 10% наиболее высокооплачиваемых и 10% лиц , имеющих наименьший
доход (т.е. соотношение верхнего и нижнего децилей). Этот коэффициент, по
сравнению с другими формами расчетов, более удобен для произведения каких либо
выводов относительно социально-экономической неоднородности общества, дисперсии
оплаты труда в помеченных группах или внутри одной отрасли и т.п. В нашем
случае это значение просчитать довольно просто - отношение доходов в семьях №№
92-101 к семьям №№ 1-10 составит 3454000/362600, т.е. 9,55 к 1.
Список литературы
Для
подготовки данной работы были использованы материалы с сайта http://mschool.kubsu.ru