Федеральное агентство пообразованию
Государственноеобразовательное учреждение высшего профессионального образования
«Санкт-Петербургскийгосударственный политехнический университет»
Факультет экономики именеджмента
Кафедра «Предпринимательствои коммерция»
ЛАБОРАТОРНАЯ РАБОТА №1
По дисциплине«Статистика»
На тему «Анализ эмпирическогораспределения»
Санкт-Петербург 2008
Введение
Ряд распределения – это распределение единицсовокупности по значению того или иного признака. Комплексный анализ рядараспределения включает:
- Табличноеи графическое представление ряда распределения;
- Расчёти анализ показателей центра и структуры распределения;
- Расчёти анализ показателей вариации;
- Характеристикуформы распределения;
- Выбортеоретического распределения, которому соответствует изучаемое эмпирическое[1].
Ряды распределения могут быть:
1) Вариационными;
2) Атрибутивными.
Одна из важнейших целей изучения рядовраспределения состоит в том, чтобы выявить закономерность распределения иопределить ее характер. Закономерности распределения наиболее отчетливопроявляются только при большом количестве наблюдений (т.н. закон большихчисел).
Исходными данными для анализа служит информация,полученная из сборника Росстата Регионы России [2], а именно статистическаяинформация о числе собственных легковых автомобилей на 1000 человек населения вразличных регионах России в 1990 году. Объём исходной совокупности – 87 единиц.
1. Табличное и графическое представление вариационного ряда
Анализ распределений направлен на выявлениезакономерности изменения частот в зависимости от значений варьирующего признакаи анализ различных характеристик изучаемого распределения. Прежде, чемприступить к вычислению специальных статистических показателей, необходимо изисходной совокупности исключить единицы, не подчиняющиеся общей закономерностираспределения, так называемые выбросы. Выбросы – это значения признака, резкоотличающиеся как в большую, так и в меньшую сторону, от значений признакаосновной части единиц совокупности [3].
Для локализации и устранения выбросов необходимо,прежде всего, ранжировать исходные данные. Затем, в ППП Statistica строится график Box plot на основании ранжированнойсовокупности. Единицы совокупности, обозначенные на графике звёздочками (*),являются выбросами, которые необходимо исключить из изучаемой совокупности.
Вариационным называется ряд распределения,построенный по количественному признаку. Он может быть представлен в видетаблицы и графически. Табличное представление позволяет не только выявить туили иную закономерность распределения, но и подробно охарактеризовать структуруизучаемой совокупности.
Таблицы вариационных рядов строятся по принципамгруппировки. Известные проблемы возникают при определении числа групп,поскольку формула Стерджеса (1.1), рекомендуемая для этих целей, даетприемлемые результаты только в условиях больших статистических совокупностей.Процесс определения числа выделяемых групп, в значительной степени, носиттворческий характер и требует от исследователя применения не только теоретическихзнаний, но и практического опыта и интуиции.
Формула Стерджеса:
/>, (1.1)
где k – число групп; N – объем совокупности.
Использование ППП значительно упрощает задачутабличного представления вариационного ряда, поскольку позволяет с малымивременными затратами просмотреть несколько таблиц с разным числом групп иразмером группировочного интервала. Конечный вариант таблицы должен отвечатьследующим требованиям: в таблице не должно быть малонаполненных и нулевыхгрупп; нужно стремиться к получению мономодального распределения (т.е. по обестороны от максимальной частоты должно наблюдаться закономерное убываниечастот). Если не удается избавиться от многовершинности в распределении, это,как правило, означает, что изучаемая статистическая совокупность неоднородна итребует более детального изучения. В этих условиях следует либо работать свыбросами, либо, если единицы совокупности не подчиняются единой закономерностираспределения, разбить совокупность на объективно существующие группы, ианализировать их раздельно [3].
Далее представлены таблицы вариационного ряда,построенные с использованием разного числа интервалов.
Таблица 1.1. Распределениерегионов России по числу собственных легковых автомобилей на 1000 человек населенияв 1990 году. k=8
/>
Таблица 1.2. Распределениерегионов России по числу собственных легковых автомобилей на 1000 человек населенияв 1990 году. k=6
/>
При k=8 получено много малонаполненных групп, чтоявляется нежелательным для анализа ряда распределения. Выбирая окончательныйвариант табличного представления вариационного ряда в работе, следуетостановиться на группировке с использованием 6 групп. Тогда величинагруппировочного интервала составит 14,6.
Необходимо подвести предварительные итоги (напримере третьей строки): только в тридцати регионах России, что составляет 35,71%от общего числа регионов, количество автомобилей на 1000 человек населения в1990 году составляло от 46,3 до 60,9 штук. В пятидесяти пяти регионах России(65,47% от всех регионов) количество автомобилей на 1000 человек населения в1990 году составляло менее 60,9 штук.
Табличное представление вариационного рядапозволяет получить подробную информацию о составе и структуре изучаемойсовокупности, т.е. определить какое количество единиц изучаемой совокупностиобладает тем или иным значением признака и какова доля этой группы единиц вобщем объеме совокупности, а также выявить закономерность изменения частот.
На основе таблиц строятся графики, нагляднопредставляющие закономерность распределения анализируемой статистическойсовокупности. Графическое представление может быть осуществлено какиспользованием абсолютных, так и относительных частот [3].
/>
Рис. 1.1.Полигон распределения регионов России по числу собственных легковых автомобилейна 1000 человек населения в 1990 году
/>
Рис. 1.2.Кумулята распределения регионов России по числу собственных легковыхавтомобилей на 1000 человек населения в 1990 году
/>
Рис. 1.3Гистограмма распределения регионов России по числу собственных легковыхавтомобилей на 1000 человек населения в 1990 году2. Характеристика центральной тенденции распределения
Среднее значение признаков совокупности, мода имедиана характеризуют центральную тенденцию распределения, указывают тотуровень признака, который является типичным, характерным для даннойсовокупности. Использование того или иного показателя распределения зависит оттипа исходных данных и цели исследования. Поскольку средняя величинарассчитывается на единицу совокупности, но с использованием всех индивидуальныхзначений признака, она является обобщённой характеристикой всей совокупности[1].
Формулы расчёта. Средняя арифметическаяпростая:
/>,
где /> – значение признака у i‑ой единицысовокупности, n – объём совокупности.
Медиана:
/>,
где /> – нижняя границамедианного интервала, /> – величина группировочногоинтервала, /> – сумма частот (/>), /> – накопленная частота интервала,предшествующего медианному; /> – частота медианногоинтервала.
Мода:
/>,
где /> — нижняя границамодального интервала, /> — величина группировочногоинтервала, /> – частота модального интервала,
/>/ /> –частота интервала, предшествующего / следующего за модальным.
Таблица 2.1. Показателицентра и структуры распределенияПоказатель центра Значение Среднее значение 55,70595 Медиана 56,15000 Мода 52,87000
В среднем в регионах России количествоавтомобилей на 1000 человек населения в 1990 году составляло 55,71 штуку. В 50%регионов России количество автомобилей на 1000 человек населения в 1990 годубыло меньше 56,15 штук, а в другой половине – больше.3. Оценка вариации изучаемого признака
Вариация – различия у индивидуального значенияпризнака изучаемой совокупности. Расчёт показателей центра сопровождаетсярасчётом показателей вариации. Показатели вариации бывают:
- Абсолютные(размах вариации, среднее линейное отклонение, дисперсия, среднееквадратическое отклонение);
- Относительные(коэффициент осцилляции, относительное линейное отклонение, коэффициентвариации) [1].
Формулы расчёта. Размах вариации:
/>,
где /> и /> –максимальное и минимальное значение признака совокупности.
Дисперсия:
/>,
где /> – значение признака у i‑ой единицы совокупности,/> – средняя арифметическая, /> – частота у i‑ой единицысовокупности, /> – сумма частот (/>).
Среднее квадратическое (стандартное) отклонение:
/>.
Коэффициент вариации:
/>
Таблица 3.1. ПоказателивариацииПоказатель вариации Значение Размах вариации R 73
Дисперсия s2 227,8647 Среднее квадратическое отклонение s 15,0952 Коэффициент вариации V 27,0980%
Размах вариации, разность между максимальным иминимальным значениями совокупности, составляет 73 единицы. Дисперсиясодержательно не интерпретируется, однако является важнейшим показателемвариации, на основе которого рассчитывается ряд статистических показателей, втом числе и коэффициент вариации, в данном случае равный 27,0980%. Коэффициентвариации оценивает степень количественной однородности изучаемой совокупности.В данном случае совокупность можно признать однородной, т.к. коэффициентвариации меньше 33%.
В 1990 году в регионах России число автомобилейна 1000 человек населения отличалось от среднего по стране на 15,0952 штук.4. Характеристика структуры распределения
К показателям структуры, кроме медианы, такжеотносят квартили, которые делят совокупность на четыре части, децили (10частей) и прочие показатели. Использование тех или иных характеристик зависитот цели исследования и от объёма изучаемой совокупности (с увеличением объёмарастёт число групп). В данной работе необходимо подсчитать только медиану иквартили [1].
Формулы расчёта. Нижний квартиль:
/>.
Верхний квартиль:
/>.
Таблица 4.1. ПоказателиструктурыПоказатель структуры Значение Нижний квартиль 44,80 Медиана 56,15 Верхний квартиль 65,80
В 50% регионов России количество автомобилей на1000 человек населения в 1990 году составляло от 44,80 до 65,80 штук.
5. Характеристика формы распределения
Форма распределения имеет следующиехарактеристики:
- Асимметрия;
- Эксцесс(куртозис).
Соответственно существуют коэффициенты асимметриии эксцесса и стандартные ошибки для этих коэффициентов. Коэффициент асимметрииоценивает, насколько распределение симметрично относительно центра. Коэффициентэксцесса оценивает крутизну распределения, т.е. степень выпада вершиныраспределения относительно кривой нормального распределения. Эксцесс имеетсмысл оценивать только тогда, когда в эмпирическом распределении присутствуетнесущественная асимметрия.
Формулы расчёта. Коэффициент асимметрии:
/>.
Стандартная ошибка:
/>.
Коэффициент эксцесса:
/>.
Стандартная ошибка:
/>.
Таблица 5.1. ПоказателиформыПоказатель формы Значение Коэффициент асимметрии As 0,032687
Стандартная ошибка sAs 0,262651 Коэффициент эксцесса Es -0,377168
Стандартная ошибка sEs 0,519660
По результатам подсчётов делаются следующиевыводы: распределение имеет очень незначительную правостороннюю асимметрию,кроме того есть незначительный отрицательный эксцесс, это значит, что всовокупности не сформировалось «ядро» распределения.6. Сглаживание эмпирического распределения. Проверка гипотезы озаконе распределения
Процедура выравнивания, сглаживанияанализируемого распределения заключается в замене эмпирических частоттеоретическими, определяемыми по формуле теоретического распределения, но сучетом фактических значений переменной. На основе сопоставления эмпирических итеоретических частот рассчитываются критерии согласия, которые используются дляпроверки гипотезы о соответствии исследуемого распределения тому или иному типутеоретических распределении.
Выбор конкретного типа модельного распределенияосуществляется исходя из самых общих соображений, опирающихся на визуальныйанализ построенных графиков распределения. В практическом анализе обязательнойявляется проверка соответствия изучаемого распределения нормальному законураспределения. Необходимость этого связана с тем, что условием применениязначительного числа статистических характеристик и оценок является наличиенормального распределения.
Проверка гипотезы о нормальном распределениирегионов России по числу автомобилей на душу населения в 1990 году основываетсяна расчёте критерия
/>,
где /> – эмпирические абсолютныечастоты, /> – абсолютные частоты теоретического распределения,k – число интервалов.
Таблица 6.1. Проверкагипотезы о нормальном распределении регионов России по числу автомобилей надушу населения в 1990 году
/>
Формулы, по которым рассчитывается плотностьмодельного распределения, а также формулы для расчета теоретических частотраспределения могут быть легко найдены в общедоступной справочной и учебнойлитературе. В данной лабораторной работе используются формулы для нормальногораспределения.
Функция нормального распределения: />, плотность нормального распределения:
/>,
где /> – значение изучаемогопризнака, /> — средняя арифметическая величина, /> — среднее квадратическое отклонениеизучаемого признака, e, π – математические константы, /> – нормированное отклонение.
Теоретические частоты нормального отклонения рассчитываютсяпо следующей формуле:
/>,
где N – объём совокупности, hk – величина интервала. Вмоём случае вариационный ряд построен с использованием равных интервалов,следовательно: />.
/>
Рис. 6.1. Гистограммаи расчётная кривая распределения регионов России по числу собственных легковыхавтомобилей на 1000 человек населения в 1990 г.
В шапке таблицы находятся следующие показатели: />, />(уточнённое значение числастепеней свободы,
/>,
где k – число интервалов вариационного ряда, n –число параметров теоретического распределения, определяемых по опытным данным,для нормального закона n=2, p – расчётный уровень значимости).
Принятие решения о справедливости гипотезы озаконе распределения можно осуществить, ориентируясь на эмпирическое значениекритерия />, который сравнивается с табличным значением />. Окончательные выводы по проверке гипотезы озаконе распределения: так как />, то гипотеза онормальном распределении регионов России по числу собственных легковыхавтомобилей на 1000 человек населения в 1990 г. не противоречит истине.
Заключение
Только в тридцати регионах России, что составляет35,71% от общего числа регионов, количество автомобилей на 1000 человекнаселения в 1990 году составляло от 46,3 до 60,9 штук. В пятидесяти пятирегионах России (65,47% от всех регионов) количество автомобилей на 1000 человекнаселения в 1990 году составляло менее 60,9 штук.
В среднем в регионах России количествоавтомобилей на 1000 человек населения в 1990 году составляло 55,71 штуку. В 50%регионов России количество автомобилей на 1000 человек населения в 1990 годубыло меньше 56,15 штук, а в другой половине – больше.
Размах вариации, разность между максимальным иминимальным значениями совокупности, составляет 73 единицы. В 1990 году врегионах России число автомобилей на 1000 человек населения отличалось отсреднего по стране на 15,0952 штук. Коэффициент вариации оценивает степеньколичественной однородности изучаемой совокупности. В данном случаесовокупность можно признать однородной, т. к. коэффициент вариации меньше33% (V=27,098%).
В 50% регионов России количество автомобилей на1000 человек населения в 1990 году составляло от 44,80 до 65,80 штук.
Распределение имеет очень незначительнуюправостороннюю асимметрию, кроме того есть незначительный отрицательный эксцесс,это значит, что в совокупности не сформировалось «ядро» распределения.
Данное распределение соответствует нормальномузакону распределения по критерию Пирсона.
Список использованных источников
1. Лекциипо дисциплине статистика. Лектор – доц. О.А. Пономарёва, 2008.
2. СборникРосстата Регионы России. Социально-экономические показатели. 2006.
3. Учебноепособие. Статистика. Методы анализа распределений. Выборочное наблюдение. Н.В. Куприенко,О.А. Пономарёва, Д.В. Тихонов. 132 с. – 2008.