Реферат по предмету "Статистика"


Статистическая обработка и статистический анализ данных

Министерство образования Российской Федерации Южно-Уральский государственный университет Кафедра Экономики и финансов Статистическая обработка и статистический анализ данных по материалам реального статистического наблюдения Пояснительная записка к курсовому проекту по курсу статистики Руководитель Лазарева Галина Владимировна « » 200- г.

Автор проекта « » 200- г. Проект защищен с оценкой о . . « » 200- г. Челябинск 200- Содержание Введение….1. Сводка и группировка данных статистического наблюдения… ………… 2. Вариационный анализ… 3. Моделирование ряда распределения….….4. Корреляционный анализ… 5. Выборочное наблюдение… 6. Анализ динамики… 16 Заключение…18 Литература….……19

Приложения…20 Введение В данной работе представлена статистическая обработка и статистический анализ данных по материалам реального статистического наблюдения над численностью населения в возрасте моложе трудоспособного на 1.01.2002, чел. Актуальность проводимого исследования ярко проявляется в свете современной социально-экономической и демографической ситуации в нашей стране, когда вот уже на протяжении нескольких последних лет наблюдается отрицательный естественный прирост (естественная убыль) населения.

Проблема снижения рождаемости и старения населения является характерной не только для России, но и для многих других развитых стран запада. Владение методами статистики дает возможность превращать безликую и разрозненную массу числовых данных в стройную систему знаний, основываясь на которых можно принимать эффективные управленческие решения. Цель курсового проекта – освоить инструменты статистики для дальнейшего применения в решении управленческих

задач. Можно выделить следующие задачи данного курсового проекта: - приобрести навыки работы с большими массивами данных и навыки представления данных статистического наблюдения в виде, удобном для восприятия, анализа и принятия решений; - освоить методы выполнения оценок параметров больших множеств по данным выборочного наблюдения; - развить аналитические навыки в ходе применения вариационного и корреляционного методов и интерпретации полученных результатов. Таким образом, проводимый статистический анализ позволит

сделать выводы о характеристиках исследуемого показателях и тенденциях его развития. 1. Сводка и группировка данных статистического наблюдения Результаты статистического наблюдения регионов РФ по показателю "Численность населения в возрасте моложе трудоспособного на 1.01.2002 г чел." представим в виде простой сводки, т.е. в единый документ без какого-либо ранжирования или разделения на группы. (Таблица 1.1)

Таблица 1.1- Численность населения в возрасте моложе трудоспособного на 1.01.2002 г чел. Регион Численность населения в возрасте моложе трудоспособного на 1.01.2002 г чел. Белгородская область 272081 Брянская область 258812 Владимирская область 260718 Воронежская область 408451 Ивановская область 190699 Калужская область 177752

Костромская область 135393 Курская область 224612 Липецкая область 212032 Московская область 990986 Орловская область 152332 Рязанская область 204469 Смоленская область 184672 Тамбовская область 212447 Тверская область 256525 Тульская область 261924 Ярославская область 221876 г. Москва 1348893 Республика

Карелия 137425 Республика Коми 214022 Архангельская область 265673 Вологодская область 239365 Калининградская область 165465 Ленинградская область 268037 Мурманская область 164789 Новгородская область 121690 Псковская область 131185 г. Санкт-Петербург 681209 Республика Адыгея 86616 Республика

Дагестан 685577 Республика Ингушетия 138822 Кабардино-Балкарская Республика 193530 Республика Калмыкия 77289 Карачаево-Черкесская Республика 97987 Республика Северная Осетия-Алания 142074 Чеченская Республика 199841 Краснодарский край 947077 Ставропольский край 524337 Астраханская область 203780

Волгоградская область 475016 Ростовская область 760726 Республика Башкортостан 888812 Республика Марий Эл 152830 Республика Мордовия 164596 Республика Татарстан 769340 Удмуртская Республика 326297 Чувашская Республика 275529 Кировская область 272759 Нижегородская область 600910

Оренбургская область 450187 Пензенская область 257616 Пермская область 563021 Самарская область 564441 Саратовская область 478167 Ульяновская область 265331 Курганская область 209522 Свердловская область 808090 Тюменская область 693732 Челябинская область 674104 Республика Алтай 53706 Республика

Бурятия 235795 Республика Тыва 97443 Республика Хакасия 116575 Алтайский край 479633 Красноярский край 592171 Иркутская область 572401 Кемеровская область 540088 Новосибирская область 480946 Омская область 415839 Томская область 194853 Читинская область 279006 Республика Саха (Якутия) 253905 Приморский край 388798

Хабаровский край 279700 Амурская область 198256 Камчатская область 69028 Магаданская область 40710 Сахалинская область 109353 Еврейская авт. область 41034 Чукотский авт. округ 14577 Построим две простые группировки регионов Российской Федерации по данному показателю. В первой группировке выделим группы регионов со значением показателя

ниже и выше среднего по Российской Федерации. Для этого найдем среднее значение данного показателя по РФ. Так как показатель "Численность населения в возрасте моложе трудоспособного на 1.01.2002 г чел." является абсолютным, его среднее значение будем искать по формуле средней арифметической простой. Получим среднее значение: Σ Х i n Результаты простой группировки представлены в Таблице 1.2

Таблица 1.2 - Простая группировка с выделением групп регионов со значением показателя ниже и выше среднего по РФ Количество регионов Среднее значение показателя в группе, чел. Регионы со значением показателя ниже среднего по РФ 184858 Регионы со значением показателя выше среднего по РФ 26 645498 Для наглядности представим данную группировку в виде диаграммы.

Диаграмма 1.1 - Простая группировка с выделением групп регионов со значением показателя ниже и выше среднего по РФ Т.к. данный показатель является абсолютным, то мы не можем сравнивать значения показателей по регионам, вследствие их зависимости от размера территории и общего количества населения. Для возможности такого сравнения построим вторую простую группировку, в которой выделим группы регионов со значением показателя "Доля населения в возрасте моложе трудоспособного на 1.01.2002 г %"

ниже и выше среднего по Российской Федерации. Расчет значений этого показателя по регионам и среднего значения представлен в Приложении А (Российский статистический ежегодник 2002 (стр. 90, таблица 5.9)) Результаты простой группировки представлены в Таблице 1.3 Таблица 1.3 - Простая группировка с выделением групп регионов со значением показателя "Доля населения в возрасте моложе трудоспособного на 1.01.2002 г %" ниже и выше среднего по

РФ Количество регионов Среднее значение показателя в группе, % Регионы со значением показателя ниже среднего по РФ 44 17,3 Регионы со значением показателя выше среднего по РФ 36 22,1 Для наглядности сопроводим группировки графиками: Диаграмма 1.2 - Простая группировка с выделением групп регионов со значением показателя "

Доля населения в возрасте моложе трудоспособного на 1.01.2002 г %" ниже и выше среднего по РФ Таким образом, если сопоставить абсолютные значения показателя "Численность населения в возрасте моложе трудоспособного на 1.01.2002 г чел." по регионам со средним значением по РФ, то значительно большее количество регионов характеризуется значением показателя ниже среднего по РФ (54 региона против 26). Но если использовать относительный показатель "

Доля населения в возрасте моложе трудоспособного на 1.01.2002 г %", дающий возможность сравнения, то можно увидеть, что число регионов со значением показателя ниже среднего по РФ приближается к числу регионов со значением показателя выше среднего по РФ (44 и 36 регионов соответственно). 2. Вариационный анализ Первый этап вариационного анализа - построение вариационного ряда.

На этом этапе важно правильно определить, ряд какого вида целесообразно построить. Т.к. изучаемый признак – чмсленность населения в возрасте моложе трудоспособного – относится к непрерывному виду, то строим интервальный вариационный ряд. Для построения вариационного ряда определим количество интервалов в ряду и длину интервала. Воспользуемся формулой Стержесса: Количество интервалов k = 1 + 3,32 * lg80 = 7,3.

В качестве длины интервала l выберем целочисленное и удобное для восприятия значение в интервале от l2 до l1: l1 = (1348893-14577)/7 = 190617 l2 = (1348893-14577)/8 = 166790 Получим вариационный ряд, состоящий из 7 интервалов длиной 180000. (Таблица 2.1). Таблица 2.1 - Вариационный ряд Численность населения в возрасте моложе трудоспособного на 1.01.2002 г тыс. чел. Менее 180 180-360 360-540 540-720 720-900 900-1080

Более 1080 Число регионов 23 31 9 10 4 2 1 Графически интервальный вариационный ряд изображается гистограммой: Диаграмма 2.1 - Вариационный ряд Второй этап вариационного анализа - расчет показателей вариации (Приложение Б). Оформим его в виде таблицы: Таблица 2.2 - Показатели вариации Показатель Значение Качественная оценка Среднее значение 339750 На 1.01.2002 средняя численность населения в возрасте моложе трудоспособного по регионам

РФ составляла 339750 чел. Показатели структуры вариации Мода 228000 Наиболее часто встречающееся значение численности населения в возрасте моложе трудоспособного составляет около 228000 чел. Медиана 278710 40 регионов РФ характеризуется численностью населения в возрасте моложе трудоспособного ниже 278710 чел. и 40 регионов выше Показатели силы и интенсивности вариации Размах вариации 976409

Даже исключив из совокупности регион с аномальным значением показателя (г. Москва - 1348893 чел.), найдем, что абсолютный разброс значений признака чрезвычайно высок. Среднее линейное отклонение 197663 Значения численности населения в возрасте моложе трудоспособного по регионам на 1.01.2002 отличались в среднем на 197663 чел. от среднего значения 339750 чел. Дисперсия 61959937500 Квадрат отклонений значений признака по регионам от среднего значения по всей

стране равен 61959937500 чел.2 Среднее квадратическое отклонение 248918 СКО является мерой надежности средней величины: чем оно меньше, тем точнее средняя арифметическая отражает собой всю изучаемую совокупность Относительный размах вариации 287% Разница между максимальным и минимальным значениями превышает среднее значение почти в 3 раза, т.е. относительный разброс значений признака также чрезвычайно высок

Относительное линейное отклонение 58% Доля усредненного значения абсолютных отклонений от средней величины равна 58% Коэффициент вариации 73% По численности населения в возрасте моложе трудоспособного совокупность является неоднородной Показатели характера вариации Коэффициент асимметрии 0,45 Распределение умеренно асимметрично, асимметрия правосторонняя (смещение в область более низких значений показателя) Показатель эксцесса 0,88

Распределение островершинное 3. Моделирование ряда распределения Нормальное распределение - распределение, полностью определяющееся двумя параметрами - средним значением и СКО. Причина частого обращения именно к закону нормального распределения заключается в том, что в этом типе распределения отражается закономерность, возникающая при взаимодействии множества случайных факторов, ни один из которых не является преобладающим.

Проверим гипотезу о нормальном законе распределения. Для этого воспользуемся критерием согласия Пирсона (хи-квадрат). Идея Пирсона заключается в расчете и последующей оценке размера отклонений фактических значений частоты появления признака по интервалам от их теоретических значений, т.е. значений, которые бы имели место в случае нормального распределения. Чем больше размер этих отклонений, тем меньше оснований считать

распределение близким к нормальному. Результаты проверки гипотезы представлены в Приложении В. Т.к. значение Хи-квадрат расчетное (28,09) больше значения Хи-квадрат табличное (9,488), то гипотеза о нормальном характере распределения отклоняется. Этот результат не явился неожиданным, т.к. в социально-экономической статистике нормальное распределение практически вообще не встречается; однако сравнение с нормальным распределением важно для выяснения

степени и характера отклонений от него фактического распределения. Проанализируем характер отклонений в параметрах распределения от нормального. Построим график распределения. Диаграмма 3.1 - График распределения Анализируя график и используя данные вариационного анализа, делаем вывод о том, что распределение островершинное, имеет место умеренная правосторонняя асимметрия. 4.

Корреляционный анализ Следующим пунктом статистического исследования является проведение корреляционного анализа, задачей которого является оценка тесноты связи между признаками. Прежде всего, выделим признаки, наличие связи с которыми мы будем проверять:  Численность учащихся государственных дневных общеобразовательных учреждений (на начало учебного года 2001/02), тысяч человек;  Строительство жилых домов в 1 полугодии 2002г тыс. кв. м общей площади.

(Значения этих показателей по регионам представлены в Приложении Г). Корреляционный анализ будем проводить в 4 этапа: 1) Построим корреляционную решетку (аналитическую группировку единиц совокупности по двум признакам, между которыми оценивается связь). 2) Построим поле корреляции (Графическое изображение связи между переменными, множество точек, координатами которых являются пары значений признаков по всем единицам

совокупности) 3) Рассчитаем показатели корреляции: коэффициент Фехнера (очень приближенный показатель (не учитывает величину отклонений индивидуальных значений признака от его средней величины), но по его значению можно сделать первые выводы о наличии или отсутствии связи) и эмпирическое корреляционное отношение (оценивает тесноту связи с высокой точностью и подходит для любых зависимостей). 4) Произведем анализ и оценку наличия, направления и тесноты корреляционной связи.

Численность населения в возрасте моложе трудоспособного на 1.01.2002 г чел. (X) и численность учащихся государственных дневных общеобразовательных учреждений (на начало учебного года 2001/02), тыс. чел. (Y). 1) Исключим из совокупности г. Москву и Московскую обл. как регионы, характеризующиеся аномальными значениями признака Y. Y X Менее 100 100-200 200-300 300-400 400-500 500-600 600- 700 Менее 180000 15 8 - - - - - 180000-360000 - 26 5 - - - -

360000-540000 - 1 8 - - - 540000-720000 - - - 2 7 1 - 720000-90 - - - - - 3 1 90-1080000 - - - - - - 1 2) 3) Коэффициент Фехнера = 1,0 (Расчеты представлены в Приложении Д). Эмпирическое корреляционное отношение = 0,97 (Расчеты представлены в Приложении Е). 4) По расположению и концентрации единиц на поле корреляционной решетки можно с уверенностью

предположить наличие прямой тесной связи между двумя данными признаками. Анализируя график, оцениваем, что характер распределения точек на координатном поле подтверждает предположения о наличии прямой тесной связи между данными признаками. Т.к. полученные значения коэффициентов корреляции превышают пороговые значения (0,5 для коэффициента Фехнера и 0,7 для ЭКО), то можно сделать окончательный вывод о том, что данные показатели связаны тесно

(связь линейная). Следовательно, можно построить уравнение регрессии и иметь возможность прогнозировать значения признака-результата. Численность населения в возрасте моложе трудоспособного на 1.01.2002 г чел. (X) и строительство жилых домов в 1 полугодии 2002г тыс. кв. м общей площади (Y). 1) Исключим из совокупности г. Москву и Московскую обл. как регионы, характеризующиеся аномальными значениями признака Y. Y X Менее 60 60-120 120-180 180-240 240-300 300-360

Более 360 Менее 180000 21 1 - - - - - 180000-360000 17 9 2 2 - - - 360000-540000 - 4 2 1 2 - - 540000-720000 1 3 3 1 1 1 - 720000-90 - - 1 1 - 1 1 90-1080000 - - - - - - 1 2) 3) Коэффициент Фехнера = 0,71 (Расчеты представлены в Приложении Ж). Эмпирическое корреляционное отношение = 0,63 (Расчеты представлены в

Приложении З). 4) По расположению и концентрации единиц на поле корреляционной решетки сделать предположение о наличии слабой связи между двумя данными признаками. Это предположение подтверждает и анализ графика. Полученное значение коэффициента Фехнера говорит о наличии связи между данными показателями, но более точный показатель корреляции - эмпирическое корреляционное отношение - свидетельствует о том, что связь имеется, но не является тесной

(значение ЭКО немного меньше порогового). 5. Выборочное наблюдение Сформируем 2 выборочных совокупности, отобрав соответственно 19 (малая выборка) и 39 региона из 80. По методу отбора выберем бесповторную выборку (попавший в выборку регион не возвращается в исходную совокупность, из которой осуществляется дальнейший отбор). По способу отбора выберем собственно случайную выборку как наиболее простую (заключается в отборе единиц

из генеральной совокупности наугад или на удачу без каких-либо элементов системности; технически проводится методом жеребьевки). Сформированные выборки представлены в Приложениях И и К. Данные о генеральной средней уже имеются Xср = 334566 чел. Рассчитаем предельную ошибку выборки, учитывая, что отбор был произведен бесповторным способом. Ошибка возникает в силу того, что выборочная совокупность не полностью воспроизводит генеральную

совокупность. Так первая выборка является малой, то предельные ошибки будут рассчитывать по разным формулам. Первая (малая) выборка: Предельная ошибка выборки: σ2 N - n n-1 N - 1 , где tст – коэффициент Стьюдента, который находится по таблицам по входным параметрам: df=n-1=19-1=18, α=1-F(t), σ2 – выборочная дисперсия (σ2 = 37444958842). F(t)=0,612, α=0,388, tст=1,067, ∆Х=42765 чел 318996 чел. ≤ μ

≤ 404525 чел. F(t)=0,812, α=0,188, tст=1,734, ∆Х=69499 чел 292262 чел. ≤ μ ≤ 431260 чел. F(t)=0,912, α=0,088, tст=2,101, ∆Х=84208 чел 277553 чел. ≤ μ ≤ 445969 чел. F(t)=0,960, α=0,040, tст=2,552, ∆Х=102284 чел 259477 чел. ≤ μ ≤ 464045 чел. Вторая выборка: Предельная ошибка выборки: σ2

N - n n N - 1 , где t – коэффициент доверия, который находится по таблицам интеграла вероятности таблицам по входному параметру F(t), σ2 – генеральная дисперсия (σ2 = 61959937500). F(t)=0,612, t=0,87, ∆Х=24982 чел 323955 чел. ≤ μ ≤ 373919 чел. F(t)=0,812, t=1,32, ∆Х=37904 чел 311033 чел. ≤ μ ≤ 386841 чел. F(t)=0,912, t=1,71, ∆Х=49103 чел 299834 чел. ≤ μ ≤ 398040 чел.

F(t)=0,960, t=2,06, ∆Х=59153 чел 289784 чел. ≤ μ ≤ 40809



Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.