Федеральное агентство пообразованию
Государственноеобразовательное учреждение высшего профессионального образования
«Санкт-Петербургскийгосударственный политехнический университет»
Факультет экономики именеджмента
Кафедра «Предпринимательствои коммерция»
ЛАБОРАТОРНАЯ РАБОТА №2
По дисциплине«Статистика»
На тему
«Проведение выборочногонаблюдения»
Санкт-Петербург 2008
Введение
Целью лабораторной работы является освоениеметодики организации и проведения выборочного наблюдения; статистическихметодов и методов компьютерной обработки полученной информации; методов оценкипараметров генеральной совокупности на основе выборочных данных.
Выборочное наблюдение – важнейший вид несплошного наблюдения. Теория выборочного наблюдения, т.н. выборочный метод, –совокупность принципов и способов отбора единиц совокупности, а также способови методов оценки параметров генеральной совокупности на основе выборочныхединиц. Выборочный метод в настоящее время получил широкое практическоеприменение, поскольку обладает целым рядом преимуществ по сравнению со сплошнымнаблюдением и иными видами несплошного наблюдения.
Преимущества выборочного наблюдения по сравнению сосплошным:
1. Экономиявремени, финансовых, трудовых, материальных ресурсов.
2. Возможностьрасширить программу наблюдения.
С другими видами не сплошного наблюдения:
3. Благодаряхорошо разработанной теории выборки и используемых при выборочных наблюденияхспособах формирования выборки появляется возможность дать вероятностную оценкупараметров генеральной совокупности.
Генеральная совокупность – совокупность, котораясобственно интересует исследователя и из которой отбираются единицы ввыборочную совокупность. Выборочная совокупность – совокупность отобранныхединиц, по которым будут фиксироваться значения тех или иных признаков.
Основной принцип формирования выборочнойсовокупности – случайность отбора, т.е. всем единицам генеральной совокупностидолжна быть обеспечена равная вероятность попадания в выборку. Этот принципобеспечивает объективность выборочного наблюдения, поскольку позволяет сформироватьрепрезентативную выборку. Репрезентативность способствует получению несмещённойвыборки, т.е. структура или закономерность распределения в выборочнойсовокупности соответствует распределению единиц в генеральной совокупности.
Способы отбора единиц в выборочную совокупность:
1. Случайныйотбор. Реализуют методом жеребьёвки или с использованием таблиц случайныхчисел.
2. Механическийотбор – частный случай случайного отбора. Рассчитывается шаг отбора, которыйравен отношению объёма совокупности к объёму выборки: />.
Отбор может проводиться по принципу бесповторногоотбора, когда, извлекаемая из генеральной совокупности, единица назад невозвращается, и повторного отбора [1].
Виды выборки:
1. Собственнослучайная.
2. Типологическая(стратифицированная).
3. Гнездовая(серийная).
4. Многоступенчатая.
5. Многофазная.
Лабораторная работа выполнена на основе исходныхданных первой лабораторной: данные сборника Росстата Регионы России [2], аименно статистическая информация о числе собственных легковых автомобилей на1000 человек населения в различных регионах России в 1990 году. Объём исходнойсовокупности – 88 единиц.
1. Расчёт необходимого объёма выборочной совокупности
Ошибка выборки – это различие в значенияхкакого-либо параметра генеральной совокупности и его оценки, полученной наоснове выборки. Ошибка выборки присутствует всегда, т.к. её возникновениесвязано с самой сутью выборочного наблюдения: по части судят о целом.Распределение единиц выборочной совокупности не может в полной мере соответствоватьраспределению единиц генеральной совокупности. Понятию ошибки выборки иметодике её определения посвящены многие работы теории выборки (учёные –Я. Бернулли, П.Л. Чебышев, А.М. Ляпунов, А.А. Марков,А.А. Чупров и др.).
Теорема Чебышева. При неограниченномувеличении числа наблюдений в генеральной совокупности с ограниченнойдисперсией с вероятностью, близкой к единице, можно утверждать, что величинаошибки выборки не превысит сколь угодно малой положительной величины ξ.
/> />,
где /> – выборочноесреднее, /> – генеральное среднее, /> – вероятность события, заключённогов скобки.
Теорема Чебышева доказывает принципиальнуювозможность оценки параметров генеральной совокупности на основе выборочныхданных, утверждая, что в условиях большой выборки вероятность получитьнезначительную величину ошибки близка к 1. Однако, практически не ясно, чемуравна эта вероятность, и какова величина ошибки выборки.
Теорема Ляпунова. При неограниченном увеличениичисла наблюдений в генеральной совокупности с ограниченной дисперсиейвероятность того, что ошибка выборки не превысит величины tμ, равнанормированной функции Лапласа:
/>,
где μ – средняя ошибка выборки, />, /> – среднее выборочное по i‑йвыборке, n – число выборок.
Математической статистикой доказано, что величинаμ2 прямо пропорциональна дисперсии генеральной совокупности (s2) и обратнопропорциональна объёму выборки (n): />.
Известно, что /> (S2 – дисперсия выборки).Если выборка большого объёма, то />,следовательно, на практике сомножитель /> опускаюти />.
Предельная ошибка выборки />. Плотность нормальногораспределения: />, гденормированное отклонение выборочной средней от генеральной средней />.
Данное исследование проводится с вероятностью0,95. Этому значению в таблице Лапласа соответствует t=1,96, которое напрактике округляют до 2. В этом случае />.Тогда />.
Важным вопросом подготовки выборочного наблюденияявляется определение объема выборочной совокупности, необходимой и достаточнойдля оценки тех или иных свойств генеральной совокупности. В практикеэкономико-статистических исследований, как правило, используется процедурабесповторного отбора единиц в выборочную совокупность. Первым этапом подготовкивыборочного наблюдения является расчет объема выборки. Расчет, как правило,проводится по следующей формуле: /> [3].
Расчёт объёма выборки проводится многократно сучётом разной величины ошибки и с разным уровнем вероятности. По полученнымрезультатам выбирают оптимальный вариант. В лабораторной работе будетсформировано три выборки, объёмом 70, 25 и 15 единиц каждая.2. Формирование выборочных совокупностей и обработка выборочныхданных
Методом случайного бесповторного отбораформируются большая (70 единиц) и две малых выборки (25 и 15 единиц). Затем,при помощи ППП Statistica рассчитываются основные статистические характеристики,данные занесены в таблицу ниже.
Таблица 2.1. Основныестатистические характеристики выборок
/>
В таблице 2.1 «NewVar1» обозначает выборкуразмером 70 единиц, «NewVar2» – 25 единиц, «NewVar3» – 15 единиц. В графе «Mean» указаны значениясредних по каждой выборке, «Std. Dv.» – стандартное отклонение, «N» – объём выборки, «Std. Err.» – средняя ошибкавыборки, «Confidence -95,000%» и «Confidence +95,000%» – соответственно нижняя и верхняяграницы доверительного интервала при вероятности 95%, «Reference» – гипотетическоезначение генеральной средней величины (известно из первой лабораторной работы),«t-value» – расчетное значение t‑критерия дляпроверки гипотезы о значении генеральной средней, «df» – число степенейсвободы, «p»– расчетный уровень значимости t‑критерия.
Среднее значение выборки, состоящей из 70 единиц,равно 53,64286, оно отличается от генеральной средней на 2,06309, величинасреднеквадратического отклонения равна 16,66183. Средняя ошибка этой выборки –1,991470, а интервал оптимальности />, т.е.с вероятностью 95% можно утверждать, что в среднем по России число собственныхлегковых автомобилей на 1000 человек населения в 1990 году находилось вуказанных пределах. Расчётное значение t-критерия составляет -1,03596, меньше2, следовательно, различия между генеральной и выборочной средней случайны, ивыборочное среднее является достоверной оценкой генеральной средней. Расчётныйуровень значимости t-критерия также подтверждает это (/>).3. Распространение результатов выборочного наблюдения на генеральнуюсовокупность
Теперь необходимо провести оценку существенностиразности двух выборочных средних. Если разность между средними величинамистатистически значима, это означает, что различие вызвано неслучайнымифакторами, или выборки не принадлежат одной генеральной совокупности. Иначе этазадача формулируется как проверка статистической гипотезы о равенстве двухсредних: />.
В лабораторной работе содержательно гипотезаформулируется следующим образом: взяты выборки из одной или из разныхгенеральных совокупностей? В контексте решаемой задачи ответ очевиден – выборкивзяты из одной и той же совокупности. Но следует обратить особое внимание напроявление эффекта случайной ошибки репрезентативности. Реализация процедурыпроверки гипотезы может дать, в редких случаях, парадоксальный результат, аименно, показать на основе t‑критерия, что выборки как бы взяты из разныхгенеральных совокупностей с разными значениями средних величин. С дидактическойточки зрения такой результат весьма полезен для понимания существастатистических выводов и степени их условности. Для демонстрации этого эффектарекомендуется взять такие две выборки, из ранее полученных, для которыхразность между средними выборочными значениями максимальна [3].
В данной работе для сравнения взяты выборки,объёмом 70 и 25 единиц. Результаты анализа занесены в таблицу ниже.
Таблица 3.1. Результатырасчёта t-критерия для выборок, объёмом 70 и 25 единиц
/>
В полученной таблице рассчитаны следующиепоказатели:
- Mean – среднее значение по двум выборкам.
- t-value – t‑критерий, необходимый для оценкисущественности разности двух средних: />, т. к. />, то />.
- df – число степеней свободы.
- p– расчётный уровень значимости t‑критерия.
- t-separ – расчетное значение t‑критерия с учетомразличных дисперсий. Очевидно, что в этом примере оно не изменяется, однакопрограмма выдаёт другой результат.
- df – число степеней свободы t‑критерия приусловии неравных дисперсий. />.Расчетное значение m округляется до целого значения в силу того, что число степенейсвободы есть целое число по определению.
- p –расчетный уровень значимости t‑критерия при условии неизвестных и неравных дисперсий.
- Valid N – объём каждой выборки.
- Std. Dev. – среднее квадратическое отклонение: />
- F-ratio – F‑критерий (дисперсионноеотношение), используемый для оценки существенности различия значений двухдисперсий: />.
- p – расчетный уровеньзначимости P‑критерия.
Гипотеза принимается, если />. Здесь />. Табличное значение t‑критерия равно />. Таким образом />, следовательно, испытуемаягипотеза принимается. Аналогичный вывод можно получить на основе сравнениярасчетного и принятого уровней значимости: />.
4. Проверка статистических гипотез о значении генеральной средней и оравенстве двух выборочных средних
Для наглядного и компактного представлениярезультатов проведенного выборочного наблюдения необходимо воспользоватьсяграфическими возможностями ППП STATISTICA. Весьма существенным, с дидактической точкизрения, является то, что последовательное выполнение рассматриваемыхлабораторных работ, дает возможность наглядного сравнения результатоввыборочного и сплошного наблюдений. Вполне очевидно, что, по определению, такоесравнение исключено в реальных практических условиях [3].
/>
Рисунок 4.1. Графическое сравнение результатов сплошного и выборочногонаблюдения
График наглядно показывает, что доверительныеинтервалы, построенные по всем выборкам, накрывают генеральную среднюю, чтоестественно. Если бы, какой либо доверительный интервал, рассчитанный порезультатам выборки, не включал в себя значение генеральной средней, то вреальных условиях, это означало бы получение ошибочного вывода на основевыборки.
Диаграмма наглядно демонстрирует возможныйрезультат выборочного зондирования исследуемой генеральной совокупности иубедительно иллюстрирует объективную неоднозначность выводов, формулируемых наоснове выборочных данных.
Заключение
Среднее значение выборки, состоящей из 70 единиц,равно 53,64286, оно отличается от генеральной средней на 2,06309, величинасреднеквадратического отклонения равна 16,66183. Средняя ошибка этой выборки –1,991470, а интервал оптимальности />, т.е.с вероятностью 95% можно утверждать, что в среднем по России число собственныхлегковых автомобилей на 1000 человек населения в 1990 году находилось вуказанных пределах. Расчётное значение t-критерия составляет -1,03596, меньше2, следовательно, различия между генеральной и выборочной средней случайны, ивыборочное среднее является достоверной оценкой генеральной средней. Расчётныйуровень значимости t-критерия также подтверждает это (/>).
По результатам проверки гипотезы о равенстве двухвыборочных средних получены следующие выводы: расчётное значение t-критерияменьше табличного, следовательно, с вероятностью 95% можно утверждать, что двевыборочных средних равны и получены не случайным образом (это подтверждает ирасчётный уровень значимости, больший 0,05).
График наглядно показывает, что доверительныеинтервалы, построенные по всем выборкам, накрывают генеральную среднюю, чтоестественно. Если бы, какой либо доверительный интервал, рассчитанный по результатамвыборки, не включал в себя значение генеральной средней, то в реальныхусловиях, это означало бы получение ошибочного вывода на основе выборки.
Список использованных источников
1. Лекциипо дисциплине статистика. Лектор – доц. О.А. Пономарёва, 2008.
2. СборникРосстата Регионы России. Социально-экономические показатели. 2006.
3. Учебноепособие. Статистика. Методы анализа распределений. Выборочное наблюдение. Н.В. Куприенко,О.А. Пономарёва, Д.В. Тихонов. 132 с. – 2008.