Реферат по предмету "Математика"


Систематичний відбір

Міністерство освіти і наукиУкраїни
Дніпропетровськийнаціональний університет ім. О. Гончара
Дипломна бакалаврська робота
Систематичний відбір

Виконавець:
студенткагрупи
МС-06-1Бабічева Д.С.
Дніпропетровськ 2010

РЕФЕРАТ
 
Випускна бакалаврська робота: 67 сторінок, 5 джерел, 9таблиць, 15 рисунків.
Перелік ключових слів: популяція, вибірка, відбір,дисперсія, середнє, точність, тренд, одиниці, оцінка.
Обє’кт дослідження: систематичні вибірки
Мета роботи: в роботі ставиться задачапорівняння точності систематичного відбору, простого випадкового відбору тастратифікованого відбору на прикладі вибіркового обстеження домогосподарствгіпотетичного міста StatVillage.

ЗМІСТ
ВСТУП
РОЗДІЛ І. СИСТЕМАТИЧНИЙ ВІДБІР
1.1 Оцінювання середнього та сумарногозначення популяції
1.2 Порівняння систематичного відборузі стратифікованим випадковим відбором
1.3 Популяції з «випадковим» порядкомрозміщення одиниць
1.4 Популяції з лінійним трендом
1.5 Популяції з періодичною варіацією
1.6 Автокорельовані популяції
1.7 Реальні популяції
1.8 Оцінювання дисперсії за окремоювибіркою
1.9 Стратифікований систематичнийвідбір
1.10 Двовимірний систематичний відбір
1.11 Приклади розв’язування задач
РОЗДІЛ ІІ. ПОРІВНЯННЯ СИСТЕМАТИЧНОГОВІДБОРУ, ПРОСТОГО ВИПАДКОВОГО ВІДБОРУ ТА СТРАТИФІКРВАНОГО ВІДБОРІВ
2.1 Місто StatVillage
2.2 Порівняння відборів
ВИСНОВКИ
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
 

ВСТУП
 
Вибіркове обстеження зсистематичним відбором являє собою комплекс процедур, які мають деякі практичніпереваги за інших методів, зокрема у відносній простоті застосування. Інодісистематичний відбір розглядають як деяке наближення простого випадковоговідбору, коли не існує повного переліку або списку всієї популяції, або колицей список не є впорядкованим за якоюсь ознакою, тобто коли елементи записано вдовільному випадковому порядку. Розглянемо загальну процедуру побудовисистематичної вибірки при проведенні випадкового обстеження. Нехай маємоскінчену популяцію, одиниці якої перенумеровані від 1 до />. Для отримання вибіркиобсягу /> спочатку навманнявибираємо будь-яку одиницю з перших /> одиницьпопуляції (це можна зробити, використовуючи датчик випадкових чисел або таблицювипадкових чисел). Після вибору першої одиниці вибираємо кожну />-ту одиницю популяції. Такувибірку будемо називати систематичною вибіркою кожної />-ї одиниці. Наприклад,якщо />=15 і першу одиницювиберемо 13, тоді наступні одиниці будуть мати номери 28, 43, 58, 73… Отже,перша вибрана одиниця повністю визначає вибірку. У систематичного відбору єдеякі очевидні переваги в порівнянні з простим випадковим відбором.
1.        Вибіркулегше добувати і частіше легше дотримуватись правил відбору. Це особливо важливо,коли відбір відбувається безпосередньо протягом обстеження. Іноді можна значнозекономити час, навіть коли вибірка добувається до початку обстеження.Наприклад, коли данні про всі одиниці занесені на картки однакового розміру, щознаходяться у ящиках стандартної картотеки. Тоді можна добувати картки з ящикачерез кожний сантиметр, відміряючи відстань лінійкою. Цю операцію, на відмінувід простого випадкового відбору, можна виконати дуже швидко. Звичайно, такийметод трохи відрізняється від відбору строго кожної />-тоїкартки.
2.        Інтуїтивносистематичний відбір здається більш точним, ніж простий випадковий відбір. Посуті, при відборі відбувається стратифікування популяції на n страт, щоскладаються з перших /> одиниць, здругих /> одиниць і т.д. Отже, мимогли б очікувати, що систематична вибірка має приблизну ту саму точність, що івідповідна стратифікована вибірка з однією одиницею в кожній страті.Відмінність між ними полягає в тому, що при систематичному відборі одиниця вкожній страті стоїть на одному і тому самому місці відносно інших одиниць, утой час як, при стратифікованому випадковому відборі її місце в стратівизначається навмання окремо для кожної страти (див. рис.1). Систематичнавибірка розподілена в популяції більш рівномірно і саме це робить інодісистематичний відбір більш точним, ніж стратифікований випадковий відбір.
/>

Рис.1. Систематичний відбірта стратифіксований випадковий відбір: /> -систематична вибірка, /> — стратифікована вибірка
В одному з варіантівсистематичного відбору кожна одиниця відбирається в центрі страти або білянього, тобто замість того, щоб починати послідовність номерів деяким випадковимчином від 1 до />, ми приймаємономер першої одиниці рівним />, якщо /> – непарне, та /> або />, якщо /> – парне число. Такийприйом доводить ідею систематичного відбору до її логічного завершення. У томувипадку, коли /> можна розглядатияк значення неперервної функції від неперервного аргумента />, є підстави очікувати, щовибірка, яка розташована центрально, буде більш точною, ніж випадковорозташована. Проте ефективність центрально розташованих вибірок для типів популяцій,що зазвичай зустрічаються при вибіркових обстеженнях, вивчена недостатньо, томуобмежимося випадково розташованими вибірками.
Оскільки, взагалі кажучи, /> не є цілим кратним числа />, обсяги різнихсистематичних вибірок з однієї і тієї ж популяції можуть на одиницювідрізнятись один від одного. Так, наприклад, для /> =23, /> = 5 в таблиці 1 вказаніномери одиниць для п’яти систематичних вибірок. Перші три вибірки мають обсяг /> = 5, а дві останні – обсяг/> = 4. Ці обставини вносятьдеякі ускладнення в теорію систематичного відбору. Якщо обсяг /> перевищує 50, то цимускладненням можна знехтувати. Навіть при малих обсягах /> зміни будуть незначні. Алеякщо за оцінку середнього значення популяції вибрати середнє арифметичне такоїсистематичної вибірки, то ця оцінка буде зміщеною.
Таблиця 1 Можливісистематичні вибірки при /> = 23, /> = 5Номер систематичної вибірки перша друга третя четверта п’ята
1
6
11
16
21
2
7
12
17
22
3
8
13
18
23
4
9
14
19
5
10
15
20
Для того, щоб уникнути цього,можна скористатися таким методом. Вибираємо /> якнайбільше ціле, що лежить поряд />. Далі навманнявибираємо будь-яку одиницю від 1 до />, потімберемо кожну />-у одиницю, рухаючись поколу, поки не виберемо /> одиниць. Наприклад,/> = 21, /> = 5, тоді /> = 4. Нехай вибрано одиницюз номером 13. Тоді систематична вибірка 4-го порядку буде містити одиниці зномерами: 13, 17, 21, 4, 8. Якщо першу одиницю вибрано з номером 19, то вибіркамістить одиниці з номерами: 19, 2, 6, 10, 14.
В роботі ставиться задачапорівняння точності систематичного відбору, простого випадкового відбору тастратифікованого відбору на прикладі вибіркового обстеження домогосподарствгіпотетичного міста StatVillage.

РОЗДІЛ І. СИСТЕМАТИЧНИЙ ВІДБІР
 
1.1 Оцінювання середнього та сумарного значення популяції
 
Введемо поняття кластеру.Кластер – це група одиниць популяції, яка розглядається як вихідна одиницявибірки. Нехай />. Популяцію можнарозбити на /> кластерів, у кожному зяких знаходиться n одиниць. Тоді процедура випадкового відбору систематичноївибірки />го порядку така ж сама, які процедура вибору одного із /> кластерів(див. табл. 1.1.1).
Таблиця 1.1.1 Можливісистематичні вибірки />го порядкуСтрати Кластер Середнє страти 1 2 … i … k 1
/>
/> …
/> …
/>
/> 2
/>
/> …
/> …
/>
/> … … … … … … … …
/>
/>
/> …
/> …
/>
/> Середнє систематичної вибірки
/>
/> …
/> …
/>
Нехай випадкова величина /> – середнє значення систематичноївибірки, тобто /> з імовірністю /> дорівнює значенню />, />.
Розподіл /> має вигляд
/>~/>.
 
Теорема 1.1.1. Середнє значення /> систематичної вибірки єнезміщеною оцінкою для середнього значення популяції />.
Доведення.

/>,
де />-ий член />-тої систематичної вибірки,/>, />,
зокрема, дисперсія /> дорівнює
/>.
Теорема доведена.
Теорема 1.1.2. Дисперсія середнього значеннясистематичної вибірки визначається формулою
/> (1.1.1)
Де
/>
є дисперсією одиниць, якіналежать одній систематичній вибірці (wsy − від англ. within −всередині та systematic − систематичний).
Доведення.
Дисперсія популяції з />одиниць визначаєтьсяформулою
/>.
Розглянемо тотожність

/>.
Піднесемо обидві частинирівності до квадрату
/>.
Підсумуємо праву та лівучастини рівності за /> та />:
/>/>
Покажемо, що />:
/>
/>
Отже, маємо
/>,
/>.
Дисперсія /> дорівнює
/>
(обчислена за таблицеюрозподілу />). Тоді

/>.
Звідси
/>,
або, що теж саме,
/>.
Теорема доведена.
Наслідок. Середнє значення длясистематичної вибірки більш точне, ніж середнє для простої випадкової вибірки,тобто
/>
тоді і тільки тоді, коли
/>. (1.1.2)
Доведення.
Дисперсія середнього значенняпростої випадкової вибірки дорівнює
/>.
Тоді з (1.1.1) випливає, що /> тоді і тільки тоді, коли
/>.
Звідси маємо
/>.
Домножимо обидві частининерівності на /> та праворучвинесемо />:
/>.
Враховуючи, що />маємо
/>,
або,
/>.
Отже, />.
Наслідок доведено.
Таким чином, систематичний відбірточніший, ніж простий випадковий відбір, якщо дисперсія /> одиниць систематичнихвибірок більша дисперсії /> всієїпопуляції. Систематичний відбір точний, коли одиниці всередині однієї й тієї жвибірки неоднорідні, та неточний, коли вони однорідні. До цього можна прийтиінтуїтивно. Якщо всередині систематичної вибірки варіація у порівнянні зваріацією популяції невелика, то послідовно вибрані одиниці вибірки несутьбільш або менш однакову інформацію. Інший вираз для дисперсії наведемо утеоремі 1.1.3.
Теорема 1.1.3.
 
/>, (1.1.3)
де/> — коефіцієнт кореляціїміж парами одиниць, що належать до однієї й тієї самої систематичної вибірки.Цей коефіцієнт визначається за формулою
/>,
де чисельник є середнім повсім /> різним парам, а знаменник– середнє по всім /> значенням />. Розпишемо чисельник ізнаменник:
/>
/>
Підставивши отримані вирази у/> отримаємо:
/>.
Доведення.
Дисперсія середнього значення/> систематичної вибіркидорівнює
/>.

Звідси маємо
/>
/>
/>
/>.
Отже,
/>/>.
Ділимо обидві частини на /> і отримуємо вираз для />
/>
/>.
Останній результат показує,що додатна кореляція між одиницями в одній і тій самій вибірці збільшує дисперсіювибіркового середнього. Навіть мала додатна кореляція може мати великий ефектза рахунок множника />.
Теорема доведена.
Дві попередні теоремивиражали /> через дисперсію популяції />, тобто співвідносилидисперсію /> з дисперсією для простоївипадкової вибірки
/>.
Існує аналог теореми 1.1.3, вякому /> виражена через дисперсію стратифікованоївипадкової вибірки, де страти складалися з перших /> одиниць,других /> одиниць і т.п. Припозначеннях індекс /> при /> відповідає номеру страти.Середнє для страти будемо записувати так />.
Теорема 1.1.4.
/>, (1.1.4)
/>
/> – дисперсія одиниць, щоналежать до однієї й тієї самої страти. В знаменнику стоїть />, тому що кожна з /> страт вносить /> ступінь вільності. Величина
/>.
є коефіцієнтом кореляції міжвідхиленнями від середнього значення для страти по всім парам одиниць, щоналежать до однієї й тієї ж систематичної вибірки.
/>. (1.1.5)
Доведення.
Доведення цієї теоремианалогічно доведенню теореми 1.1.3.
Дисперсія середнього значення/> систематичної вибіркидорівнює
/>
Розпишемо середнє значенняпопуляції /> через середнєстратифікованої вибірки />:
/>{/>-це />-та одиниця />-ї страти}/>
/>.
Отже маємо
/>
/>
/>
/>
/>
/>

/>
/>.
Отже,
/>.
Теорема доведена.
Наслідок. Якщо />, то систематична вибіркамає ту саму точність, що й відповідна стратифікована випадкова вибірка з однієюодиницею у кожній страті.
Це твердження випливає зтого, що для такої стратифікованої випадкової вибірки /> дорівнює:
/>.
Теорема 1.1.5. Дисперсія величини />, яка використовується дляоцінювання сумарного значення популяції />,дорівнює
/>.
Приклад. У таблиці 1.1.2 наведеніданні для невеликої штучної популяції, яка показує тенденцію до досить стійкогозростання значень ознаки у послідовності одиниць. Маємо />, />, />. Кожний стовпчиквідповідає деякій систематичній вибірці, а рядки є стратами. Приклад ілюструєситуацію, коли кореляція «всередині страт» додатна. Наприклад, у першій вибірцікожне з чотирьох чисел (0, 6, 18, 26) менше середнього значення у страті, доякого воно належить. Це справедливо, з невеликим винятком, для перших п’ятисистематичних вибірок. В останніх п’яти вибірках відхилення від середніхзначень для страт в основному додатне. Таким чином, члени суми у виразі для /> переважно додатні.Відповідно до теореми 1.1.4 можна очікувати, що систематичний відбір буде меншточним, ніж стратифікований випадковий відбір з однією одиницею у кожнійстраті.
Таблиця 1.1.2 Данні по 10систематичним вибіркам при обсязі вибірок />таобсязі популяції/>Страта
Номер систематичної вибірки (/>)
/> 1 2 3 4 5 6 7 8 9 10
I
II
III
IV
6
18
26
1
8
19
30
1
9
20
31
2
10
20
31
5
13
24
33
4
12
23
32
7
15
25
35
7
16
28
37
8
16
29
38
6
17
27
38
4,1
12,2
23,3
33,1
/> 12, 5 14, 75 15, 25 15, 75 18, 75 17, 75 20, 5 22 22, 75 22 72,7
/> 50 58 61 63 75 71 82 88 91 88
Середнє значеннясистематичної вибірки має розподіл
/> ~ />
/>
/>
Дисперсія систематичноївибірки дорівнює
/>

Знайдемо середнє та дисперсіюдля всієї популяції:
/>
/>
Тепер знайдемо дисперсію одиниць,що належать до однієї й тієї самої страти:
/>,
де /> — число страт, /> — обсяг стратифікованоївибірки.
Тоді дисперсія оцінкисереднього для простої випадкової вибірки має вид:
/>,
де /> — обсяг простої випадковоївибірки.
Дисперсія оцінки середньогодля стратифікованої випадкової вибірки
/>,
де /> - число страт.
Стратифікований випадковийвідбір та систематичний відбір виявились набагато ефективнішими, ніж простийвипадковий відбір, причому, як і очікувалось, систематичний відбір менш точний,ніж стратифікований випадковий відбір.
1.2 Порівняння систематичного відбору зі стратифікованим випадковим відбором
 
Ефективність систематичноговідбору в порівнянні зі стратифікованим або простим випадковим відбором суттєвозалежить від особливостей популяції. Існують такі популяції, в яких систематичнийвідбір дає високу точність, але є й такі, для яких простий випадковий відбір єбільш точним ніж систематичний. Для деяких популяцій та деяких значень /> дисперсія /> середнього систематичноївибірки, веде себе досить погано − вона може навіть зростати призбільшені обсягу вибірки />. Томуважко вказати загальні умови, за яких рекомендовано застосовувати систематичнийвідбір. В будь-якому випадку для того, щоб його застосування було ефективним,необхідно знати будову популяції, з якої проводиться відбір.
При дослідженні цієї проблемиіснує два напрямки. При одному з них порівнюються різні типи відбору зі штучнихсукупностей, для яких /> є деякою простоюфункцією />. При іншому − проводитьсяаналогічне порівняння для реальних популяцій.
 
1.3 Популяції з «випадковим» порядком розміщення одиниць
 
Систематичний відбір,оскільки він зручний, застосовується іноді до популяцій, в яких одиниці дійснорозташовані навмання. Наприклад, так буває при відборі з картотеки, що складенав алфавітному порядку за прізвищами, якщо змінюється ознака, яка ніяк непов’язана з прізвищем того, кого обстежують. В цьому випадку не буде ніякоїтенденції чи стратифікування по /> врозташуванні карток, ні кореляції між сусідніми одиницями.
У такій ситуації ми могли б очікувати,що систематичний відбір буде, по суті, рівносильний простому випадковомувідбору та буде мати ту саму дисперсію. Для конкретної скінченої популяції призаданих значеннях /> і /> це не завжди вірно, томущо />, яка має /> ступенів вільності, прималих /> досить нестійка і можевиявитись як більше так і менше, ніж />. Алеіснують дві теореми, які показують, що в середньому ці дисперсії рівні.
Теорема 1.3.1. Розглянемо всі /> скінчених популяцій, щоутворюються за допомогою /> перестановокдеякого набору чисел />. Тоді всередньому по всім цим скінченим популяціям
/>.
Зауважимо, що /> для усіх перестановокоднакова.
Ця теорема стверджує, що якщоперестановку, яка визначає порядок значень у деякій конкретній скінченій популяції,можна вважати обраною навмання із можливих /> перестановок,то в середньому систематичний відбір еквівалентний простому випадковомувідбору.
При іншому підході скінчену популяціювважають добутою навмання з деякої нескінченої надпопуляції, що має певнівластивості. Теорема 1.3.1 відноситься не до будь-якої скінченої популяції, адо середнього по всім скінченим популяціям, які можуть бути добуті із даноїнескінченої надпопуляції.
Позначимо через /> — середнє по всім скінченнимпопуляціям, які можуть бути добуті з даної надпопуляції.
Теорема 1.3.2. Якщо змінні /> /> добуті за допомогоювипадкового відбору із надпопуляції, для якої
/> /> />, />,
/>.
Головну роль відіграють двіумови:
1)        всі /> мають одне і теж середнє />, тобто в їх змінахвідсутній будь-який тренд;
2)        міжзначеннями /> та /> у двох різних точкахвідсутня лінійна кореляція. Дисперсія />можебути різною для різних />.
Доведення. Длябудь-якої визначеної скінченої популяції
/>.
Далі,
/>
/>
/>
/>
/>.
Оскільки /> та /> некорельовані />, то
/>
/>.
Отже,

/>
/>
/>.
Звідси
/>.
Повертаючись до /> позначимо через /> середнє значення ознакидля />-тої систематичної вибірки.Для будь-якої визначеної скінченої популяції
/>
/>
/>
/>
/>
/>.
За теоремою про дисперсіюсереднього для некорельованої вибірки, добутої з нескінченої популяції
/>~/>,
/>,
/>.
Розглянемо докладніше вираз удужках
/>
/>
/>
/>.
Раніше було показано, що
/>.
Отже маємо
/>
/>
/>.
Теорема доведена.
 
1.4 Популяції з лінійним трендом
 
Якщо популяція містить тількилінійний тренд, як показано на рис.1.4.1, то характер результатів уявити собі доситьпросто. З рис. 1.4.1 видно, що /> та /> (при вибірці з однієюодиницею із кожної страти) будуть менше, ніж />.Крім того, /> буде більше, ніж />, оскільки, якщо в деякійстраті значення спостереження менше середнього для цієї страти, то присистематичному відборі значення спостереження буде менше в усіх інших стратах,в той час, як при випадковому стратифікованому відборі помилки всередині стратможуть взаємно знищуватись.
/>
Рис. 1.4.1. Систематичнийвідбір із  популяцій з лінійним трендом: /> -систематична вибірка, /> — стратифікована вибірка
Для теоретичної перевірки цихрезультатів достатньо розглянути випадок, коли />,/>. Маємо

/>; />; />. (1.4.1)
Дисперсія сукупності, />, дорівнює:
/>. (1.4.2)
Отже, дисперсія середнього /> для простої випадковоївибірки дорівнює:
/>. (1.4.3)
Для того, щоб знайтидисперсію всередині страт, />,достатньо лише підставити у формулу (1.4.2) /> замість/>. Це дає
/> (1.4.4)
/>
При систематичному відборісереднє значення для другої вибірки перевищує середнє для першої на 1; середнє значеннядля третьої вибірки перевищує середнє для другої на 1 і т.д. Тому приобчисленні дисперсії середні /> можназамінити числами />. Отже, виходячиз (1.4.2), використовуючи
/>; />,

Отримаємо
/>
/>
/>
/>.
Звідси
/>. (1.4.5)
З формул (1.4.3), (1.4.4),(1.4.5) випливає, що
/>.
Дисперсії для різних способіввідбору рівні тільки при />. Такимчином, якщо ми хочемо уникнути впливу лінійного тренду (очікуваного абонеочікуваного), то для цієї мети систематична вибірка набагато ефективніша, ніжпроста випадкова вибірка, але менш ефективна, ніж стратифікована випадковавибірка.
Ефект використання систематичноговідбору за наявності лінійного тренду можна збільшити кількома способами. Одиніз них полягає у тому, щоб використати центрально розташовану вибірку. Інший −в тому, щоб при обчисленні оцінки замість незваженого середнього брати зважене,в якому усім внутрішнім членам вибірки надається вага, що дорівнює одиниці (доділення на />), а першому та останньомучленам − інша вага. Якщо число, яке відібране навмання з чисел /> виявиться рівним />, то ця вага будедорівнювати
/>,
причому вага, що надаєтьсяпершому члену, має знак «+», а останньому − знак «-». Очевидно, що прибудь-якому /> сума цих двох ваг дорівнює2.
1.5 Популяції з періодичною варіацією
 
Якщо популяція міститьперіодичний тренд, наприклад, звичайну синусоїду, то ефективність систематичноївибірки залежить від значення />. Цеможна наочно побачити на рис. 1.5.1. Висота кривої на ньому відповідаєспостереженню />.
/>
Рис.1.5.1.Періодичнаваріація
Вибіркові точки /> представляють найменшсприятливий для систематичної вибірки випадок. Він має місце, якщо /> дорівнює періоду синусоїдиабо цілому числу, яке кратне цьому періоду. Кожне спостереження в систематичнійвибірці буде однаковим, тому вибірка не буде більш точною, ніж одиничнеспостереження, добуте з популяції навмання.
Найбільш сприятливим будевипадок (вибірка />), коли /> - непарне число, якекратне напівперіоду. Середнє значення кожної систематичної вибірки буде вточності дорівнювати середньому для популяції, оскільки відхилення вверх абовниз від прямої на рис. 1.5.1 взаємно урівноважаться. Отже, дисперсіясереднього вибірки буде дорівнювати нулю. У проміжках між цими двома випадкамиефективність вибірки буде залежати від співвідношення між /> та довжиною хвилі.
Популяції, які можна описатиточною синусоїдою, на практиці, не зустрічаються. Однак популяції з більш абоменш вираженим періодичним трендом − не рідкість. Прикладами можуть бутитранспортний потік на певній ділянці дороги на протязі доби та об’єм продаж умагазині на протязі семи днів тижня. Для оцінювання середнього за деякий періодчасу було б, очевидно, не доцільно формувати систематичну вибірку, роблячиспостереження щоденно о 4 годині дня кожний четвер. Навпроти, потрібнорозосереджувати вибірку вздовж періодичної кривої, у випадку продаж, наприклад,слідкуючи за тим, щоб кожний день тижня був однаково представлений у вибірці.
У деяких популяціяхзустрічаються менш помітні періодичні коливання. Наприклад, якщо є ряд щоденнихплатіжних відомостей для невеликої ділянки підприємства, то список робітників укожній з них може бути складений у одному й тому ж порядку та містити від 19 до23 прізвищ. Тоді систематична вибірка кожного 20-го робітника за періоддекількох тижнів може включати записи, які відносяться до одного і того ж робітникаабо до двох чи до трьох робітників, що належать до найбільш високооплачуваноїгрупи. Аналогічно систематична вибірка прізвищ з міського довідника, де під однаковимпрізвищем, спочатку, значиться голова домогосподарства, а потім його діти, можемістити дуже багато голів домогосподарств чи дуже багато дітей. Якщо часувистачає, щоб дослідити характер періодичності, то систематичну вибірку можнапобудувати так, щоб скористатися її особливостями. В супротивному разі, колиперіодичність передбачається, але характер її невідомий, краще застосовуватипросту або стратифіковану випадкову вибірку.

1.6 Автокорельовані популяції
 
Для багатьох реальних популяційє підстави очікувати, що два спостереження /> та/> будуть більш схожими, якщоодиниці /> та /> розташовані в рядінедалеко одна від одної. Таке буває, коли будь-які природні причини обумовлюютьповільну зміну значень при просуванні вздовж ряду. В математичній моделі такоїситуації можна вважати, що між /> та /> існує додатна кореляція,яка залежить тільки від відстані між ними, />,та прямує до нуля при збільшенні цієї відстані.
Для з’ясування того, чи можназастосовувати цю модель до конкретної популяції, можна обчислити коефіцієнтикореляції /> між парами спостережень,що знаходяться на відстані /> одиницьодне від одного, та побудувати графік відповідних значень як функції />. Цей графік, чи функція,яку він представляє, називається корелограмою. Навіть якщо модель можназастосовувати до будь-якої скінченої популяції, корелограма для неї не будегладкою функцією через неправильності, обумовлені скінченим характером популяції.При порівнянні систематичного та стратифікованого випадкового відборів із популяцій,що описуються моделлю, ці неправильності ускладнюють отримання результатів длябудь-якої скінченої популяції. Таке порівняння можна провести, якщо розглядатисереднє з цілого ряду популяцій, отриманих навмання з деякої нескінченої надпопуляції,до якої можна застосувати цю модель. Такий прийом вже застосовувався в теоремі1.3.2.
Отже, ми припускаємо, щоспостереження /> /> вилучені з над популяції,для якої
/>/> /> (1.6.1)

де
/> при довільних />.
Здобуття одного наборузначень /> з цієї надпопуляції призводитьдо утворення деякої скінченої популяції обсягом />.
Середня дисперсія по всімскінченим популяціям при систематичному відборі позначається через
/>.
Для цього класу популяційневажко показати, що стратифікований випадковий відбір краще простоговипадкового відбору, але відносно систематичного відбору загального твердженнясформулювати не можна. Всередині цього класу існують надпопуляції, для якихсистематичний відбір краще стратифікованого випадкового відбору, але існують ітакі, для яких, при певних значеннях />,систематичний відбір поступається стратифікованому випадковому відбору.
Якщо припустити, щокорелограма є випуклою вниз функцією, то можна довести одну загальну теорему.
Теорема 1.6.1. Якщо, разом з умовами (1.6.1),виконується
/>, />,
то при будь якому обсязівибірки
/>.
Далі, за винятком випадку /> />, виконується
/>.
Теорема 1.6.1 була доведенаКокреном у 1946 році.
Наведемо частину доведенняпри />, яка показує, яку рольвідіграє умова випуклості вгору. Члени пари, які утворюють систематичнувибірку, завжди відстоять один від одного на /> одиниць.Отже,
/>.
У випадку стратифікованоївибірки для кожної одиниці, що вилучається з відповідної страти, існує /> можливих місць, щоутворюють /> можливих комбінаційрозташування вибірки. Числа комбінацій, для яких відстань між одиницями складає/>, будуть такими:Відстань
/> /> /> /> /> /> /> /> /> /> /> /> Підсумок Число комбінацій
/> /> /> /> /> /> /> /> /> /> /> />
/>
Отже, середнє значення />, яке береться по всім /> комбінаціям, може бутиподане у вигляді
/>
Аналогічно /> можна виразити у вигляді
/>
Отже,
/>
Якщо
/> />,
то неважко показати, щокожний член всередині дужок додатний. Теорема доведена.
Середня відстань між одиницямидорівнює /> як для систематичноївибірки, так і для стратифікованої вибірки, але завдяки умові випуклостістратифікована вибірка більш програє у точності, коли відстань між одиницямименше />, ніж виграє, коли цявідстань більше />.
В 1949 році Кенуй показав, щонерівності, які містяться у твердженні теореми 1.6.1, залишаються справедливими,якщо зробити менш жорсткими дві умови (1.6.1), а саме
/>/>.
В цьому випадку кожна з трьохсередніх дисперсій для надпопуляції збільшується в однаковому ступені.
 
1.7 Реальні популяції
 
Дослідження були проведенідля різних реальних популяцій. Деякі з цих досліджень наведені в таблиці 1.7.1.Перші три дослідження проводилися за допомогою географічних мап. У першому зних популяція складається з 288 значень висот точок, які знаходяться навідстані 0,1 милі одна від одної у гірській місцевості.
У двох наступних популяціях данимиє долі довжин відрізків прямих, які проведені на мапі з розфарбуванням, щоприходяться на області з визначеним покриттям (під травою, лісом і т.п.). Ціприклади можна вважати найбільш близькими до моделей з неперервною у строгомусенсі варіацією.
Наступні три дослідження заснованіна показах температури на протязі 192 послідовних днів у наступних точках: (а)12 дюймів під поверхнею трави, (б) 4 дюйма під поверхнею землі, (в) у повітрі. Ці три дослідження відображають три різних ступені впливу (у напрямкузбільшення) на характеристику, що вивчаються, а саме — нестійкі щоденні змінипогоди та повільні сезонні зміни.
У останніх дослідженняхспостерігались рослини або дерева, що ростуть у послідовних точках, які розташованівздовж деякої лінії. При обстеженні картоплі, типовою для цієї групи, скінчена популяціяскладається зі значень врожаю на 96 грядках деякого поля.
У деяких обстеженнях /> порівнювали з /> для стратифікованої випадковоївибірки з об’ємом страт /> і двомаодиницями у кожній страті. Таке порівняння є цікавим, оскільки за данимивибірки можна дістати незміщену оцінку />.Для /> (з об’ємом страти /> і однією одиницею у кожнійстраті) або для /> її отриматинеможна. У більшості джерел безпосереднє порівняння з /> у явному вигляді непроводиться, але взагалі /> даєвиграш у точності у порівнянні з />.
У роботах Йетса та Фінніпорівняння проводиться відносно цілої низки значень /> та/> для кожної скінченої популяції.
Таблиця 1.7.1 Реальні популяції,що вивчені при аналізі систематичного відборуАвтор
Обсяг популяції
/> Вид даних Yates (1948) 288 Значення висот у точках, що знаходяться на відстані 0,1 милі одна від одної, отримані за мапою англійського державного картографічного управління Osborne (1942) * Відсоток площі під (а) оброблюваною землею, (б) чагарником, (в) травою, (г) лісом на паралельних прямих, які проведені на мапі з розфарбуванням Osborne (1942) * Відсоток площі під ялиною Дугласа, який підрахований за допомогою паралельних прямих, що проведені на мапі з розфарбуванням Yates (1948) 192 Температура ґрунту (12 дюймів під поверхнею трави) на протязі 192 послідовних днів Yates (1948) 192 Температура ґрунту (4 дюймів під поверхнею землі) на протязі 192 послідовних днів Yates (1948) 192 Температура повітря на протязі 192 послідовних днів Yates (1948) 96 Врожай картоплі на 96 грядках Finney (1948) 160 Об’єм лісу, придатного до продажу, у розрахунку на ділянку шириною у 3 ряди та змінної довжини (Mt. Stuart forest) Finney (1948) 288 Об’єм підростаючого лісу на ділянку шириною у 2,5 ряди та довжиною у 80 рядів (Black’s Mountain forest) Finney (1950) 292 Об’єм лісу на ділянку шириною в 2 ряди та змінної довжини (Dehra Dun forest) Johnson (1943) 400** Число саджанців на 1 фут довжини гряди для 4 гряд саджанців листяних порід Johnson (1943) 400** Число саджанців на 1 фут довжини гряди для 3 гряд саджанців хвойних порід Johnson (1943) 400** Число пересаджених дерев хвойних порід на 1 фут довжини гряди для 6 гряд
* Теоретично /> нескінчене, якщо вважати,що товщина прямих нескінченно мала
** Наближено. Насправді цечисло змінювалось від гряди до гряди.
Для цих випадків дані таблиці1.7.2 є геометричним середнім відношень дисперсій для окремих значень />. Інші автори проводилипорівняння тільки для одного значення /> укожній популяції, але іноді приводили данні для різних ознак або декількохреальних популяцій одного і того ж характеру. При цьому знову бралосьгеометричне середнє з відношень дисперсій.

Таблиця 1.7.2 Відноснаточність систематичного та стратифікованого випадкового відборуДанні
Розмах значень
/> Відносна точність систематичного відбору в порівнянні зі стратифікованим відбором
/>
/> Висоти 2 − 20 2,99 5,68
Відсоток площі
(4 типів покриття) − − 4,42 Відсоток площі під ялиною Дугласа − − 1,83 Температура ґрунту (12 дюймів) 2 − 24 2,42 4,23 Температура ґрунту (4 дюйма) 4 − 24 1,45 2,07 Температура повітря 4 − 24 1,26 1,65 Картопля 3 − 16 1,37 1,90 Об’єм лісу (Mt. Stuart) 2 − 32 1,07 1,35
Об’єм лісу
(Black’s Mt) 2 − 24 1,19 1,44
Об’єм лісу
(Dehra Dun) 2 − 32 1,39 1,89 Листяні саджанці 14 − 1,89 Хвойні саджанці 14 − 24 − 2,22 Пересадженні хвойні дерева 12 − 22 − 0,93
Хоча ці данні обмежені замасштабами, результати справляють враження. В тих дослідженнях, де можливепорівняння з />, систематична вибірканезмінно дає, хоча і помірний, але цілком відчутний виграш у точності. Медіаннезначення відношень /> дорівнює 1,4.Виграш у точності у порівнянні з /> суттєвіший,тут медіанне значення відношень дорівнює 1,9. Характер знайдених результатів взагалівідповідає очікуваному, хоча зважаючи на невелику кількість обстежень важкобуло розраховувати на отримання певних висновків. Виграш виявився найбільшимдля тих видів даних, відносно яких можна було припустити, що їхня варіаціянайбільш близька до неперервної. З цієї точки зору і при переході від ґрунтовихтемператур до температур повітря можна було очікувати, що відношення /> зменшиться. З останніхтрьох ознак (дані про лісові розсадники) виграшу у точності не виявилось лишедля одного − пересаджених хвойних дерев />,які старіші й більш однорідні, ніж молоді саджанці.
 
1.8 Оцінювання дисперсії за окремою вибіркою
Згідно з результатами, яківідносяться до простих випадкових вибірок з />,ми можемо обчислити незміщену оцінку дисперсії вибіркового середнього, при цьомуоцінка буде незміщеною незалежно від виду популяції. Але для систематичноївибірки ця корисна властивість не зберігається, оскільки її можна розглядатилише як просту випадкову вибірку з />, тобтоодним членом. Проілюструємо це на прикладі зі зміною «по синусоїді». Нехай
/>,
де />(обираємо кожну четвертуодиницю) та /> Послідовними спостереженнямив популяції будуть
/>
Якщо за перший член обратизначення />, то всі членисистематичної вибірки мають значення />. Притрьох інших можливих значеннях першого члена всі вони приймають значеннявідповідно />, /> або />. Таким чином, за окремоювибіркою ми не можемо оцінити величину />.В той час справжнє значення дисперсії вибіркового середнього систематичноївибірки дорівнює />. Цей приклад ілюструє,що при існуванні періодичної варіації в популяції незміщену оцінку дисперсії повибірці побудувати неможливо.
Але останнє не означає, щозовсім нічого не можна зробити. За виключенням випадку періодичної варіації, миможемо користуватися інформацією про структуру популяції для того, щобпобудувати математичну модель, яка адекватно представляє існуючий в популяціїтип варіації. Після цього ми могли б вивести формулу для оцінки дисперсії, якадля цієї моделі була б наближено незміщеною, хоча, можливо, для інших моделейзміщення було б великим. Вирішувати, яку з моделей необхідно застосовувати,повинен той, хто організовує спостереження.
Далі наведені без доведень деякіпрості моделі з відповідними оцінками дисперсій.
Найбільш проста модель відноситьсядо популяції, в якій /> містить деякийтренд плюс «випадковий» доданок. Тоді
/>,
де /> − деяка функція />. Відносно випадковогододанка /> ми припускаємо, що існує надпопуляція,для якої
/> /> /> />.
Оцінка дисперсії /> називається незміщеноюоцінкою дисперсії />, якщо
/>,
тобто, якщо вона незміщенавідносно середнього по всім скінченим популяціям, які можуть бути отримані зцієї надпопуляції.
Популяція, одиниці якоїрозташовані навмання.
/> />
/>.
Остання формула є оцінкоюдисперсії систематичної вибірки /> — тоїодиниці.
Ця модель застосовується,якщо ми впевненні в тому, що порядок розташування одиниць має в основномувипадковий характер відносно ознаки, що спостерігається. Формула дисперсії збігаєтьсяз формулою дисперсії простого випадкового відбору, і її оцінка незміщена, якщонаша модель справедлива.
Стратифікована популяція,одиниці якої у стратах розташовані навмання
/> />
/>.
В цьому випадку середнєзначення є постійним всередині кожної страти з /> одиниць.Оцінка />, яка заснована насередньому квадраті послідовних різниць, не буде незміщеною. В її утворенніприймають небажану участь різниці значень /> сусідніхстрат і, зокрема, при оцінюванні випадкового доданку дисперсії перша та останнястрати мають занадто малу вагу. Якщо наша модель справедлива, то для достатньовеликих вибірок ця оцінка буде, взагалі кажучи, перевищувати дисперсію.
Лінійний тренд

/> />
/>.
Оцінка заснована на квадратахпослідовних різниць, що утворюються трьома сусідніми значеннями />, />, /> у вибірці. Сума квадратівмістить /> членів. У випадкулінійного тренду його можна виключити, використовуючи кінцеві поправки. Член /> дорівнює сумі квадратівваг у виразі />. Якщо тільки /> не мале, /> можна замінити звичайниммножником />. Це можна зробити,оскільки крайнім стратам надана дуже мала вага, оцінка зміщена, за виключеннямвипадку, коли /> є постійноювеличиною. Але якщо /> велике і нашамодель справедлива, то оцінка буде цілком задовільною.
1.9 Стратифікований систематичний відбір
 
Якщо одиниці певним чиномвпорядковані, то систематичний відбір забезпечує деякого роду стратифікування зрівними долями відбору. Якщо стратифікування виконано за деяким іншимкритерієм, то з кожної страти можна вилучити окрему систематичну вибірку,визначаючи точки відліку незалежно. Такий підхід зручний, якщо ми хочемоотримати окремі оцінки для кожної страти або якщо застосовуються нерівні долівідбору. Цей метод буде, звичайно, більш точним, ніж стратифікований випадковийвідбір, якщо систематичний відбір всередині страт більш точний, ніж випадковийвідбір всередині страт.
Якщо /> − середнє значеннядля систематичної вибірки у страті />, тооцінка середнього для сукупності /> і їїдисперсія мають вигляд:
/> />.
Якщо страт небагато, тозадача знаходження дисперсії за вибіркою зводиться до задачі пошуку за вибіркоюзадовільної оцінки /> у кожній страті.
Якщо страт багато, то можебути кращою оцінка, знайдена за методом «поєднанних страт». Оцінка
/>,
де підсумовування проводитьсяза всіма парами страт, у середньому перебільшує дисперсію, навіть якщо варіаціяперіодичного характеру існує всередині страт.
Незміщену оцінку дисперсіїпохибки можна отримати, якщо з кожної страти вилучаються дві систематичнівибірки з різними точками відліку, які обрані навмання, та з інтервалом відбору/>. При цьому кожна стратазабезпечує один ступінь вільності. Якщо систематичний відбір є ефективним, тотакий прийом призведе до деякої втрати точності. Якщо страт багато, то збільшості їх можна добути по одній систематичній вибірці, а по дві вибірки дляоцінювання по ним похибки вилучити лише у частині страт, відібравши цю частину навмання.
1.10 Двовимірний систематичний відбір
 
При відборі з популяції, що представляєсобою деяку територію, найпростішим узагальненням одновимірного систематичноговідбору буде відбір за схемою квадратної решітки, яка зображена на рис.1.10.1.Вибірка повністю визначається парою випадкових чисел, які задають координатилівої верхньої одиниці.
Характеристики схемиквадратної решітки були дослідженні на прикладах як теоретичних, так і реальнихпопуляцій. Матерн (1960) дослідив найкращий тип вибірки для випадку, коликореляція спостережень у довільних двох точках виражається монотонно спадаючоювипуклою вгору функцією відстані між ними />.Для корелограм вигляду /> відбір поквадратній решітці виявляється достатньо придатним і перевищує простий абостратифікований випадковий відбір з однією одиницею у кожній страті, хочаМатерн і вказує причини, за якими можна очікувати, що найкращою схемою для цієїситуації виявиться відбір по трикутній решітці, що утворені вершинамирівносторонніх трикутників.
У 14 сільськогосподарськихдослідженнях на однорідність Хейнс (1948) знайшов, що відбір за квадратноюрешіткою дає майже ту саму точність, що і двовимірний простий випадковий відбір.Мілн (1959) вивчав відбір за «центральною» схемою квадратної решітки, коли вибіркавизначається точкою, яка лежить в центрі квадрату, у 50 випробуваннях наоднорідність. Такий спосіб відбору виявився краще простого випадкового відборуі, можливо, дещо краще, ніж стратифікований випадковий відбір, хоча останняперевага не була статистично значущою. Ці результати вказують на те, що принаймні, для даних такоготипу, автокореляція виражена слабко. При оцінюванні по мапі площі, яку займаєліс чи вода, Матерн у двох прикладах помітив, що квадратна решітка перевищуєвипадкові методи відбору.
Два типи двовимірної систематичної вибірки
/>
Рис. 1.10.1 Рис. 1.10.2 Вирівняна вибірка або Невирівнянавибірка за схемою «квадратної решітки»

На рис. 1.10.2 наведена систематична вибірка іншого типу, яканазивається невирівняною вибіркою.
1. Добуваючи пару випадкових чисел, задаємо координати лівоїверхньої одиниці:
/>
2. Добуваючи пару випадкових чисел, задаємо горизонтальнікоординати двох одиниць в першому стовбці:
/>
Наприклад, в другому рядку − координати правої одиниці,в третьому рядку − координати центральної одиниці.
3. Добуваючи пару випадкових чисел, задаємо вертикальнікоординати двох одиниць в першому рядку:
/>
Наприклад, в другому стовбці − координати нижньоїодиниці, в третьому стовбці − координати центральної одиниці.
Після цього постійний інтервал />(щодорівнює сторонам квадратів) однозначно задає розташування всіх інших точок. ДослідженняКенуя (1949) і Даса (1950) для простих двовимірних корелограм вказують на те,що невирівняна схема часто дає кращі результати, ніж квадратна решітка тастратифікований випадковий відбір.
Ще одне свідчення переваги невирівняної вибірки дає досвідпланування експериментів, який виявив, що для розміщення спостережень упрямокутній області цілком можна застосовувати схему латинського квадрату. Вважатимемо,що латинський квадрат (5/>5), якийпоказаний на рис. 1.10.3, задає розбиття області на п’ять систематичнихвибірок, кожна з яких відповідає певній літері. Є деякі данні про те, що цейособливий квадрат, що називається латинським квадратом «ходом коня», буде більшточним, ніж навмання вибраний квадрат (5/>5).Причина цього, ймовірно, у тому, що у першого ніяка вибірка не містить двохелементів не тільки з одного рядка чи одного стовпця, але й із кожноїдіагоналі.
Принципом побудови латинських квадратів скористалися Хомейерта Блек при відборі на прямокутних полях вівса. Кожне поле містило 21 ділянку.Три можливі систематичні вибірки, які позначені відповідно літерами A, B, C, щопоказані на рис. 1.10.4. Таке розміщення, коли на кожному полі обирається навманняодна з літер, збільшило точність приблизно на 25% у порівнянні зістратифікованим випадковим відбором, в якому рядки виступали стратами. Оскількикожна літера зустрічається тричі в одному стовпчику і по два рази в інших, такерозміщення не зовсім точно задовольняє означенню латинського квадрату, але,наскільки це можливо, відповідає йому.
Дві схеми систематичного відбору, засновані на латинськихквадратах

/>
Рис. 1.10.3 Латинський квадрат «ходом коня» Рис. 1.10.4 Схемасистематичного відбору для прямокутного поля 3/>7
Йейтс (1960), який назвав розміщення такого типу відбором зарешіткою, розглядає їх застосування для двовимірного та тривимірного відбору. Увипадку трьох вимірів кожний рядок, кожний стовпець та кожна вертикаль можутьбути представлені у вибірці шляхом відбору />одиницьз />одиниць популяції. Якщовибірка містить /> одиниць, то вній можуть бути представленні кожне з /> сполукрядків та стовпців або рядків та вертикалей, або стовпців та вертикалей.Паттерсон (1954) дослідив розміщення, які дають незміщену оцінку похибки.
1.11 Прикладирозв’язування задач
 
Приклад 1. У таблиці1.11.1 наведена кількість саджанців на кожному футі довжини гряди, загальноюдовжиною у 200 футів.
Знайти дисперсію середнього систематичної вибірки, що включаєкожний двадцятий фут гряди. Порівняти її з дисперсією простої випадковоївибірки. Для всіх вибірок />. />
Таблиця 1.11.1 Число саджанцівФути довжини гряди Підсумки систематичних вибірок
  1-20 21-40 41-60 61-80 81-100 101-120 121-140 141-160 161-180 181-200 1 2 3 4 5 6 7 8 9 10
8
6
6
23
25
16
28
21
22
18
26
28
11
16
7
22
44
26
31
26
20
19
25
11
31
26
29
19
17
28
16
9
22
26
17
39
21
14
40
30
26
26
10
41
30
55
34
56
39
41
27
20
25
39
24
25
18
44
55
39
34
21
27
25
32
43
33
45
23
27
37
14
14
24
18
17
14
38
36
29
31
23
41
18
15
21
8
22
11
3
4
5
11
9
25
16
13
22
18
9
24
19
28
18
29
24
33
37
32
26
36
20
43
27
20
21
18
19
24
30
18
13
7
9
11
20
16
9
14
15
20
21
15
14
13
9
25
17
7
30
16
12
8
10
12
20
17
12
7
17
21
26
16
18
11
19
27
29
31
29
36
8
29
33
14
13
18
20
13
24
29
18
16
20
6
15
4
8
8
10
10
35
7
9
12
7
6
14
12
15
18
4
4
9
8
8
9
10
5
3
223
182
188
197
211
245
222
255
190
214
234
165
177
202
149
191
193
227
225
235 Підсумки для страт 410 459 674 554 325 528 303 358 342 205 4155
 
Розв’язання.
а) Систематична вибірка:
/>
/>
/>
Дисперсія середнього систематичної вибірки дорівнює />.
б) Проста випадкова вибірка:
/>
/>
/>
Дисперсія простої випадкової вибірки дорівнює />.
Відповідь: />. Дисперсія середнього систематичної вибірки краща ніждисперсія простої випадкової вибірки.
Приклад 2. Популяція, що складається з360 домогосподарств (які перенумеровані від 1 до 360), розміщена в картотеці уалфавітному порядку за прізвищами головних членів господарств.Домогосподарства, де голова сім’ї небілий, мають наступні номери: 28, 31-33,36-41, 44, 45, 47, 55, 56, 58, 68, 69, 82, 83, 85, 86, 89-94, 98, 99, 101,107-110, 114, 154, 156, 178, 223, 224, 296, 298-300, 302-304, 306-323, 325-331,333, 335-339, 341, 342. (Серед небілих іноді зустрічаються «скупчення»домогосподарств через зв'язок між прізвищем та кольором шкіри).
Порівняйте точністьсистематичної вибірки кожного восьмого домогосподарства з простою випадковоювибіркою того ж обсягу при оцінюванні частки домогосподарств, у яких головнийчлен сім’ї небілий.
Розв’язання.
Будемо позначатидомогосподарство, де голова сім’ї небілий як 1 і відповідно де голова білий –0. Тоді запишемо всі систематичні вибірки кожного восьмого домогосподарства утаблицю 1.11.2:
Таблиця 1.11.2 Дані по 8-мисистематичним вибіркам
Номер систематичної вибірки (/>=8) 1 2 3 4 5 6 7 8 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
/> 0,2222 0,2667 0,1556 0,2667 0,2667 0,2222 0,2444 0,1556
/> 10 12 7 12 12 10 11 7
а) Систематична вибірка
Середнє значеннясистематичної вибірки має розподіл
/> ~/>
/>
/>
/>
Дисперсія середньогосистематичної вибірки дорівнює />.
б) Проста випадкова вибірка
Частка домогосподарств, деголовний член сім’ї не білий дорівнює
/>
Для простої випадковоївибірки дисперсія вибіркової частки має вигляд:
/>,
де />, />. Підставляємо і отримаємо:
/>.
Дисперсія простої випадковоївибірки при оцінюванні частки домогосподарств з небілим головним членом сім’їдорівнює />.
Відповідь: />. Дисперсія систематичноївибірки точніша за дисперсію простої випадкової вибірки при оцінюванні часткидомогосподарств, де головний член сім’ї небілий.
Приклад 3. Є наступний список мешканців13-ти будинків деякої вулиці. М – дорослий чоловік, Ж – доросла жінка, м –хлопчик, ж – дівчинка.
Сім’ї1 2 3 4 5 6 7 8 9 10 11 12 13 М М М М М М М М М М М М М Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж Ж ж ж м м ж ж м м м ж ж м м ж м м ж ж ж м ж ж ж м
Порівняйте дисперсії длясистематичної вибірки кожної п’ятої людини та 20%-вої простої випадковоївибірки при оцінюванні: (а)частки людей чоловічої статі, (б) частки дітей. Увипадку систематичної вибірки ведіть відлік у кожному стовбці зверху вниз ідалі з верху наступного стовпця.
Розв’язання.
Запишемо всі систематичнівибірки кожної п’ятої людини:
1.        М М М Ж жМ М Ж ж М
2.        Ж Ж Ж М МЖ Ж м М Ж
3.        ж ж м Ж Жж м М Ж ж
4.        м м ж м жж ж Ж ж М
5.        ж ж М м мм М м м Ж
а) Оцінювання частки людейчоловічої статі
·         Систематичнавибірка кожної п’ятої людини
/>
/>
/>
/>
/>
Тоді розподіл середнього маєвигляд:
/>.
/>
/>
/>
Дисперсія середньогосистематичної вибірки дорівнює />.
·         20%-вапроста випадкова вибірка
Якщо />, тоді />. Частка людей чоловічоїстаті дорівнює
/>
Тоді дисперсія вибірковоїчастки простої випадкової вибірки дорівнює
/>
Дисперсія простої випадковоївибірки при оцінюванні частки людей чоловічої статі дорівнює />.
б) Оцінювання частки дітей
·         Систематичнавибірка кожної п’ятої людини
/>
/>
/>
/>
/>
Тоді розподіл середнього маєвигляд:
/>.
/>
/>
/>
Дисперсія середнього систематичноївибірки дорівнює />.
·         20%-вапроста випадкова вибірка
Якщо />, тоді />. Частка дітей дорівнює
/>
Тоді дисперсія вибірковоїчастки простої випадкової вибірки дорівнює
/>
Дисперсія простої випадковоївибірки при оцінюванні частки дітей дорівнює />.
Відповідь: а) При оцінюванні часткилюдей чоловічої статі отримали, що />.Дисперсія систематичної вибірки точніша за дисперсію 20%-ї простої випадковоївибірки. Але можна помітити, що вони майже рівні. б) При оцінюванні часткидітей отримали, що />. В цьому випадкудисперсія 20%-ї простої випадкової вибірки є кращою ніж дисперсія систематичноївибірки.
 

РОЗДІЛ ІІ. ПОРІВНЯННЯ СИСТЕМАТИЧНОГО ВІДБОРУ, ПРОСТОГО ВИПАДКОВОГО ТАСТРАТИФІКОВАНОГО ВІДБОРІВ
 
2.1 Місто StatVillage
 
StatVillage – це гіпотетичне місто, якескладається з окремих домогосподарств і використовується як база даних для студентівта аспірантів, що вивчають вибіркові методи.
Дані домогосподарств дляStatVillage обирались навмання з результатів перепису сімей, що мешкали в домогосподарстваху місті Ванкувері, Британській Колумбії, Канаді у 1991 році. Сам переписнаселення проходив шляхом анонімного анкетування. Бралися до уваги наступніхарактеристики:
·         демографічніпоказники – розмір домогосподарства та його склад за віком та статтю;
·         показникидоходу – зайнятість, інвестиції, валові витрати, різні доходи домогосподарств таінші;
·         житловіхарактеристики – тип житла, рік побудови, своє житло чи орендоване, оціночнавартість, щомісячні витрати на розміщення та інші;
·         характеристикадвох головних членів сім’ї, які відповідають за добробут сім’ї – вік, стать,професія, рідна мова, освіта, зайнятість і т.д;
Існують три конфігураціїміста StatVillage:
·         Maximalvillage – складається зі 128 блоків, кожен з яких містить 8 домогосподарств(загальна кількість домогосподарств — 1024).
·         Minivillage – складається з 60 блоків, кожен з яких містить 8 домогосподарств (загальнакількість домогосподарств – 480).
·         Microvillage – складається з 36 блоків, кожен з яких містить 8 домогосподарств(загальна кількість домогосподарств – 288).
Кожен блок домогосподарствнумерується в певному порядку, а саме

/>
Рис. 2.1.1 Нумерування блокудомогосподарств
Для того, щоб отримати дані зміста StatVillage, необхідно спочатку відмітити домогосподарства позначкою якпоказано на рисунку 2.1.2 (відмічено кожне 8-ме домогосподарство)
/>
Рис. 2.1.2 Систематичноївибірка кожного восьмого домогосподарства
Після цього натискаємо кнопку«Get the sample units» і отримуємо код, який представлений на рис. 2.1.3

/>
Рис. 2.1.3 Код отриманоївибірки
Отриманий код містить 36 стовбців,кожен з яких відповідає за окрему характеристику домогосподарства. Розшифровкакоду наведена в додатку А.
2.2 Порівняння відборів
 
В своїй роботі я використовуюдругу конфігурацією StatVillage, а саме Mini Village, яка складається з 60-тиблоків. Для того, щоб порівняти точності систематичного, простого випадковогота стратифікованого відборів, я буду використовувати вибірки, добуті з 11-го та13-го стовпців коду. Ці стовпці називаються TOTINCH та BUILTH, що є загальнимдоходом домогосподарства (включає в себе заробітну плату, пенсії, дівіденти тавідсотки за депозитами і т.д.) та періодом побудови домогосподарствавідповідно.
В результаті дослідження виявилось,що домогосподарства в StatVillage впорядковані за загальним доходом, а саме загальнийдохід зменшується зі зростанням номеру домогосподарства. Логарифмічна регресіязначуща. На рисунку 2.2.1 представлена діаграма розсіювання та логарифмічнарегресія.


Не сдавайте скачаную работу преподавателю!
Данный реферат Вы можете использовать для подготовки курсовых проектов.

Поделись с друзьями, за репост + 100 мильонов к студенческой карме :

Пишем реферат самостоятельно:
! Как писать рефераты
Практические рекомендации по написанию студенческих рефератов.
! План реферата Краткий список разделов, отражающий структура и порядок работы над будующим рефератом.
! Введение реферата Вводная часть работы, в которой отражается цель и обозначается список задач.
! Заключение реферата В заключении подводятся итоги, описывается была ли достигнута поставленная цель, каковы результаты.
! Оформление рефератов Методические рекомендации по грамотному оформлению работы по ГОСТ.

Читайте также:
Виды рефератов Какими бывают рефераты по своему назначению и структуре.

Сейчас смотрят :