Статистичні гіпотези та їх перевірка
Проперевагу тієї або іншої з порівнюваних груп судять, як правило, з різниці міжсередніми, середніми частками або іншими вибірковими показниками — величинамивипадковими і такими, що є статистичними оцінками відповідних генеральнихпоказників.
Питанняпро достовірність відмінностей розв'язується зазвичай на основі перевірки завибірковими характеристиками тієї або іншої статистичної гіпотези.
Вобласті клінічних досліджень широке використання отримала так звана нульовагіпотеза Н0. Значення її зводиться до припущення, що різниця між генеральнимипараметрами порівнюваних груп дорівнює нулю і відмінності, що спостерігаютьсяміж вибірковими характеристиками, носять виключно випадковий характер.
Так,наприклад, якщо одна вибірка була вилучена з нормального розподілу генеральноїсукупності з параметрами М1 і a1, а інша — з сукупності з параметрами M2 і а2, то нульова гіпотеза полягає втому, що Ml = M2, тобто М1 — M2 = 0. Протилежна нульовій –альтернативна гіпотеза – полягає в тому, що середні вважаються або простонерівними М1—M2≠0 (двосторонній тест),або дослідник орієнтований у напрямі ефекту одного методу над іншим, аможливість переваги іншого виключається, наприклад М1>M2 (односторонній тест).
Притакому підході не ставиться задача кількісної оцінки наявних відмінностей,достатньо лише перевірити, чи належать обидві групи з певною імовірністю дорізних генеральних сукупностей. Слід зазначити, що під час вирішення іншихстатистичних задач нульова гіпотеза матиме інше формулювання.
Перевіряєтьсястатистична гіпотеза за допомогою величин або, іншими словами, статистик,функції розподілу яких відомі і табульовані (наприклад,
t-розподіл Стьюдента, розподілХі-квадрат та ін.).
Цівеличини у кожному конкретному випадку дозволяють виявити, чи задовольняютьвибіркові показники висунутій гіпотезі. Процедура перевірки гіпотези булапов'язана з об'ємом вибірки (або відповідним числом ступенів свободи) і рівнемзначущості а.Рівень значущості або вірогідність помилки I роду, що допускаєтьсяпід час оцінювання прийнятої гіпотези, може розрізнятися (5, 1, 0,1%), але вмедико-біологічних додатках, якщо спеціально не обумовлено інше значення, вінзазвичай приймається рівним 5%.
Якщорезультати значущі на рівні 1—5%, зазвичай говорять про наявність статистичноїзначущості, на рівні менше 1% – про високустатистичну значущість.
Зрівнем значущості була пов'язана величина, названа ступенем недовіри донульової гіпотези.Вона є величиною, що доповнює рівень значущості доодиниці (1-а).
Близькийдо нуля рівень значущості, а отже, близький до одиниці ступінь недовіриінтерпретуються як вагомий довід проти нульової гіпотези. Близький до одиницірівень значущості показує, що ступінь недовіри близький до нуля, тобто доводипроти Н0 слабкі, що вказує на узгодженість наявних даних з нульовою гіпотезою.
Важливимє також питання про справедливість нульової гіпотези. Для оцінки справедливостіН0 розраховується р-значення. Можна сказати, що воно оцінює імовірність прибагатократному повторенні дослідження отримання такого ж або ще більшекстремального значення критерію за умови справедливості нульової гіпотези,тобто за відсутності відмінностей між порівнюваними групами.
Якщов результаті перевірки нульової гіпотези вона була знехтувана на рівнізначущості а, то для відображення наявності статистично значущих відмінностейрезультат порівняння може бути записаний у вигляді р
Протезапис вигляду Р
Р-значенняможе задаватися не тільки нерівністю. Його значення можна розрахувати точно, іця процедура є в деякому розумінні зворотною до звичайної процедури перевіркигіпотези.
Дляцього розраховується величина тестової статистики, а потім, наприклад, затаблицями, що відносяться до даного критерію (або в результаті підстановкизначення статистики критерію в її функцію розподілу) визначається рівень імовірності,відповідний оціненому значенню тестової статистики.
Притакій процедурі, приймаючи рішення відкинути (прийняти) гіпотезу Н0, мивказуємо точне значення рівня, яке дорівнює p-значенню, на якому відбуваєтьсявідхилення (прийняття) нульової гіпотези. Вказівка точного p-значення є більшінформативною, ніж оформлення результатів перевірки гіпотези у виглядінерівності типу р
Якзазначалося, частіше за все в області клінічних досліджень перевіряютьсягіпотези про статистичну значимість відмінностей, проте потрібно мати на увазі,що у статистиці існують й інші варіанти, наприклад, гіпотези про згоду (абоформи) розподілів, гіпотези про значущість кореляції, гіпотези про величинупараметрів розподілу тощо.
Незалежновід конкретного формулювання гіпотези, можна датистислий опис типових етапів процедури перевірки статистичних гіпотез. Данідії лежать в основі всіх статистичних перевірок:
• вибратирівень значимості а;
• сформулюватинульову гіпотезу (зазвичай як висновок, який хотілося б відкинути) Н0 іобов'язково відповідну їй альтернативну гіпотезу НА;
• вибратитестову статистику або, іншими словами, відповідний критерій для перевіркисформульованої гіпотези;
• обчислити значення тестової статистики за наявними даними;
• визначити за допомогою розподілу тестової статистики або зазвичайза наявними таблицями її розподілу критичну область, імовірність потрапляння вяку при справедливості нульової гіпотези дорівнює а;
• зробитивисновок, порівнявши розраховане значення статистики з вибраним критичнимзначенням. Якщо отримане значення статистики лежить у критичній області, тослід відхиляти нульову гіпотезу і прийняти альтернативну. В протилежномувипадку приймається нульова гіпотеза.
Прицьому важлива правильна інтерпретація отриманих результатів перевірки гіпотези.Те, що значення критерію вийшло незначущим, не є чітким доказом справедливості нульової гіпотези.
Цеозначає лише, що наявні дані їй не суперечать. Не можна забувати, що,перевіряючи статистичну гіпотезу, ми маємо справу лише з обмеженою вибіркою згенеральної сукупності. Тому всі висновки, що робляться під час перевіркистатистичних гіпотез, носять характер імовірності. От чому значення імовірностіпомилок I і II роду мають таке велике значення дляцієї процедури.
Дляперевірки гіпотез у біометрії можливі 2 види критеріїв: параметричні(побудованіна підставі параметрів даної сукупності) і непараметричні(побудованібезпосередньо за варіантами даної сукупності та їх частотами).
Перші служать для перевірки гіпотез про параметри сукупності,розподілені за відомим законом (зазвичай в біометрії за нормальним законом),інші – для перевірки гіпотез незалежно від форми розподілу сукупностей.Так, при нормальному розподілі ознаки параметричні критерії мають більшупотужність, ніж непараметричні, тому якщо відомо, що порівнювані вибірки буливзяті з нормально розподілених сукупностей, перевагу слід віддаватипараметричним критеріям.
Уразі дуже великих відмінностей розподілу ознаки від нормального закону, прималих об'ємах вибірки, а також для аналізу порядкових даних слід застосовуватинепараметричні критерії. Якщо варіюючи ознаки виражаються не числами, аумовними знаками, використання непараметричних критеріїв виявляється єдиноможливим.
Перевірити,чи була взята дана вибірка з нормально розподіленої сукупності в свою чергу можна за допомогою спеціальних статистичних тестів,наприклад, за допомогою коефіцієнтів асиметрії та ексцесу. На практиці дляперевірки нормальності розподілу частіше за все використовується критерійХі-квадрат.
Розглянемосхему перевірки даного критерію. Для проведення розрахунків за цим критеріємпотрібно вміти будувати вибірковий розподіл випадкової величини.
Дляцього отримані в ході дослідження результати потрібно подавати у виглядіваріаційного ряду, або ряду розподілу.Варіаційний ряд є подвійним рядомчисел, що показує для кожного значення ознаки (варіанти), скільки разів воно(вона) зустрічається в даній сукупності (частота варіанти). Це визначення більшою мірою відноситься до такзваного безінтервального варіаційного ряду.
Проте,якщо загальну варіацію ознаки (в межах від мінімальної до максимальноїваріанти) розбити на проміжки (класи) і підрахувати частоту потрапляння варіантданої сукупності в ці інтервали, отримаємо інтервальний варіаційний ряд.
Графічноваріаційні ряди можуть бути подані у вигляді полігонів розподілу длябезінтервальних рядів і гістограм розподілу частот для інтервальних рядів.
Данийкритерій погодження ефективний за умови наявності не менше 50 елементів увибірці. В підручниках часто говориться, що для успішного використання критеріюХі-квадрат найменша частота в інтервалах варіаційного ряду має бути рівною 5.
Якщож в якому-небудь інтервалі варіаційного ряду міститься менше 5 частот, то цейклас рекомендують об'єднати з сусіднім класом.Проте, згідно з грунтовними дослідженнями У. Кокрена, така умова єнадмірно обмежувальною, і для розподілів, які широко використовуються,достатньо вимагати, щоб частоти були не менше 1.
Загальнаформула цього критерію має вигляд:
/>
де/> — число класів,/> — фактичні частоти,оцінені за вибіркою, що вивчається, />— частоти,розраховані за теоретичним розподілом (рис. 1).
А нульова гіпотеза в даному випадку полягає в припущенні, що відмінності міжспостережуваними і теоретичними частотами носять винятково випадковий характер.
Требапопередити, що критерій погодження Хі-квадрат може застосовуватися дляперевірки відповідності вибіркового розподілу будь-якого теоретичного, а нетільки нормального розподілу. Можна навіть сказати, що цей критерій визначаєміру розбіжності між даними і моделлю, обраною для їх опису.
Поосі абсцис – класи варіаційного ряду; по осі ординат – частоти потрапляннязначень змінної у відповідні класи. Темні стовпчики – теоретичний нормальнийрозподіл частот, світлі – вибірковий.
Дляоцінки отриманої величини Хі-квадрат необхідно знати кількість ступенівсвободи, що саме і залежить від того, який тип теоретичного розподілу береучасть у розрахунках.
Так,при нормальному розподілі кількість ступенів свободи n=к—3, де к — число інтервалівряду. Обчислене значення Хі-квадрат не повинне перевищувати табличне призаданих значеннях р і а, тоді ми маємо право зробити висновок про неістотнувідмінність теоретичного та емпіричного розподілів.
Приповному збігу емпіричних частот з обчисленими значення Хі-квадрат дорівнювало б0.
Побудоварядів розподілу — один з можливих способів опису отриманих даних. А середнєарифметичне і дисперсія — одні з основних характеристик варіюючих об'єктів.
Протетреба мати на увазі, що ці характеристики не є універсальними; длястатистичного опису даних як узагальнюючі характеристики сукупності корисними(особливо, якщо сукупність не була розподілена за нормальним законом) можутьвиявитися і так звані структурні показники.
Напрактиці часто використовують такі структурні показники, як медіана, мода,квантилі (квартилі, децилі, перцентилі), мінімальне значення, максимальнезначення, розмах варіації й інші.
Так,медіана визначається як середня, щодо якої ряд розподілу поділяється на 2 рівнічастини: в обидва боки від медіани розташовується однакова кількість варіант.
Вище, не даючиточного визначення, ми вже говорили про закон розподілу випадкових величин,описуючи в медичних додатках нормальний розподіл, що часто зустрічається.
Проте хотілося бще раз підкреслити, що це зовсім не єдиний відомий тип розподілу. Крім того,говорячи про побудову вибіркової гістограми розподілу і перевірку нормальностірозподілу за допомогою критерію погодження, ми також торкалися теми побудовивибіркової щільності розподілу випадкової величини. Дамо тепер формальневизначення.
Функція F(x), що пов'язує значення xt змінної випадкової величини X з їх імовірністю ph, називається законом розподілу(абофункцією розподілу) цієї випадкової величини.
Таким чином,закон розподілу, або його ще називають інтегральною функцією розподілу, описуєрозподіл імовірності випадкової змінної X. Закон розподілу можна задати у вигляді таблиці, побудувати увигляді графіка або описати відповідною формулою.
Значення функції F(x) в точці х дорівнює імовірності Р(Х
Такафункціядуже зручна для наочного і короткого подання розподілу імовірності випадковихзмінних незалежно від їх характеру. Інтегральна функція розподілу відповідаєекспериментальній кривій накопичення частот.
Наприклад, нехайдеяка випадкова величина X може приймати значення тільки на відрізку числової осі від хх до х2. Тодівірогідність того, що випадкова величина приймає значення менше х1 або більшех2, дорівнює нулю.
Вірогідністьтого, що випадкова величина приймає значення менше або рівне х2, дорівнюєодиниці. А для всіх значень х, що належать відрізку [х1, х2], функція F(x) є неспадаючою, що змінює своїзначення від нуля до одиниці.
Зпоняттям закону розподілу випадкової величини нерозривно пов'язане поняттящільності розподілу.Так, щільність розподілу безперервної випадковоївеличини можна уявити як граничну криву р(х), яка апроксимуватиме вибірковугістограму розподілу даної випадкової величини при нескінченному збільшенніоб'єму вибірки (рис. 2).
Формальнощільність розподілу р(х) є похідною відповідної функції розподілу F(x).
Визначимоімовірність події, яка полягає в тому, що одне випадково взяте спостереження Xпотрапить в інтервал [ха, хв], така імовірність чисельно дорівнює площікриволінійної трапеції під кривою р(х) в інтервалі від ха до хв.
/>
Оскільки функція розподілу визначається як імовірність, вона можеприймати значення в інтервалі від 0 до 1.
Інша важлива властивість – інтеграл щільності розподілу, взятий по всійобласті можливих значень (або, не обмежуючиспільності, інтеграл від — до + нескінченності), дорівнює 1.
Нормальнийрозподіл відіграє дуже важливу роль у статистиці, проте він не є єдиним відомимрозподілом. Так, під час перевірки статистичних гіпотез часто використовуютьсяще 3 типи розподілів, пов'язані з нормальним:
-розподіл Фішера;
-розподіл Хі-квадрат;
-розподіл Стьюдента.
Цірозподіли табульовані, і відповідні таблиці наведені в різних підручниках зістатистики.
Даліми наводимо короткі відомості про деякі інші закони розподілу дискретних ібезперервних випадкових величин, які також можуть зустрітися в реальнихдодатках.
Кривіцієї щільності розподілу були наведені на рис. 3. Для кожного типурозподілу за допомогою критерію Хі-квадрат може бути перевірена гіпотеза проте, що ваша вибірка була розподілена саме за цим законом.