Помилка бета-аналізу потужності (помилка 2

При виконанні Тести гіпотез ви ставите один Нульова гіпотеза і перевірити їх на певний рівень значущості α, зазвичай 5%. Таким чином, ймовірність відхилення вашої нульової гіпотези, навіть якщо вона застосовується, встановлюється максимум 5%.

На додаток до помилки альфа, існують і інші змінні, що впливають, які визначають "якість" вашого тесту:

Помилка типу 2 або бета-помилка
Розмір ефекту
Обсяг вибірки

Ви досліджуєте об'єм легенів учнів. Ви знаєте, що їх середній об'єм легенів μ при зрості 170 см становить чотири літри і має відому дисперсію. Щоб перевірити, чи збільшує обсяг легенів змагальний спорт до 4,5 літрів, ви спочатку взяли пробу 120. Тоді ви визначили в середньому 4,4 літра. З цього ви можете припустити нормальний розподіл середнього за центральною граничною теоремою.

Вашими гіпотезами є:

Розподіл середнього значення на графіці коричневий, а критична область, у якій ви допустили помилку типу 1, виділена червоним кольором. Синя лінія показує критичне значення вашого тесту.

Ви можете прийняти рішення про тестування за допомогою вашої змінної тесту на графіці: Якщо нульова гіпотеза не відхиляється, якщо так, вона відхиляється.

Зелена крива - це розподіл нижче. Якщо вірно, включається збільшене середнє значення, а реалізація середнього значення вибірки перерозподіляється. Тут також можливі крайні значення в кінцях розподілу. На графіку показано подальшу можливість помилки у вигляді бета-помилки: фактично збільшений об'єм легенів не може бути визнаний як такий.

Бета-помилка

З вашим напевно критичне значення розмір бета-помилки визначається як площа під зеленою функцією розподілу ліворуч від. Критичне значення і, отже, відстань між критичною зоною та зоною прийняття показано на графіку синьою лінією.

На малюнку видно, що зменшення Помилка альфа зсув критичного значення вправо. Це безпосередньо збільшує бета-помилку. І навпаки, збільшення альфа-помилки призводить до зсуву критичного значення вліво і зменшення бета-помилки.

Потужність статистичного тесту

Під Сила чи потужність тесту розуміється ймовірність фактичного відхилення фактично помилкової нульової гіпотези, тобто не помилки бета-версії. У прикладі це означає визначення фактично збільшеного об’єму легенів у тесті. Звичайно, тест на рівні α тим потужніший і чим кращий, тим менша пов’язана помилка.

Незважаючи на те, що ви можете встановити альфа-помилку тесту за бажанням, бета-помилку неможливо контролювати безпосередньо. Але крім розміру α, це безпосередньо залежить від ефекту, який перевіряється, та від розміру зразка.

Ефект

Під ефект розуміється різниця між двома можливими середніми значеннями. Чим більший ефект перевіряється, тим легше відрізнити гіпотези одна від одної. Чим далі один від одного розташовані вершини розподілів, тим менше областей перекриття. Графічно, із збільшенням ефекту, зелена функція зміщується вправо. Оскільки критичне значення залишається на своєму місці, площа під зеленою функцією зліва від критичного значення стає меншою.

Вплив обсягу вибірки

Абсолютний розмір ефекту вашого тесту зазвичай подається з точки зору змісту та методологічно не змінюється. Однак, оскільки ви приймаєте рішення про тестування за допомогою стандартизованих значень, стандартизований ефект можна визначити за допомогою Обсяг вибірки варіюються. Чим більше ви вибрали свою вибірку, тим менша дисперсія середнього значення, тим більший стандартизований ефект і чим далі вправо зміщується зелена функція:

У наведеному вище випадку ви дали ефект, а також дисперсію з .

У таблиці показано вплив розміру вибірки на стандартизований ефект:

Розмір вибірки Відхилення середнього: стандартизований ефект:

n = 120	0,183	2.732
n = 500	0,089	5.618
n = 1000	0,063	7937

На другій графіці ви можете бачити, як потужність тесту зростає із збільшенням n, оскільки крива нижче зміщується вправо: для n = 120 бета-помилка, оскільки площа під жовтою кривою до точки перетину з є відносно великою; для n = 1000 як площа під синьою кривою до точки перетину з явно меншою, а для n = 5000 незначно малою.

Для даної альфа-версії та даного ефекту ви можете вплинути на бета-помилку, вибравши розмір вибірки, щоб вона не перевищувала бажаний рівень помилки. Загалом застосовується таке: чим більший ефект ви хочете перевірити, тим легше його розпізнати і тим меншим ви можете вибрати розмір вибірки.

Іншими словами: чим більша вибірка, тим менша дисперсія середнього значення вибірки і більший стандартизований ефект. Однак збільшення вибірки завжди пов'язане з додатковими зусиллями та збільшенням витрат.

Аналіз потужності

Аналіз потужності вивчає взаємодію альфа- та бета-помилок, ефекту та обсягу вибірки. Зазвичай вибирають бета-помилку в чотири рази більшу, ніж альфа-помилку, так що, наприклад, одна з 20% призначена для.

Перш ніж брати пробу, слід визначити необхідний або оптимальний розмір вибірки, якщо це можливо. Існують потужні програмні засоби, за допомогою яких ви можете провести аналіз потужності з цих міркувань. Наприклад, безкоштовним інструментом є GPower.