Парадокс малої вибірки

Шоколад, мабуть, не змушує вас худнути

Деякий час тому, здавалося б, серйозне дослідження, яке показало користь шоколаду для тих, хто хоче схуднути, було підібране засобами масової інформації по всьому світу. Але зараз, наприкінці травня, ми спостерігаємо непередбачений відскок: автор очевидно наукової статті все визнає. Це була містифікація, яка мала на меті показати, наскільки легко можна обдурити основні ЗМІ.

У цій публікації автор Джон "Боганнон" докладно пояснює, як він провів справжнє дослідження - дуже погано виконане, але навмисне - яке йому потім вдалося вписати в хижацький журнал. З методів отримання бажаних результатів (тобто шоколад корисний для вашої дієти), автор каже, що насправді розрахував багато підказок. Це справді ефективна оманлива процедура, оскільки кожне нове вимірювання та кожен новий статистичний тест збільшує ймовірність наявності принаймні одного хибнопозитивного.

Але Джон "Боганнон" додає це:

Але навіть якщо ми були обережні, щоб не множити тести, наше дослідження було приречене невеликою кількістю випробовуваних, що посилює дію неконтрольованих факторів.

Тому, здається, автор каже нам, що, вибравши невелику вибірку на початку, він збільшив ймовірність помилково позитивного результату. Однак це хибно, і це яскравий приклад того, що я назвав помилкою невеликої вибірки.

Однак кілька користувачів Інтернету та його колеги вказували мені, що мій викриття "помилкової дрібної вибірки" було сумнівним. Попередній випадок справді є прикладом помилки, але ми також можемо тлумачити речі по-різному. Ця публікація має на меті пояснити межі того, що є помилкою невеликої вибірки, і чому, тим не менше, є причини насторожитися щодо результатів, виявлених на невеликих вибірках - все залежить від питання, яке виникає.

Помилковий позитивний показник не змінюється залежно від обсягу вибірки

У статистиці ми зазвичай використовуємо ризик першого виду в 5%, що означає, що коли немає ефекту (якщо шоколад не впливає на вагу, наприклад), ми маємо 5% ймовірності помилково дійти висновку, що це ефект. Це значення 5% не залежить від розміру вибірки: буде необхідний більший ефект, що спостерігається, якщо зразок менший, але ймовірність помилки завжди становить 5%.

Уявіть, що ми тестуємо 100 можливих ефектів, яких насправді не існує. Незалежно від обсягу вибірки, слід очікувати 5 помилкових спрацьовувань. Уявіть, що ми тестуємо 100 реальних ефектів. Отже, за визначенням неможливо мати "помилково позитивний результат". Це дозволяє сформулювати це більш загально: коли ми проводимо серію досліджень, кількість помилкових спрацьовувань серед цих досліджень не залежить від розміру зразків. Аргумент Джона "Боганнона" тому хибний: вибравши невелику вибірку, це не збільшує ймовірність виявлення помилково позитивного.

Чим більше зразки, тим більше у нас потужності

Хоча розмір вибірки не впливає на ймовірність помилково позитивного результату, він впливає на ймовірність виявлення реального ефекту. На невеликих зразках неможливо виявити слабкі ефекти. Це причина, чому гігантські зразки часто використовуються в генетиці: ефекти мінімальні, інакше ми не знайдемо нічого.

Уявіть собі таку ситуацію: ми тестуємо 200 можливих ефектів. Насправді 100 реальних, а 100 не існує.

Зі 100 тестів, що відповідають неіснуючим ефектам, можна дійти висновку (помилково), що в 5 випадках існує ефект, що зразки малі чи великі. На 100 тестах, що відповідають реальним ефектам, можна зробити висновок (наприклад) з ефектом у 80 випадках, якщо зразки великі, але в 20 випадках лише якщо зразки малі.

Наступна таблиця показує кількість позитивних висновків "є ефект" залежно від того, чи є ефект насправді чи ні, і чи використовувались малі чи великі вибірки:

Закінчувати

Як легко видно з наведеної таблиці, частота помилкових спрацьовувань серед позитивних результатів більша, якщо вибірки малі (5 із 25 випадків, або 20%), ніж великі (5 із 85 випадків, або близько 6% ).

Тому ми можемо підтвердити це

Помилковий позитивний показник не залежить від обсягу вибірки

Частота помилково позитивних результатів серед позитивних результатів (тобто таких, що приводять до результату) більша, якщо ми беремо невеликі вибірки.

Отже, в ідеальному світі, де були опубліковані всі дослідження, було б більше ризику помилки невизначення, але більше не було б хибних спрацьовувань серед тих, що базуються на невеликих зразках. У реальному світі, де легше опублікувати позитивні результати, ніж негативні (упередженість публікації), серед досліджень з невеликими вибірками, ймовірно, більше помилкових позитивних результатів.

Інший спосіб зрозуміти цей парадокс полягає в наступному: помилково думати перед експериментом, "якщо я візьму невелику вибірку, то, швидше за все, виявляю помилково позитивний результат". З іншого боку, раціонально сказати, що для дослідження, яке, як відомо, дало позитивний результат, "оскільки вибірка мала, цей позитивний результат, швидше за все, буде помилково позитивним".

Прошу вибачення перед читачами мого попереднього допису на цю тему за мою неточність на той час.

9 коментарів до “Парадоксу малої вибірки”

Ще раз дякую за це роз'яснення, я згоден на 100%. але я думаю, що це все одно буде предметом дискусії 🙂

Так, це складне питання, якщо ми хочемо взяти до уваги практику дослідників. Це ще не кінець історії 🙂

Тема цікава і показує різницю між ризиком першого та другого роду в теорії тестів. Однак, якщо ми вважаємо, що вибір розміру вибірки в статистичному дослідженні визначається (як і має бути) згідно з припущеннями (наприклад, щодо розміру ефекту та/або з використанням результатів попередніх досліджень), то мені здається що ймовірність помилкового позитивного результату в кінцевому рахунку не залежить від обсягу вибірки. Також на практиці фраза "оскільки вибірка мала, цей позитивний результат, швидше за все, є помилково позитивним", не застосовуватиметься.

Дякую за цей дуже цікавий коментар.
Я хотів зосередитись на ймовірнісній основі проблеми та поганому розумінні ризиків. Ось чому я розглядаю лише той випадок, коли розміри вибірки вибираються незалежно від очікуваних розмірів ефекту. Ви, звичайно, праві. Але, на мій погляд, ваш аргумент лише частково правильний, оскільки обрані розміри вибірки часто також обумовлені обмеженнями, які, з одного боку, не мають нічого наукового, і тому, що ми не завжди маємо уявлення про очікуваний розмір ефекту. Наприклад, на тему тривожності серед обдарованих, з якою я нещодавно мав справу, є публікації із зразками від 20 до 5000 людей, не маючи жодного обґрунтування, крім практичного для цього вибору: кожен, здається, бере найбільшу зразку з можливих.
Щоб знати, чи є насправді більше помилок серед позитивних досліджень, заснованих на невеликих зразках, чи ні, потрібно більше даних про практику дослідників та журналів. Я не стверджую, що закрив дискусію.

Ми погоджуємось, що обсяг вибірки слід визначати за апріорним обмеженням потужності, а не за фінансовими, часовими та іншими обмеженнями. Але реальність така, що це важко та/або маловідомо, і тому міркування, крім влади, часто диктують розмір вибірки. Мабуть, тому незначні результати недостатньо представлені в публікаціях. Якби кожен з них мав підхід до визначення обсягу вибірки на основі консенсусу (наприклад, 0,8), як це має місце для альфа-ризику (0,05), тоді результати, суттєві чи ні, мали б підвищену релевантність, і упередженість публікацій, швидше за все, зменшилася б.

Зі свого боку, я погоджуюсь на 95% з вашим висновком.
Це дуже ясно, дякую.

Так, але це робить припущення, що статистична модель є реальністю. Якщо дані не відповідають закону Гауса, але вони все ще виконуються, надійність нижча для малих зразків.

Правильно, це додаткова проблема, про яку я тут не говорив.

Я випадково натрапив на цей пост і визнаю, що, думаю, не розумів суті справи. Я не статистик, і раптом існує, мабуть, словниковий запас, який турбує мене в розумінні.

Якщо 100 000 разів, ми порівнюємо з t 2 незалежними вибірками з тієї ж нормальної сукупності. Якщо зразки великі, я насправді мав би приблизно 5% "значущих" тестів.

Однак, якщо вибірки невеликі, частка позитивних тестів буде більше 5% (оскільки насправді вибірки частіше не репрезентативні для сукупності, з якої вони взяті).

Тож як цей висновок «узгоджується» з вашим твердженням, що «показник хибнопозитивних змін не змінюється залежно від розміру вибірок». Я думаю, що ми можемо говорити не про одне й те саме, але що є ключовим моментом у цій різниці ?