Населення блакитнооких марсіан зменшується
Припустимо, ми хочемо перевірити гіпотезу про те, що частка синьооких марсіан зменшилася протягом ХХ століття. На жаль, населення Марса сильно коливається, тому кожне десятиліття існує велика різниця в загальній чисельності населення [Оновлення: Вважайте населення Марса постійним на рівні одного мільярда марсіан. Наступні дані є випадковими вибірками для кожного року. Набір даних (який складається під час запису) може виглядати приблизно так:
Аналіз років, коли марсіанське населення не досягло 100 років, явно не є таким статистично значущим, як для населення понад 10 000, оскільки в останньому випадку ми маємо більший набір даних. Тим не менше, ми хотіли б використати всі наявні дані для перевірки нашої гіпотези із загальноприйнятим рівнем значущості 95%.
Як нам далі? Давайте зважимо важливість кожного року відповідно до розміру вибірки на той момент?
Інші зміни для вирішення проблеми: мова йде про те, як ми належним чином зважуємо кожен набір даних, беручи до уваги, що вони настільки різні за розміром. Зміщення вибірки не відбувається, оскільки дані вибираються випадковим чином.
0 'role = "Презентація"> 0 1' Роль = "Презентація"> 1
n 'role = "презентація"> n p' role = "презентація"> p k 'role = "презентація"> k
Ми знаємо кожне десятиліття, і це дають дані - але ми знаємо. Ми можемо оцінити це, припустивши, що логарифмічні шанси, які відповідають, змінюються лінійно від року до року (принаймні, до гарного наближення). Це означає, що ми припускаємо, що існують цифри, і так, що n 'role = "presentation"> nk' role = "presentation"> kp 'role = "presentation"> pp' role = "prezentacija"> p β 0 'role = "презентація"> β 0 β 1' role = "презентація"> β 1
Якщо ви підключите це до (1), у вас буде можливість спостерігати протягом певного року як k 'role = "презентація"> k n' role = "презентація"> n t 'role = "презентація"> t
Якщо припустити, що зразки отримуються незалежно в роках тощо, а відповідні і блакитнооким суб'єктам як і, то ймовірність даних є добутком ймовірностей окремих результатів. Цей продукт є (за визначенням) імовірністю. Ми можемо оцінити ці параметри як значення, що максимізують ймовірність; Відповідно, вони максимізують вірогідність журналу t 1, t 2, 'role = "presentation"> t 1, t 2, ni' role = "presentation"> niki 'role = "prezentacija>> ki (β 0, β 1) 'role = "Презентація"> (β 0, β 1) (β ^ 0, β ^ 1)' role = "презентація"> (β ^ 0, β ^ 1)
отримані з. (2) 'role = "Презентація"> (2)
(Це значно спрощується, коли використовуються правила логарифмування. Це одна з причин виразити співвідношення співвідношення часу через log-шанси. Якщо всі пропорції приблизно між і, існує невелика якісна різниця між використанням ймовірностей або Ваші шанси на перемогу: скорегована крива є лінійною або майже лінійною.) 0,2 'role = "презентація"> 0,2 0,8' role = "презентація"> 0,8 p 'role = "prezentacija"> p
(3) 'role = "presentation"> (3) - це біноміальна узагальнена лінійна модель. Він повинен бути відрегульований шляхом мінімізації чисельного. Процедура в (показана в кінці цього допису) дає рішення Λ 'role = "presentation"> Λ glm R

Дані на цьому малюнку побудовані на зрізах, площі яких пропорційні розмірам вибірки. Пристосування GLM криволінійне. Для порівняння рядок, який ми отримали б, якби ми виводили дані, показані у питанні, на загальний вирішувач найменших квадратів, для порівняння показаний сірим кольором. Незважаючи на невеликий обсяг вибірки на той час, на обидва випадки впливають більші пропорції у попередні роки. Однак пристосування GLM може краще наблизити пропорції у найбільших зразках, отриманих у 1970 та 1980 роках. Пунктирна синя лінія описана нижче. (Рік, Частка) 'role = "Презентація"> (Рік, Частка)
Додавши квадратний доданок, ми можемо перевірити придатність. Це суттєво покращує пристосованість GLM (хоча візуальна різниця не велика) і забезпечує докази того, що ця модель погано описує зміни результатів. Погляд на графік показує, що результат у 1990 році був набагато нижчим, ніж передбачала модель.
Альтернативним, але порівнянним підходом є оцінка кожного року окремо, можливо як (хоча можливі й інші оцінки). Лінійна регресія логарифмічних шансів цих оцінок щодо року, зважена за розмірами вибірки або регресія найменших квадратиків, дає > ki/nini 'role = "Презентація"> ni
Стандартними помилками цих оцінок є або, що вказує на те, що оцінки WLS суттєво не відрізняються від біноміального GLM. (Однак стандартні помилки GLM значно менші: він "знає", що ці розміри вибірки досить великі, тоді як лінійна регресія "взагалі" нічого не знає про розміри вибірки: існує лише одна послідовність із десяти окремих спостережень.) Зверніть увагу Альтернатива може бути недоступною, якщо або якщо не використовується інший оцінювач ймовірностей (який не має значень або). 15.55 'role = "презентація"> 15.55 0.00787' role = "презентація"> 0.00787 ki = ni 'role = "презентація"> ki = niki = 0' role = "презентація"> ki = 0 0 'role = "презентація" > 0 1 'role = "Презентація"> 1
Нарешті, ми могли б просто зробити зважену регресію найменших квадратів необроблених оцінок ймовірності порівняно з роком, яка обернено зважена оцінкою дисперсії вибірки. Дисперсія біноміального розподілу є змінною, знову виражається як відношення. Це можна оцінити за зразком як k/n 'role = "презентація"> k/n (n, p)' role = "презентація"> (n, p) X 'role = "презентація"> XX/n' role = "презентація"> X/np (1 - p)/n 'role = "презентація"> p (1 - p)/n
Результат відображається на малюнку у вигляді пунктирної синьої лінії. У цьому випадку, здається, існує компроміс між налаштуваннями GLM та OLS.
Наступний код R проводив аналіз і формував рисунок.