Крістіан Бурхарт

3 серпня 2018 р

Статистичні методи існують, щоб знайти відповіді на запитання. Чи препарат X кращий за препарат Y? Або дієта P краща за дієту S? Всім відомі такі запитання, їх часто зустрічають у повсякденних розмовах, і вони ще не пересуваються в тих місцях, де статистичні миряни воліють залишити приміщення, як тільки лектор обговорює такі терміни, як статистичні параметри, розподіл вибірки або стандартне відхилення.

Для того, щоб відповісти на такі різницеві запитання (X краще, ніж Y), тим не менше потрібні статистичні методи. Ці процедури зовсім не повинні бути складними. Уявіть, ви хочете знати, чи дієта 1, дієта 2 чи дієта 3 краще для схуднення. Ви поділяєте 60 людей на 3 групи в кожній (по 20 осіб на групу). Група 1 повинна пройти дієту 1, група 2 - дієту 2, а група 3 - дієту 3. Кожна група рівно 6 тижнів. Перед початком експерименту всіх знову зважують. В кінці експерименту всі знову повинні бути на вазі. Зараз яка дієта найкраща? Найпростішою відповіддю буде група, яка втратила найбільше ваги. Давайте перевіримо це.

R, R-Studio і Tidyverse

Я проаналізую всі аналізи з R відразу. R - мова програмування, яка була написана для статистичних оцінок. Отже, якщо ви хочете взяти участь, вам потрібні R та R-Studio. Ми беремо набір даних для цього прикладу з цього веб-сайту (завантажте файл csv на тему дієти). Якщо ви ще цього не зробили, спочатку встановіть пакет tidyverse та пакет gghighlight:

Тоді ми можемо завантажити пакети і прочитати в записі даних:

Якщо ви новачок у R, переконайтеся, що визначили правильний робочий каталог перед читанням даних. Найпростіший спосіб - це ввести в консоль наступну команду і вибрати папку, в якій знаходиться файл stcp-Rdataset-Diet.csv.

Дані тепер слід завантажити, і ви можете переглянути їх з огляду:

Зараз нас стосуються лише дві з цих змінних: вага 6 тижнів та дієта. Дієта - це не що інше, як змінна, яка містить цифри 1, 2 і 3. 1 означає дієта 1 тощо. вага6 тижнів вказує на вагу людей через 6 тижнів.

Однак нас цікавить різниця у вазі через 6 тижнів. Для цього ми створюємо нову змінну:

mutate - це функція, яку ми можемо використовувати для створення нових змінних.

Тепер ми готові з’ясувати, чи досягають дієти зараз різних успіхів.

Чи має різниця дієта? Простий спосіб відповісти на питання

Який найпростіший спосіб перевірити, чи різні групи? Порівнюємо середні значення.

Або простіше кажучи, ми складаємо всі значення і ділимо цю суму на кількість значень. Спочатку знайдемо середнє значення трьох груп.

Ммммм, добре, група 3, здається, найбільше схудла. Тож чи дієта 3 найкраща? Або, інакше кажучи, з якої різниці одна дієта краща за іншу? Або, чи не може бути так, що відмінності піддаються випадковим коливанням? Подумайте про це самі. Тепер, якщо середнє значення дієти 3 було -4, чи могли б ви сказати, що дієта краща за іншу? Що робити, якщо середнє значення становило -3,5? Ви помічаєте, що рішення є дещо свавільним. Зазвичай нам потрібне граничне значення, щоб визначити, чи має значення дієта. Ми визначаємо це граничне значення за допомогою інших методів.

Інший метод визначення відмінностей між групами

Замість того, щоб брати середні значення, щоб з’ясувати, чи відрізняються групи, ми могли б запитати, чи підлягають ці відмінності випадковим статистичним коливанням, чи насправді малоймовірно, що 3 групи так відрізняються одна від одної. Щоб зрозуміти, що я маю на увазі під цим, невеликий приклад.

Приклад куба

Скажімо, у вас 6-стороння плашка. Ви хочете знати, чи справді цей кубик показує кожне число з однаковою ймовірністю. Це означає, що кожне число повинно з'являтися з відсотком (1/6 * 100), тобто з вірогідністю 16,67%. Однак якщо ми кидаємо кубики 6 разів, дуже малоймовірно, що кожне число з’явиться рівно один раз. Виникнення цифр піддається певним статистичним коливанням. Однак, якщо ми кинемо 10000 разів, ми можемо припустити, що кожне число зустрічається приблизно 16,67%.

Неманіпульований куб

Спочатку ми скочуємо не маніпульований рулон 10000 разів:

За допомогою set.seet (100) ви отримуєте ті самі результати, що і я. ІСТИНА означає, що ми маємо можливість кожного разу перекидати числа від 1 до 6.

Як часто має з’являтися кожне число? Рівно приблизно 1667 разів. Оскільки кожне число має однакові шанси відбутися, ми ділимо 10000 на 6 і отримуємо 1667 (округлене). Ми отримуємо подібні значення з R:

Ми бачимо, що не кожне число було прокачано рівно 1667 разів, але ці статистичні коливання слід очікувати. Якби ми провели цей експеримент мільйон разів, а не 10 000, ми отримали б майже однакову ймовірність для кожного куба. Справжні кубики, навпаки, не ідеальні. Навіть поламаний край може означати, що деякі цифри частіше катаються.

Складений куб

Що станеться зараз, якщо кубом маніпулювали? Як ми можемо визначити, чи не відрізняються випадки виникнення цифр від випадкових статистичних коливань (як при не маніпульованих кидках), а є систематичними? Щоб відповісти на це питання, ми повторюємо експеримент 1000 разів. 1000 разів Давайте 100 разів кидаємо кубики і подивимося, як часто в ньому з’являється цифра 4. Статистично слід вважати, що число чотири зустрічається приблизно в 1667 разів найбільше.

Ця функція є більш складною. Поступово:

1: 1000: Ми створюємо вектор із числами від 1 до 1000
map_dbl: Для кожного з цих чисел від 1 до 1000 ми запускаємо над ним функцію
зразок (1: 6, 1000, TRUE): Ми кидаємо кубики 100 разів
таблиця (.): Ми можемо відображати частоти чисел у цих 100 кидках
.[імена (.) == 4]: Ми підраховуємо, як часто число 4 зустрічається на цих частотах
таблиця: З 1000 експериментів ми підраховуємо, як часто 4 траплялись у кожному з експериментів.

Тепер ми можемо візуалізувати такий розподіл:

Гаразд, мабуть, при 100 кидках дуже ймовірно отримати число 4 16 чи 17 разів. Отримати число 4 27 або навіть 6 разів надзвичайно малоймовірно, якщо припустити, що кубом не маніпулювали.

Тут ви бачите розподіл ймовірностей. За розподілом ми можемо визначити, наскільки ймовірною буде подія (поява числа 4 на 100 кидків). Спираючись на імітаційну графіку, ми можемо сказати, що кубом, мабуть, маніпулювали, якщо 4 трапляється 27 разів.

Біноміальний розподіл

Ми можемо використовувати щойно створений розподіл ймовірностей, щоб визначити, чи маніпулювали кубом. Наприклад, якби ми отримали число 4 лише 6 разів із 100 кидків, було б дуже малоймовірно, щоб кубики були підроблені. І саме так ми зазвичай перевіряємо наукові питання. Ми не задаємось питанням, чи правильне наше наукове питання, а скоріше, чи є наша подія (різниця у схудненні між дієтами) малоймовірною, якщо ми не приймаємо відмінностей.

Нам не потрібно кожен раз моделювати ці розподіли ймовірностей. Вони вже розраховані. Для прикладу куба має сенс використовувати біноміальний розподіл. Наш розподіл ймовірностей у принципі не є нічим іншим. За допомогою біноміального розподілу ми перевіряємо ймовірність n подій з певною ймовірністю. Наприклад: Наскільки ймовірно, що при 5 кидках ми прокатуємо число 4 3 рази?

Тепер ми можемо представити наш розподіл ймовірностей як біноміальний розподіл:

Отже, коли ми починаємо вірити, що куб, мабуть, не є звичайним кубом (але ним маніпулювали)? Раніше ми довільно визначали границю. Вчені роблять дуже подібну річ.

Якщо ймовірність події менше 5% залежно від розподілу ймовірностей, подія малоймовірна.

У нашому розподілі це такі події:

Отже, якщо ми кидаємо число 4 22 рази і більше, ми повинні припустити, що це не звичайні кубики, але що кістки, мабуть, маніпулювали. Тоді ми говоримо про значну подію.

Розподіл F

За допомогою біноміального розподілу ми перевіряємо, чи певна кількість подій може відбутися чи малоймовірною. За допомогою F-розподілу ми перевіряємо, чи різниця між двома дисперсіями піддається статистичним коливанням, чи вони систематичні. Щоб зрозуміти це, ми спочатку повинні зрозуміти, що розуміється під дисперсією.

Дисперсія

Дисперсія - це статистичний показник, за допомогою якого ми можемо показати, наскільки змінюється змінна. Наприклад, люди різняться у вазі. Деякі люди важкі, інші легкі. Обчислимо формулу наступним чином:

Іншими словами, ми додаємо квадратичні відхилення індивідуальних значень ваги із середнім значенням вибірки та ділимо цю суму на n - 1. Завжди дуже практично також графічно візуалізувати такі математичні ідеї.

Горизонтальна лінія являє собою середнє значення нашої змінної вибірки. Кожна точка - це вага кожної людини через 6 тижнів.

У цьому прикладі дисперсія - це не що інше, як середня площа цих квадратів, поділена на кількість квадратів - 1. Поки що ми залишили її відкритою, саме тому ми не просто ділимо ці квадрати на кількість квадратів, а на кількість квадратів мінус 1 Це пояснюється тим, що ми схильні недооцінювати дисперсію сукупності, коли беремо з вибірки лише кількох людей (тут кількість людей, які беруть участь у нашому експерименті). Ця корекція також називається корекцією Бесселя.

Дисперсія для нашої змінної ваги 6 тижнів виглядає графічно наступним чином:

Знову ж таки, нам просто потрібно розділити суму площі цих квадратів на кількість квадратів мінус 1 і отримати дисперсію.

Чим менша площа цих квадратів, тим менша дисперсія змінної. Іншими словами, чим менше окремі значення відхиляються від середнього значення змінної, тим менша дисперсія.

У R ми можемо обчислити цю дисперсію наступним чином:

Обидві команди мають дисперсію 79,64677.

Фактор відхилення

Ми можемо порівнювати дисперсії між собою, формуючи частку з двох дисперсій. Наприклад, ми могли б порівняти дисперсію першої дієтичної групи з дисперсією другої дієтичної групи.

Якщо значення більше 1, дисперсія першої групи буде більшою, ніж дисперсія другої групи. Якщо значення менше 1, дисперсія першої групи менша, ніж дисперсія другої групи.

Значення F є результатом такого фактора. Але замість довільного порівняння дисперсій з коефіцієнтом ми зазвичай порівнюємо систематичну та несистематичну дисперсію. Систематичне розбіжність зазвичай відбувається за допомогою маніпуляцій, які ми самі здійснюємо. Наприклад, ми призначили 60 дієт 3 дієти. Це доручення було систематичним. Несистематична дисперсія - це дисперсія, дана даними. Наприклад, дисперсія всіх даних навколо середнього значення змінної.

Значення F

Значення F - це коефіцієнт розбіжності між нашими 3 дієтичними групами (SSW) та несистематичної дисперсії в наших даних (SSW).

Сума квадратів між (SSB)

Ми розраховуємо дисперсію між групами, віднімаючи середнє значення груп із загального середнього значення зменшення змінної ваги, виставляючи його в квадрат і обчислюючи в кількості випадків.

Квадрати важко побачити, оскільки масштаб настільки різний. Рядок посередині вказує на середнє значення змінної, крапки - на середні значення окремих груп. У кожній групі стільки пунктів, скільки людей. Якщо перетягнути квадрати, це виглядає так:

Нам доведеться знову скласти ці квадрати.

Сума квадратів всередині (SSW)

Внутрішньогрупова дисперсія - це не що інше, як сума внутрішньогрупової дисперсії.

Значення F

Наразі ми лише склали квадрати, але ще не розрахували жодної дисперсії. Для цього нам потрібно розділити SSB та SSW на знаменник:

Середні квадрати між (MSB): SSB/(k - 1). K - кількість груп, тут 2.
Середні квадрати всередині (ТПВ): ПЗВ/(n - k). N - кількість людей у всіх групах, тут 78

Значення F тепер формується з коефіцієнта між MSB та ТПВ.

Якщо ви думаєте, що я був би в хорошій формі, міг би зробити для вас роботу або хотів би, щоб я був у вашій команді, напишіть мені повідомлення. Я процвітаю в середовищі, яке піклується про навчання студентів і хоче забезпечити добре розроблений досвід онлайн-навчання або візуалізацію даних.

Про мене

Я дизайнер навчальних дисциплін, що має глибокі знання в галузі веб-розробки, онлайн-навчання та візуалізації даних.

Зв'язок

Не соромтеся зв’язуватися зі мною. Я з нетерпінням чекаю від вас.