Наукові дослідження в природних зонах

3.2.3 - Використання статистики для порівняння зразків

ПОРАДИ

Статистичні тести, по суті, дозволяють нам оцінити отримані розподіли, щоб знати, чи є вони випадковими чи містять цікаву інформацію.

Необхідно мати методи, що дозволяють визначати варіації, еволюції, подібності чи відмінності між роками, між категоріями, між сайтами. Після введення та упорядкування даних у таблицю, і якщо графічні подання не забезпечують достатньо інформації, можна використовувати більш складні статистичні тести.

3.2.3.1 Вибір статистичного тесту

Основними цілями, яким можуть відповідати статистичні тести, є:

оцінка репрезентативності розподілів, що спостерігаються стосовно відомих значень для всієї сукупності,
вимірювання значущості різниці, що спостерігається за спостереженнями двох груп осіб або однієї групи для двох спостережуваних змінних,
існування та інтенсивність зв'язку між двома змінними.

Цей тип тестів корисний у природних районах, коли, наприклад, хочеться встановити, чи відрізняються два типи управління, чи один «кращий» за інший. У всіх випадках групу, яка проходила лікування (наприклад, спосіб лікування), порівнюють з групою, яка не пройшла його або яка пройшла інше лікування.
Вибір статистичного тесту настільки тісно пов'язаний з вибором конструкції вибірки, що часто важко визначити, який вибір передує іншому. Дійсно, багато факторних аналізів вимагають дуже конкретного збору даних.
Існує безліч тестів, що використовуються для порівняння зразків між собою, вимірювання схожості між зразками та перевірки гіпотез. Існує дві основні категорії тестів: параметричні та непараметричні (див. Рамку нижче). Відповідні тести будуть обрані залежно від типу вимірювання, форми розподілу частоти та кількості доступних зразків.

Параметричні та непараметричні тести (переваги та недоліки)

ПАРАМЕТРИЧНИЙ ТЕСТ
Параметричний тест застосовується до аналізів, які вводять у дію змінні, еволюція яких, ймовірно, буде відповідати статистичному закону, параметри якого "відомі" або принаймні "оцінювані". Загалом, ці тести можна застосовувати лише до числових змінних. Коли їх умови виконуються, вони є більш потужними, ніж непараметричні тести.

НЕПАРАМЕТРИЧНИЙ ТЕСТ
Непараметричні тести застосовуються як до числових, так і до якісних змінних.

Непараметричний тест - це тест, модель якого не визначає умов, яким повинні відповідати параметри сукупності, з якої була взята вибірка. Однак слід перевірити певні умови застосування. Розглянуті вибірки повинні бути випадковими (коли всі особи мають однакову ймовірність бути частиною вибірки) та простими (всі особи, які повинні сформувати вибірку, беруться незалежно одна від одної), і, можливо, незалежними одна від одної. Інші ( використання таблиць випадкових чисел).
Ці тести не стосуються конкретного розподілу материнської популяції.

Тому їх можна застосовувати до невеликих зразків. Непараметричні тести застосовуються, як тільки розмір "N" зразка менше 30, навіть для дуже малих зразків до N = 6.
Хоча вони теоретично менш потужні, ніж параметричні тести, ми все ще можемо вважати, що вони більше підходять для обстеження. Дослідження показали, що їх точність на великих зразках лише трохи нижча, ніж у параметричних тестів, тоді як вони на безмежно точніші на малих зразках.

Їх легше засвоїти та застосувати, ніж параметричні тести.

Їх відносна простота часто виникає внаслідок заміни спостережуваних значень або альтернативними змінними, що вказує на приналежність до того чи іншого класу спостереження, або рангами, тобто числами порядку спостережуваних значень, розташованих у в порядку зростання. Ось як медіану зазвичай віддають перевагу середній, як параметр положення.

Допомога статистичного програмного забезпечення дозволяє швидко і з хорошою надійністю виконувати розрахунки, необхідні для автентифікації тестів, і отримувати параметри, необхідні для прийняття або відхилення гіпотез.

3.2.3.2 Деякі приклади тестів порівняльних зразків

Тут ми обмежимося викладенням звичайних тестів та процедур, що використовуються, не деталізуючи їх. Мета - не представити всі концепції, а просвітити менеджера. Для отримання додаткової інформації менеджер звернеться до бібліографії.

Випадок ізольованих зразків:

Щоб знати, чи розподіл відповідей двох якісних змінних обумовлений випадковістю чи виявляє зв'язок між ними, ми зазвичай використовуємо тест хі-квадрат, відомий як "хі-квадрат". Це вимірює різницю між спостережуваними значеннями та очікуваними теоретичними значеннями, якщо гіпотеза була правильно перевірена (асоціація видів). Chi2 отримують за допомогою схрещеної таблиці, яка називається "таблиця непередбачених ситуацій" (див. Сторінку 80). Недолік цього тесту полягає у втраті інформації шляхом перетворення кількісної змінної в якісну змінну. Тому не рекомендується у випадках, коли може бути використана кількісна змінна. Цей тест доступний у стандартній версії EXCEL.

Коли ми намагаємось визначити, чи пов’язані дві числові змінні, ми говоримо про кореляцію. Три найбільш використовувані кореляційні тести - тести Спірмена, Кендалла та Пірсона. Перші два - це непараметричні тести. Ці два тести починаються з класифікації значень, що спостерігаються для кожного індивіда для кожної з двох змінних. Таким чином, якщо прагнуть оцінити кореляцію між віком та вагою особини, на першому етапі розрахунку для особини оцінюють 1, потім 2, потім n, її класифікацію відповідно до віку та залежно від ваги. Тест Спірмена базується на різниці в рангах для кожної людини, щоб дати, за певною формулою, значення тесту (R Спірмена). Чим ближче це значення до 0, тим більше 2 змінні незалежні. І навпаки, чим ближче воно до 1, тим більше вони співвідносяться.

Випадок двох незалежних зразків:

Незалежні зразки можуть бути взяті випадковим чином з двох популяцій або результатом випадкового призначення двох обробок (наприклад, двох режимів управління) членам вибірки. При порівнянні двох незалежних зразків ці два зразки не обов'язково повинні бути однакового розміру. Можна провести порівняльні порівняння. Для порівняння двох засобів, як правило, необхідно використовувати тест «С» Стьюдента, який передбачає нормальність розподілів та рівність дисперсій (параметричний тест), неперевіряються припущення з малими числами. Для того, щоб визначити, чи взяті зразки з однієї сукупності чи з двох різних популяцій, доцільніше використовувати непараметричні тести: тест Манна-Уітні або тест Колмогорова-Смірнова.

U-тест
Манн і
Вітні

Як і остання, вона в основному застосовується до числової (або порядкової якісної) змінної. Він починає зі складання відповідей 2-х груп X та Y та їх класифікації. Тоді обчислення стосується кількості випадків, коли особина групи X передує особині групи Y.
Сума цих елементів дає значення тесту для порівняння з критичним значенням у таблиці Манна-Уітні.

Тест на
Колмогоров
-Смирнов

Він шукає найбільшого відхилення, яке існує між двома кумулятивними розподілами. Кумулятивний розподіл частоти слід виконувати для кожної вибірки з однаковими інтервалами для обох розподілів. Для кожного інтервалу ми обчислюємо різницю між двома розподілами і шукаємо найсильніші з цих відхилень.

Випадок двох парних зразків:

Підписаний тест Вількоксона також є непараметричною альтернативою тесту Стьюдента для парних даних. Тут також дві змінні, що перевіряються, повинні бути числовими (або асимільованими). Оскільки зразки відповідають, вони обов’язково повинні включати однакову кількість особин. Ми формуємо для кожної пари спостережень різницю, а потім класифікуємо ці спостереження за зростаючими абсолютними значеннями, зазначаючи для кожного з них, якщо воно є позитивним чи негативним (нульові різниці усуваються).

Випадок більше двох збіжних зразків:

Існує ще один непараметричний тест, що дозволяє порівняти більше 2 зразків, і який насправді є узагальненням тесту Манна-Уітні. Це тест Крускала-Уолліса. Цей дуже корисний тест дозволяє проаналізувати зв'язок між кількісною характеристикою та якісною характеристикою з k класами (k> 2). Цей тест дозволяє, зокрема, проводити багаторазові порівняння шляхом тестування того, що називається середнім рангом. Це найбільш часта процедура в непараметричних тестах.