Зважені дані

Хоча цілком можливо працювати з R sub, ця функціональність не настільки інтегрована, як у більшості інших програм статистичної обробки. Зокрема, існує кілька можливих способів обробки. Однак, коли комплекс також повинен бути врахований (див. Спеціальний розділ нижче), Р. надає всі необхідні інструменти, тоді як у більшості власного програмного забезпечення вам потрібно адекватне розширення, яке не завжди продається в якості бази з програмним забезпеченням.

Далі ми використовуватимемо набір даних опитування Histoire de vie, зокрема його зважувальну змінну вагу 1 .

Опції для деяких функцій

По-перше, деякі функції Р. прийняти як аргумент вектор, що дозволяє зважувати спостереження (опція зазвичай називається вагами або рядком.w). Це має місце, наприклад, з методами оцінки для лінійних моделей 2 (lm) або узагальнених лінійних моделей 3 (glm) або при аналізі відповідності 4 розширень ade4 або FactoMineR .

Однак ця опція відсутня в основних функціях, таких як mean, var, table або chisq.test .

Дані, зважені з розширенням опитування

Розширення опитування спеціально присвячене обробці опитувань з потенційно дуже складними методами вибірки та зважування.

Розширення встановлюється, як і більшість інших:

Офіційний сайт містить багато інформації, але не обов’язково дуже доступної:
http://r-survey.r-forge.r-project.org/.

Щоб використовувати функціональні можливості розширення, ми повинні спочатку визначити або наше опитування, тобто вказати, який тип зважування ми хочемо застосувати до нього.

По-перше, ми будемо використовувати найпростішу конструкцію вибірки з уже розрахованою ваговою змінною. Інші типи плану відбору проб див. У розділі про складні плани відбору проб.

Це робиться за допомогою функції svydesign:

Ця функція створює новий об'єкт, який ми назвали dw. Цей об'єкт - це не строго кажучи таблиця даних, а швидше таблиця даних плюс метод зважування. dw і d - це окремі об'єкти, операції, що виконуються над одним, не впливають на інші. Однак ми можемо отримати вміст d з dw за допомогою змінних dw $:

Коли наш план вибірки оголошений, ми можемо застосувати до нього ряд функцій для виконання різних статистичних операцій з урахуванням зважування. Зокрема, ми згадаємо:

  • svymean, svyvar, svytotal, svyquantile: (,)
  • svytable: і
  • svychisq:
  • svyby: статистика за фактором
  • svyttest: від
  • svyciprop:
  • svyglm: (не)
  • svyplot, svyhist, svyboxplot: графічні функції

Доступні інші функції, такі як svyratio, але вони не будуть тут обговорюватися.

Що ще гірше, ці функції сприймають свої аргументи як формули 5, що не звичайно. Взагалі, виклик функції здійснюється шляхом вказівки спочатку змінних, що цікавлять, як формули, а потім об’єкта survey.design.

Давайте подивимось на кілька прикладів 6:

Плоскі сортування оголошуються шляхом передачі імені змінної, якій передує тильда (

), тоді як перехресні таблиці використовують імена двох змінних, розділених знаком плюс (+) і перед тильдою (

Функцію частоти можна використовувати, якщо ми передаємо її як аргумент не самій змінній, а її плоскому сортуванню, отриманому за допомогою svytable:

Ми також можемо отримати масив з svytable в об'єкті, а потім повторно використовувати його як будь-яку перехресну таблицю:

Тому функції lprop та cprop анкети повністю сумісні з використанням опитування .

Принцип роботи svyby подібний до принципу tapply 7. Він використовується для обчислення статистики за кількома підгрупами, визначеними коефіцієнтом. Наприклад:

gtsummary та опитування

Розширення gtsummary надає функцію tbl_svysummary, подібну до tbl_summary, але придатну для об'єктів опитування .

1 Представлена ​​статистика: медіана (EI); ні (%)

1 Представлена ​​статистика: медіана (EI); ні (%)

2 Проведене статистичне випробування: тест рангової суми Уілкоксона для складних зразків обстеження; тест хі-квадрат з корекцією другого порядку Рао і Скотта

Власна графіка з опитуванням

опитування також здатне створювати графіки із зважених даних. Кілька прикладів:

Графіка Ggplot2

ggplot2 приймає естетичну вагу для позначення ваг, які слід враховувати на різних графіках. Функція ваг дозволяє отримувати ваги об’єкта зйомки. Функція ggplot не приймає об'єкт опитування, але потребує масив даних. Останні можна отримати за допомогою змінних $ .

опитування Розширення

УВАГА: отримані графіки є правильними лише в тому випадку, якщо для їх побудови потрібні лише ваги, як це відбувається з діаграмою розсіювання або гістограмою. З іншого боку, якщо обчислення графіка включає обчислення дисперсії, подання буде неправильним. Наприклад, для geom_smooth відображені області довіри не будуть правильно враховувати план вибірки.

Розширення questionr надає у своїй версії для розробки функцію ggsurvey, яка полегшує роботу. Він бере об'єкт опитування, витягує таблицю даних та ваги, пов'язує ваги з відповідною естетикою та викликає ggplot .

Щоб встановити розробницьку версію questionr, ви можете використовувати таку команду:

Витягніть підразок

Якщо ми хочемо працювати над цілим, зберігаючи інформацію вибірки, ми будемо використовувати функцію підмножини, докладно представлену в главі Підмножини.

Логістичні моделі

Для створення логістичних моделей (двійкових, багаточленових або порядкових) з урахуванням плану вибірки, ми можемо звернутися до спеціального підрозділу глави Логістична регресія.

dplyr та опитування

Розширення srvyr має на меті дозволити використання дієслів від dplyr під час опитування. Робота цього розширення пояснюється у виділеному ескізі: https://cran.r-project.org/web/packages/srvyr/vignettes/srvyr-vs-survey.html.

Висновок

Якщо, управління зважуванням під Р. Це, мабуть, не найпрактичніше і найпростіше, ми все ж можемо дати таку пораду:

  • використовувати звичайні варіанти зважування функцій або функції розширення як питання для найпростіших випадків;
  • якщо використовується опитування, виконайте якомога більше всіх перекодування та маніпуляцій з незваженими даними;
  • як тільки перекодування проведено, проект оголошується і аналізи проводяться з урахуванням зважування;
  • перш за все, ніколи не змінюйте конструктивні змінні. Завжди виконуйте перекодування та маніпуляції з незваженими даними, а потім передекларуйте дизайн, щоб зроблені оновлення були доступні для аналізу.

Зверніть увагу, що ця змінна використовується лише для ілюстративних цілей. Оскільки набір даних є випискою з опитування, а вагова змінна не перерахована, строго кажучи, тут немає сенсу.

Детальніше про формули див. У спеціальному розділі.

Функція крана подається більш докладно в главі Маніпулювання даними.