Вибірка - Сфінкс

3 грудня 2018 р

#Довірчий інтервал

Правильний вибір сукупності для опитування гарантує надійність результатів, які будуть отримані.

Керівник дослідження рідко має засоби для зв’язку з усіма представниками зацікавленого населення. Статистики називають це "материнським населенням". У цьому випадку він проводив би "перепис населення". Раптом це повинно бути обмежено меншою сукупністю (= вибіркою), яка повинна представляти материнську сукупність і яка повинна дозволити нам узагальнити спостережувані результати.

У цьому сенсі вибірка повинна бути:

конкретні: Достатнього розміру, щоб похибка оцінки, яку вона створює, була прийнятною. Формула використовується для обчислення похибки на основі розміру вибірки.
представник: його склад повинен бути подібним до складу батьківської сукупності.

Метод відбору проб та репрезентативна проба

Існують дві основні сімейства методів: імовірнісні методи чи емпіричні методи.

Імовірнісний (або випадковий) метод полягає у випадковому відборі осіб, на яких потрібно взяти співбесіду, відповідно до методу, який гарантує всім однакову ймовірність співбесіди. Для цього необхідно мати повний список членів материнської популяції, щоб мати змогу здійснити справжній випадковий відбір. Наприклад, зі списку людей у електронній таблиці та функції випадкового вилучення з n людей. Це найбільш науковий метод, який базується на "законі великих чисел", визначеному Бернуйлі наприкінці 17 століття, згідно з яким характеристики випадкової вибірки наближаються до статистичних характеристик сукупності, коли обсяг вибірки збільшується.

Емпіричний метод полягає у складанні його вибірки на основі відомих характеристик материнської популяції. Ми знаємо, що серед французького населення є 52% жінок. Ми хочемо представницьку вибірку з 500 чоловік. Буде опитано близько 260 жінок. Потім ми встановлюємо так звані квоти для збору відповідей.

Якщо вибірка не відповідає цим критеріям репрезентативності, вона вважається упередженою, і необхідно буде скорегувати або доповнити опитування іншими відповідями.

Точність зразка

Якщо вибірка береться навмання, можна дізнатись характеристики сукупності з ознак вибірки. Ці знання є оцінкою: точна інформація (% або середня), розрахована у вибірці, дозволяє визначити діапазон або довірчий інтервал, в якому лежить відповідне значення для загальної сукупності. Ризик помилки в оцінці можна контролювати. Чим менше ризику ви хочете прийняти, тим ширший інтервал і неточна оцінка.

Для даного рівня ризику неточність оцінки залежить від обсягу вибірки та пропорції або стандартного відхилення, яке спостерігається у вибірці. Тому точність зростає із збільшенням обсягу вибірки. Великі вибірки кращі, ніж малі, але ефект від збільшення вибірки стає все менш помітним.

Нарешті, на відміну від досить поширеної помилки, точність не залежить від швидкості обстеження. Наприклад, інтервал довіри для вибірки з 200 осіб однаковий, незалежно від того, чи опитування стосується паризького населення, французького населення чи населення Сполучених Штатів.

Довірчий інтервал частки залежить лише від спостережуваної пропорції p та розміру n вибірки:

Довірчий інтервал: [p-1,96 * √ (p * (1-p)/n); p + 1,96 * √ (p * (1-p)/n)]

Подивіться анімацію, щоб краще зрозуміти принцип довірчого інтервалу: https://www.sphinxonline.com/suristat/simu1.htm

NB: Прийнято, що вищезазначені правила можуть також застосовуватися до вибірки, складеної емпірично та репрезентативно для материнської сукупності за кількома критеріями.

Коригування: виправлення зразка

Відновлення шляхом видалення

Для того, щоб знайти очікувані пропорції (пропорції батьківської сукупності), ми можемо випадковим чином видалити респондентів із надмірно представлених категорій. Це означає, що ми настільки ж зменшимо загальний розмір нашої вибірки і втратимо точність, оскільки пов'язана з цим помилка збільшиться.

Регулювання зважуванням

За допомогою цього методу ми збережемо всі відповіді, зафіксовані, але для підрахунку ми присвоїмо кожному респонденту певну "вагу" відповідно до категорії, до якої він належить. Ця вага перевищує 1, якщо її категорія недостатньо представлена, і менше 1, якщо вона надмірно представлена. Для подальшого підведення підсумків результатів думка людини більше не буде важити 1, а ця нова розрахована вага. Наприклад, якщо у мене вдвічі менше дружин, як очікувалось у моїй вибірці, «вага» жінки буде 2, а відповідь кожної жінки буде рахуватися вдвічі.

Цей спосіб відновлення навряд чи можна реалізувати без допомоги програмного забезпечення. Для кожної категорії слід розрахувати вагу, яка буде використана для коригування зважування. Потім ваги застосовуються до кожного врахованого підрахунку. Для кожної змінної в опитуванні отримані числа множаться на коригувальну вагу кожної категорії, таким чином отримують нові "скориговані" частоти.

Квотний метод

Протоколи збору даних в Інтернеті дуже рідко гарантують випадковий метод відбору. З іншого боку, вони дають змогу швидко і недорого зв’язатися з великою кількістю співрозмовників. Таким чином, ми можемо витягнути фактично і за випадковим методом репрезентативну вибірку згідно з попередньо визначеними квотами.

Крім того, якщо бюджет дозволяє це, постачальники мережевих комісій (наприклад, ToLuna або Bilendi, наприклад) пропонують послугу відбору респондентів за квотами і, як правило, дозволяють нам отримати бажану вибірку.

Методи, представлені вище, пропонують апріорний план вибірки, але ми також можемо вважати, що вибірку можна отримати апостеріорно з великої бази респондентів.

Цей самий прийом може бути використаний для формування репрезентативної вибірки з великої бази відповідей, отриманих із вибірки зручності. Як правило, цей підхід можна використовувати як частину опитування, яке розміщується в Інтернеті та розповсюджується електронною поштою.

У більшості навчальних проектів важливо чітко визначати вибірку. В іншому випадку спостережувані результати ні в якому разі не можуть бути узагальненими. Висновки не мали б значення, і всі докладені зусилля були марними. Не поспішайте зрозуміти правила відбору проб і відповідно виберіть своїх цільових респондентів.

Читайте також

Задовільний як показник неякісності відповідей

Задоволення, позначення факту мінімізації зусиль для відповіді на анкету: методи виявлення та вплив на якість даних.

Алтайський парк
27 вулиця Кассіопе
74650 Шаванод