Очищення файлів у випадку, якщо окремі дані вимагають узгодженості

Кремп Єлизавета. Очищення файлів у випадку окремих даних: пошук поперечної узгодженості. В: Економіка та прогнозування, № 119, 1995-3. стор. 171-193.

Очищення файлів для окремих даних

Пошук поперечної зв’язності

Окремий файл даних протягом декількох років, який також називають даними панелі, може характеризуватися трьома вимірами: кількістю осіб, кількістю інформації, тобто змінними, що дозволяють характеризувати цих осіб, і кількістю років, за які це інформація доступна. На додаток до цих трьох характеристик можна взяти до уваги і четверту, яку важче виміряти, тобто якість цієї інформації.

Проблема очищення вибірки виникла в контексті порівняння баз даних бухгалтерського обліку по компаніях Banque de France із вичерпними даними Єдиної системи ділової статистики (Суза) Інсі. Перш ніж мати можливість порівняти ці різні бази даних, важливо мати надійну статистику (1). Більш загально, ця проблема ідентифікації екстремальних або відхилених даних виникає при проведенні прикладних економічних досліджень, що використовують дані даних.

Після спроби пояснити ці поняття відхилень та екстремальних значень, ця стаття нагадує статистичні інструменти та представляє різні нерізноманітні методи ідентифікації цих значень. Багатовимірні методи тут не досліджуються, оскільки вони не лише залежать від теоретичної моделі, але й видаються дуже громіздкими для реалізації у випадку окремих та тимчасових файлів даних розміром тих, що використовуються в цьому дослідженні (2). Потім вісім методів, побудованих на основі цих інструментів і методів, перевіряються у файлі ділових банківських операцій (Fiben) Банку Франції на основі критерію співвідношення клієнтів до умов оплати. Нарешті, застосування трьох із цих методів до семи співвідношень дає можливість їх порівняти, оцінити роль вибору співвідношень та виміряти кумулятивні явища усунення спостережень.

Два з цих трьох методів дають дуже схожі результати: той, який усуває спостереження, розташовані через три інтерквартильних інтервали з першого та третього квартилів, і той, що застосовує метод стандартизації, в якості оцінювача локалізації середнє значення усечене на 1% і як оцінювач дисперсії псевдо стандартне відхилення. Перше легше реалізувати, що може бути вагомою причиною віддати йому перевагу. Однак, якщо розподіл справжньої сукупності для досліджуваної змінної дуже далекий від нормального розподілу, то ці дві методики можуть призвести до усунення занадто великої кількості спостережень. Тоді виглядає кращим метод, який не накладає оцінювача дисперсії нормального розподілу: це випадок із методом стандартизації, який також використовує усечене середнє в 1%, але беручи інтерквартильний діапазон як оцінювач дисперсії.

(*) Бізнес-обсерваторія, Banque de France.

Це дослідження не обов'язково відображає позицію Banque de France і лише зобов'язує його автора.