Планка Гальтона

Багато статистичних величин є результатом поєднання великої кількості не пов'язаних між собою параметрів. Наприклад, розмір особи залежить від безлічі генетичних факторів, а також від її раціону, будь-яких проблем зі здоров’ям та допомоги, яку він отримує., тощо. Коли ми представляємо статистичний розподіл такої величини у вигляді гістограми, ми часто бачимо, що вона утворює своєрідний дзвін, зосереджений навколо середнього значення.

більша кількість
Плита Гальтона, названа на честь її винахідника сера Френсіса Гальтона (1822-1911), є пристроєм, призначеним для візуалізації закону відхилень від середнього в серії великої кількості незалежних випадкових експериментів.

Кулі котяться по поверхні похилої дошки, на якій розташовані шахові цвяхи (звідси англійська назва «quincunx»). Кулі випадково проходять з одного чи з іншого боку цвяхів, і кількість кульок вимірюється після прибуття відповідно до їх положення на виході з дошки. Ця позиція є результатом додавання всіх відхилень, яких вони зазнали, потрапляючи на ці нігті: кожне з цих відхилень є випадковим досвідом, незалежним від інших. Оскільки відхилення вправо такі ж ймовірні, як і вліво, "середня" траєкторія вертикальна.

Розподіл куль в колонах прибуття регулюється двома фундаментальними результатами теорії ймовірності: законом великих чисел і центральною граничною теоремою, які, таким чином, конкретно демонструються.

Імовірність прильоту м’яча та центральна гранична теорема

Куля, випущена у верхній частині дошки, розподіл ймовірностей, згідно з якою вона потрапить у ту чи іншу колону, є класичною теорією дискретних ймовірностей: це те, що називають біноміальним законом. Якщо всі можливі траєкторії однаково ймовірні, ймовірність того, що м’яч закінчить свій курс у даній колонці, пропорційна кількості шляхів, які ведуть від верхньої частини дошки до цільової колони. Ця кількість шляхів є біноміальним коефіцієнтом, заданим трикутником Паскаля.

На малюнку нижче ми графічно представили для кожного стовпця ймовірність того, що кулька, що починається зверху дошки, закінчить свій шлях у цій колонці (тут 60 рядків цвяхів). Зверніть увагу, що всі стовпці теоретично доступні, але якщо ми трохи відхилимось від середини, ймовірність стає настільки низькою, що її вже не видно в використовуваному масштабі! Причина проста: до центральних колон веде набагато більше шляхів, ніж до тих, що ведуть від центру. Отже, до кожної крайньої колони веде лише один шлях, тоді як до центральної колони є мільярди способів.

На цьому графіку ми бачимо, що розподіл ймовірностей прибуття в колонах, здається, малює дуже регулярну криву дзвоника. Теорема про центральну межу точно говорить, що чим більша кількість рядів цвяхів на дошці, тим ближче розподіл ймовірностей прибуття наближається до цієї дзвоноподібної кривої, званої кривою Гауса. (Насправді, цей точний випадок є приватним випадком застосування центральної граничної теореми, яка носить назву теореми Муавра-Лапласа.) Ширина дзвона змінюється залежно від розміру дошки: це l 'порядок квадратний корінь із числа рядків. Отже, множення кількості рядків на 4 лише подвоює ширину дзвоника. Розподіл ймовірностей, який відповідає цій граничній кривій, називається нормальним розподілом.

Спостерігається розподіл куль і закон великих чисел

Отже, у верхній частині дошки кожна куля має ймовірність прибуття, яка відповідає формі дзвона, показаній вище. Але після спуску він, очевидно, торкається лише однієї з колон! Для візуалізації на практиці розподілу прибуття потрібно повторити велику кількість разів експеримент, тобто кинути велику кількість кульок. Кожен слідує за траєкторією, незалежною від інших, і саме тут втручається закон великих чисел: чим більша кількість використовуваних кульок, тим більша частка кульок, що надходять у кожну колонку, наближається до теоретичної ймовірності.

На малюнку нижче, де було запущено трохи більше 300 куль, ми спостерігаємо емпіричний розподіл, приблизно слідуючи кривій дзвона. Використовуючи набагато більше бісеру, результат наблизиться до теоретичного розподілу.