Статистика та теорія ймовірностей - PDF скачати безкоштовно
Статистика та теорія ймовірностей Dr. Йохен Келер 1

Зміст сьогоднішньої лекції Статистика та теорія ймовірностей Короткий зміст попередньої лекції Огляд оцінки та моделювання χ Добрість тесту на відповідність Колмогоров Смирнов Порівняння моделі тестової відповідності
Короткий зміст попередньої лекції Ми розглядали можливість оцінки параметрів розподілу на основі спостережень/даних. Що ми дізналися? Те, що параметри розподілу можна оцінити за допомогою напр. der: Метод моментів MoM Метод максимальної вірогідності MLM 3
Короткий зміст попередньої лекції Метод оцінки моментів (MoM) Точка оцінки Принцип MoM полягає в наступному: ми оцінюємо параметри, прирівнюючи аналітично розраховані моменти до зразкових моментів. m 1 n = xˆ 1 ini = 1 1 x fx (xμ, σ) λ = dx m 1 n = xˆ ini = 1 x fx (xμ, σ) λ = dx Це призводить до k рівнянь, які необхідно вирішити для k Оцініть параметри. 4-й
Короткий зміст попередньої лекції Метод оцінки параметрів максимальної вірогідності (MLM) та їх розподіл Принцип MLM полягає в: Параметри оцінюються шляхом максимізації ймовірності того, що параметри представляють спостереження/дані. n L (θ xˆ) = f (ˆ X xi θ) i = 1 l (θ x) = log (f (ˆ X xi θ)) хв (l (θ xˆ)) θ ni = 1 μ = Θ (1 1 C ΘΘ = HH ij θ, θ. Θ l (θxˆ) T n) = θ = θ θ i θ j 5
Оцінка та огляд розробки моделей При розробці інженерних моделей використовуються різні типи інформації. Суб'єктивна інформація Інформація лікаря-суб'єкта Суб'єктивний документ про ймовірність Фізичне розуміння Досвід Оцінка здатності Розподіл сімейства Дані лікаря-розподілювача Параметри розподілу Імовірнісна модель Статистика вибірки Довірчі інтервали Статистична значимість Метод моментів Метод максимальної ймовірності
Припустимо, що ми обрали певну функцію розподілу для моделювання невизначеності невизначеної події. Фізичні закони розподілу даних сімейства f x (x) міцність на стиск конкретні параметри розподілу даних μ, σ x Тепер ми хочемо перевірити вибір нашого розподілу за допомогою статистичних тестів. 7-й
Розглядаються два різні випадки: Перевірка 1: Дискретні функції розподілу p x (x) Квадрат CHI (χ) Тест x: Функції безперервного розподілу Тест Колмогорова Смірнова f x (x) x 8
Квадратний тест CHI на придатність. Ідея цього полягає в тому, що відмінності ε j між очікуваним та спостережуваним розподілом даних повинні бути малими, якщо вибране сімейство розподілу може добре описати вибірку. 10 9 8 ε j ε i Спостереження 7 6 5 4 3 1 0 0 5 5 30 30 35 35 Гістограма за спостереженнями Гістограма за очікуваними спостереженнями відповідно до обраного розподілу та його параметрів міцності бетону на стиск (МПа) 9
Як ми вже знаємо, дискретна кумулятивна функція розподілу ймовірностей подається таким чином: i 1 = j = 1 Px () px () i j Функція щільності ймовірності Кумулятивна функція розподілу ймовірностей 10
Квадратний тест CHI доброти придатності Нехай n - кількість спостережень дискретної випадкової величини X. Кількість спостережень X = xi, тобто N i є біноміально розподіленою випадковою величиною з наступними очікуванням та дисперсією: [] [] EN = npx () = N ii pi, Var N = np (x) (1 p (x)) = N (1 p (x)) iii pi, i Очікувана кількість спостережень певного значення 11
Квадратний тест CHI доброти придатності Нехай n - кількість спостережень дискретної випадкової величини X. Кількість спостережень X = xi, тобто N i є біноміально розподіленою випадковою величиною з наступними очікуваними значеннями та дисперсією: [] [] EN = npx () = N ii pi, Var N = np (x) (1 p (x)) = N (1 p (x)) iii pi, i Очікувана кількість спостережень певної величини Якщо постульована модель правильна і n досить велика, то згідно з центральною граничною теоремою різниця ε i зазвичай розподіляється як стандартна. ε = i N N oi, pi, pi, N (1 p (x)) i Спостережена кількість спостережень певного значення 1
Квадратний тест CHI на придатність Статистика та розрахунок ймовірності Якщо підсумовують квадратичні різниці спостережуваної та очікуваної кількості спостережень, то ми отримуємо: ε (NN) kk oi, pi, = εi = i = 1 i = 1 Npi, p xi ( 1 ()) Квадрат CHI, розподілений з k 1 ступенями свободи ε ε 1 кількість спостережень 10 9 8 7 6 5 4 3 1 0 ε mk (Noi, Npi,) = N i = 1 pi, 0 1 3 ε 3 ε 4 гістограма з спостережень Гістограма очікуваних спостережень Кількість аварій на місяць 13
Квадратний тест CHI на придатність. Зараз перевіряється на рівні значущості α, чи є вірогідною сума всіх спостережуваних квадратичних різниць, тобто встановлюється нульова гіпотеза H 0, згідно з якою обрана функція розподілу представляє спостережувану вибірку. Тоді правилом процедури є P ε (m) Δ = α Альтернативна гіпотеза H 1 є набагато менш інформативною, оскільки вона приймає всі інші розподіли, крім вибраного розподілу. Δ α χ 1 v = k j - фракційне значення розподілу зі ступенями свободи. 14-е
Квадратний тест CHI на міцність прилягання Ми розглянемо наступний приклад: Ми приймаємо нормальний розподіл як функцію розподілу для 0 спостережень міцності бетону на стиск. Середнє значення та стандартне відхилення становить 33 Мпа 5 Мпа. Параметри не оцінюються з наявних спостережень. Нормальний розподіл - це безперервний розподіл. Але його легко можна дискретизувати! 15-й
Квадратний тест CHI на міцність прилягання Функція щільності обраної функції розподілу дискретизується: Вибрана функція розподілу щільність ймовірності 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,0 0,01 0 0 10 0 30 40 50 60 Міцність бетону на стиск (МПа) 16
Квадратний тест CHI на міцність прилягання Функція щільності обраної функції розподілу дискретована: Щільність ймовірності 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,0 0,01 Вибрана функція розподілу 0 0 10 0 30 40 50 60 Бетон на міцність на стиск (МПа) Інтервал 0 5: Φ Φ) 0,055 1. 10 Загальна кількість спроб 5 33 33 0 () (= = 5 5 17
Квадратний тест CHI на міцність прилягання Функція щільності обраної функції розподілу дискретизується: Щільність ймовірності Вибрана функція розподілу 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,0 0,01 0 0 10 0 30 40 50 60 Бетон на міцність при стиску 1 0 Очікувана гістограма 0 5 5 30 30 35 35 Бетон на міцність на стиск (МПа) Інтервал 0 5: Φ Φ) 0 0,055 1. 10 Загальна кількість випробувань 5 33 33 0 () (= = 5 5 18
Квадратний тест CHI на добре придатність Спостережувані та очікувані гістограми тепер можна порівняти. 10 Кількість спостережень 9 8 7 6 5 4 3 1 0 0 5 5 30 30 35 35 Бетон міцності на стиск (МПа) Гістограма за спостереженнями Гістограма за очікуваними спостереженнями 19
Квадратний тест CHI на добре придатність Спостережувані та очікувані гістограми тепер можна порівняти. Через малу кількість зразків у нижній області два нижні інтервали зливаються. Кількість спостережень 10 9 8 7 6 5 4 3 1 0 0 5 5 30 30 35 35 Бетон на міцність на стиск (МПа) Гістограма за спостереженнями Кількість спостережень 10 Гістограма очікуваних 1 спостереження 0 9 8 7 6 5 4 3 0 30 30 35 35 Міцність бетону на стиск (МПа) 0
Квадратний тест CHI на корисність розрахунків, наприклад, статистика та розрахунки ймовірностей Інтервал xj (МПа) Кількість спостережень N o, j Очікувана ймовірність Очікувана кількість спостережень N p, j, статистика вибірки 0 30 5 0,96671 5,933415 0,14684 30 35 9 0,381169 7,65443 0,36537 35 6 0,344578 6,41155 0,0649 Сума 0,40987 ε NN k (o, jp, j) m = j = 1 N p, j При рівні значущості 5% отримуємо для квадратного розподілу CHI з N = 3 1 = ступенями свободи з таблиці: Δ = 5,99. Оскільки 0,40987 менше 5,99, нульову гіпотезу H 0 не можна відкинути. 1
Квадратний тест CHI на придатність Якщо один або кілька (m) параметрів вибраного розподілу були визначені з тих самих даних, що були використані для тесту, тоді кількість ступенів свободи необхідно відповідно зменшити: v = k 1 j Припускаючи, що дисперсія була визначена на основі даних, але не середнього, ми отримуємо n = 3-1-1 = 1 ступінь свободи.
Статистика та ймовірність Квадратний тест CHI на придатність Якщо прийняти нормальний розподіл з наступними параметрами: μ = 33,00 σ = 4,05, ми отримаємо такий результат: Інтервал xj (МПа) Кількість спостережень N o, j Очікувані ймовірності p (xj) Очікувані Кількість спостережень N p, j =, 0p (xj) статистика вибірки 0 30 5 0,7453 5,485061 0,04896 30 35 9 0,381169 7,63373 0,48591 35 6 0,344578 6,891566 0,113434 сума 0,40689 На рівні значущості 5% ми отримуємо для квадратного розподілу CHI з N = 3 1 1 = 1 ступінь свободи від таблиці: Δ = 3,84. Оскільки 0,40689 менше 3,84, нульову гіпотезу H 0 не можна відкинути. 3
Тест Колмогорова Смірнова на перевірку доброти придатності Ідея тесту Колмогорова Смірнова полягає в наступному: якщо для спостережень враховується кумулятивна функція розподілу ймовірностей вибраного розподілу, то максимальна різниця між спостережуваною та очікуваною кумулятивною функцією розподілу ймовірностей повинна бути невеликою. ε max ε max