Розділ 3: ОСНОВНІ ЦІННОСТІ


Є три основні цінності:

розділ

- Режим
- медіана
- Середня

Навчившись їх обчислювати, ми вивчимо їх властивості, а потім побачимо, як порівняння трьох центральних величин дає змогу врахувати форму розподілу і які центральні значення мають найбільше цікаві властивості.

3.1 РОЗРАХУНОК ЦЕНТРАЛЬНИХ ЦІННОСТЕЙ

3.2 ЦЕНТРАЛЬНІ ЦІННОСТІ ТА ФОРМИ РОЗПОДІЛУ

3.3 ШІСТЬ ВЛАСТИВОСТЕЙ YULE

Загальне меню Попередній розділ Наступний розділ

3.1 Розрахунок центральних величин

Його можна розрахувати лише за кількісними характеристиками. Значення, що класифікуються у порядку зростання, медіаною - це значення символу, яке ділить його на два набори однакових розмірів: 50% значень більше за нього і 50% менше за нього.

Обчислення медіани з елементарної таблиці

Ми упорядковуємо масив і шукаємо елемент, який ділить розподіл на дві рівні частини, тобто той, що має ранг (n + 1)/2. Якщо розподіл має непарну кількість елементів, ми знаходимо одне значення, яке є медіаною, якщо розподіл має парну кількість елементів, знаходимо два значення, які визначають серединний інтервал: тоді ми беремо за медіану центр цього медіанного інтервалу.
Приклад: Якою є середня заробітна плата у компанії Zykosar (див. Таблицю 1 попереднього розділу) ?

Відповідь: знаючи, що працює 20 працівників, ранг медіани дорівнює (20 + 1)/2 або 10,5. Отже, середня зарплата - це середня зарплата осіб, які займають 10-е та 11-е місця у розподілі, тобто (2700 + 2900)/2. Середня зарплата в компанії Zykosar становить 2800 CR $.

Медіана - це значення, найближче до всіх інших, і саме воно мінімізує відстані в абсолютному значенні:

НЕS½ Xi - A ½ мінімальний тоді і лише тоді, коли A є медіаною символу Xi = 1

Приклад застосування: розташування бензобази для обслуговування 6 СТО, розташованих на км 0, 50, 100, 200, 300, 400, 700. Оптимальне розташування знаходиться в середині 6 значень. Скажімо, на км 200 (мінімальна відстань до 6 СТО). Наведена нижче таблиця дає змогу переконатися, що ні центральна точка (макс-хв)/2, ні середня точка не пропонують кращого розташування.

Станції
розташовані
на км
n °
Відстань до середньої точки (200) Відстань до середньої точки (250) Відстань до центральної точки (350)
0 200 250 350
50 150 200 300
100 100 150 250
200 0 50 150
300 100 50 50
400 200 150 50
700 500 450 350
Разом 1250 1300 1400
Середня

В принципі, його можна розрахувати лише для безперервних кількісних характеристик. На практиці він також розраховується для дискретних кількісних характеристик, що призводить до чарівного результату: ми можемо мати 2,2 дитини на одну жінку (що робити з 0,2?).

Обчислення середнього з елементарного масиву

Середнє - це сума значень, поділена на кількість елементів:
НЕ
S = S Xi/Ni = 1

Ця формула насправді відповідає конкретному випадку середньозваженого середнього, коли ми надаємо однакову вагу кожному з осіб.

Приклад: Якою є середня заробітна плата у компанії Zykosar (див. Таблицю 1 попереднього розділу) ?

Відповідь: загальний фонд оплати праці становить 200 000 CR $, а кількість працівників - 20, ми отримуємо середню заробітну плату 10000 CR $. Ця середня зарплата, очевидно, відображає лише дуже недосконало зарплату, яку отримує більшість працівників. Якби директора усунули, заробітна плата решти 19 співробітників становила б у середньому лише (100 000/19) = 5263 крон. Якби ми також усунули двох заступників директора, то заробітна плата решти 17 працівників тоді становила б у середньому лише 2941 доларів США. .

Тому ми можемо бачити, що середнє значення в цьому прикладі є дуже поганим підсумком розподілу через наявність виняткових значень (директор) та сильної асиметрії гістограми (концентрація заробітної плати в низьких значеннях і дисперсія у високих значеннях).

Оскільки ми не знаємо точного розподілу заробітної плати між класами, ми будемо вважати, що класний центр відповідає середньому показнику людей, які зібрались у цьому класі. Тому розрахунок проводитиметься наступним чином:

середнє = S Ei. Ci/N S Fi. Цеi = 1 i = 1

Відповідь: 5 особам першого класу призначається зарплата 1500 CR $, 7 особам другого класу зарплата 3000 CR $, а 8 особам останнього класу середня зарплата 52000 CR $. Тоді середня зарплата теоретично становить 22 225 доларів США! Це значення набагато вище реальної середньої заробітної плати, оскільки центри останніх двох класів не є репрезентативними і набагато вищі за середні показники класів, яким вони відповідають (відповідно 2500 CR і 21 875 CR $).

Розрахунок зважених середніх

Часто трапляється, що рядки, що містяться в елементарній таблиці, відповідають наборам індивідів, а не окремим особам. Тоді значення символу вже відповідають середнім показникам, і загальне середнє значення повинно зважувати кожне значення символу за кількістю осіб, яких воно представляє. Якщо ми позначимо X модальності, а P їх вагу, обчислення буде таким:

середнє = S Пі. Xi / S Піi = 1 i = 1

Відповідь: зважуючи середню заробітну плату кожної категорії працівників за її робочою силою (кількість працівників у категорії), ми знаходимо точне значення середньої заробітної плати компанії Zykosar: 10000 CR $

Середні тарифи та середні ставки

Безпосереднє застосування середньозваженого значення стосується ставок, тобто символів X, що визначаються як відношення двох знаків запасу V (чисельник) та P (знаменник). Коли ми розглядаємо сукупність з N індивідуумів, описаних X, ми повинні чітко розрізняти середню норму та середню норму. Перше - значення співвідношення V/P, якщо всі особи були об’єднані, а друге - середнє значення значень індивідів різної ваги:
середня норма = S Pi. Xi/S Pi = Vtot/Ptoti = 1 i = 1

НЕсередня норма = S Xi/Ni = 1

Приклад: Яким би був ВВП на душу населення Китаю, об’єднаного з Тай-Ванем ?
Країна ВВП ($/душа населення) Поп (мільйони мешканців)
Популярний Китай 3500 1300
Тай-Ван 18500 20
Джерело: Світовий банк 1997 р

Відповідь: середній показник призведе до значення 11 000 доларів на жителя, що, очевидно, не відображає наслідків возз’єднання, оскільки це середнє значення має однакову вагу для обох країн (Народний Китай в 65 разів більше населеного, ніж Тай-Ван!).
Отже, при розрахунку середньої ставки передбачається, що виконується середньозважений показник, що призводить до величини 3727 доларів на душу населення. Отже, ВВП на душу населення об'єднаного Китаю збільшиться лише на менше ніж 250 доларів на душу населення порівняно з ВНП Народного Китаю. !

(1) Сума відхилень від середнього дорівнює нулю.

НЕ (Xi - Середнє) = 0i = 1

(2) Середнє значення мінімізує квадратні відстані

НЕS (Xi - A) 2 є мінімальним тоді і тільки тоді, коли A є середнім знаком Xi = 1

Будьте обережні, щоб не плутати з медіаною, яка мінімізує абсолютне значення відстаней, а не високі відстані в квадраті.

3.2 Центральні значення та форма розподілу


Порівняння трьох центральних значень або дослідження гістограми дозволяють визначити форму розподілу. Залежно від форми розподілу найкращий підсумок буде наданий тим чи іншим із трьох центральних значень.

Бімодальний або мультимодальний розподіл

Розподіл має кілька режимів. Основний режим відрізняється від середнього та медіани, які мають великі шанси відповідати площі розсіювання значень. У цьому випадку ані середнє значення, ані медіана не мають значення. Розподіл не можна узагальнити за одним значенням. Він складається з двох дуже диференційованих груп.

=> найкращий підсумок надається основним і вторинним режимами розподілу.

Симетричний унімодальний розподіл

Коли розподіл буде унімодальним та симетричним, ми приблизно знайдемо середнє = медіана = режим.

=> найкращий підсумок тоді дається середнім значенням, оскільки він враховує всі спостереження і має цікаві статистичні властивості.

Можуть виникнути два випадки:

3.3 ШІСТЬ ВЛАСТИВОСТЕЙ YULE

Статист Юл (19 століття) визначив шість бажаних властивостей для центральних цінностей.


У наведеній нижче таблиці узагальнено переваги та недоліки трьох центральних цінностей.

Власність Юля Мода Медіана Середній
1) визначається об'єктивно - + +
2) залежить від усіх спостережень - - +
3) має конкретне значення + + -
4) легко розрахувати + + +
5) не дуже чутливий до коливань вибірки - + -
6) піддається алгебраїчному обчисленню - - +

Шість властивостей Yule більш-менш добре перевірені кожним із центральних значень. Якщо загалом середнє є кращим перед медіаною та режимом, необхідно враховувати особливості розподілу при виборі центральної величини і перш за все вказати, про що мова.

Знання центральних цінностей завжди цінне, оскільки дозволяє відразу уявити приблизну форму розподілу. Однак він не надає інформації про розподіл значень, тобто їх віддаленість від центральних значень. Тому необхідно супроводжувати кожне центральне значення параметром дисперсії.