Доповідач Стефані Ян СС 2007 - ppt відео онлайн завантажити

Доповідач: Стефані Ян СС 2007 Кластерний аналіз Спікер: Стефані Ян СС 2007

1. Аналіз проблем неоднорідної сукупності об’єктів Мета: Визначити однорідні підмножини об’єктів із загальної суми об’єктів Кластерний аналіз має різні методи формування груп

Попередні міркування Кількість об'єктів повинна бути репрезентативною у випадкових вибірках Виключити/виключити викиди, враховувати лише відповідні характеристики Рівне зважування характеристик -> виключати кореляції через ризик спотворення Немає постійних характеристик у вихідній матриці -> ризик спотворень Масштабуйте рівні вихідних даних

Відсутні значення Значення даних слід очистити від відсутніх значень Виключення: - Змінних з великою кількістю відсутніх значень - Випадків із відсутніми значеннями для змінних -> Проблема: Зменшення кількості випадків, заміна відсутніх значень на середні значення -> Проблема: Спотворення подій, якщо занадто часті випадки

2. Процедура 2.1. Визначення подібності 2.1.1. Структура двійкової змінної 2.1.2. Метрична змінна структура 2.1.3. Змішана масштабована змінна структура 2.2. Вибір алгоритму злиття 2.2.1. Методи розділення 2.2.2. Ієрархічні процедури 2.3. Визначення кількості скупчень

2.1. Визначення подібності Початкова точка: матриця необроблених даних із K-об’єктами, які описуються змінними J. Матриця містить міри близькості (= міри подібності та несхожості)

2.1.1. Порівняння пари двійкової структури змінної: значення властивостей порівнюються між собою для 2 об’єктів

Танімото, коефіцієнти RR та M

Використання: якщо неіснування характеристики є релевантним (наприклад, для статі: 1 = чоловік, 0 = жінка), то використання, наприклад, М-коефіцієнта, якщо відсутність характеристики не має значення, тоді існує тенденція до коефіцієнта Танімото або Жакара.

Використання коефіцієнтів подібності для багаторівневих змінних:

2.1.2. Метрична змінна структура Метрики Мінковського або стандарти L, широко використовувані вимірювання відстані Різниця між властивостями пар об'єктів, поділена на абсолютні значення різниці

r = 1 - метрика міського блоку: = I1-2I + I2-3I + I1-3I = 1 + 1 + 2 = 4 з нормою L1, всі значення різниці враховані в розрахунку з однаковою вагою = найбільша подібність; = найбільша несхожість

r = 2 - евклідова відстань: = I1-2I2 + I2-3I2 + I1-3I2 = 12 + 12 + 22 = 6 більше врахування великих значень різниці шляхом квадратування

Результат: Вибір міри відстані впливає на порядок подібності об'єктів, що підлягають обстеженню Важливо: необхідно використовувати порівнянні одиниці виміру -> інакше стандартизація!

Коефіцієнт Q-кореляції обчислює схожість між 2 об'єктами з урахуванням усіх змінних об'єкта = найбільша подібність; = найбільша несхожість

Чому Рама та Різдвяне масло найподібніші за метрикою Мінковського, але найбільш подібні за коефіцієнтом кореляції Q? Використання вимірювань відстані, якщо абсолютна відстань між об’єктами представляє інтерес, і не схожість збільшується із збільшенням відстані -> наприклад, подібний розмір/рівень продажів з часом Використання заходів вимірювання схожості, коли мова йде про аспект подібності при синхронізації двох профілів, незалежно від рівня -> напр. подібний розвиток продажів з часом

2.1.3. Змішана масштабована структура змінних A) Для метричних та неметричних змінних коефіцієнти або відстані подібності обчислюються окремо. Загальна подібність = незважене або зважене середнє значення обчислених змінних

наприклад: Рама та Флора: відстань М-коефіцієнта = 1-0,7 = 0,3 для метр. Властивості квадрата евклідової відстані = 4 => незважений арифмет. Середнє: 2,15 => зважування відповідно до метр. та неметр. відстань

Б) Перетворення з вищого на нижчий рівень шкали Дихотомізація: Ціна до 1,59 € = 0, від 1,60 € = 1 = велика втрата інформації, довільна. Визначення інтерфейсу? Інтервали у формі або: ціна більше 1,40 €? так = 1, ні = 0 Ціна більше 1,70 €? так = 1, ні = 0 ... чим менший діапазон класів, тим менша втрата інформації, ризик спотворення через неправильне зважування

2.2. Вибір алгоритму злиття Комбінація в групи на основі значень подібності (агломеративний) кластерний аналіз узагальнює розглянуті випадки, поки всі випадки остаточно не містяться в групі можливої диференціації методів розділення ієрархічних методів

2.2.1. Методи секціонування, заздалегідь визначене групування, засновані на заданому групуванні об'єктів, перегрупуванні за допомогою алгоритму обміну між групами до оптимального

Припинити кластеризацію, коли всі об’єкти припиняються кластеризацією, коли всі об’єкти припиняються. їх переміщення було досліджено, і неможливо досягти покращення критерію дисперсії -> повинно відбутися припинення, інакше занадто багато варіантів -> досягнуто місцевих оптимумів замість глобальних оптимумів 2 проблеми рішення із "зміною стартового розділу": 1. Визначте, у скільки груп об'єктів знаходиться мають бути розподілені 2. Визначте режим, згідно з яким об’єкти мають розподілятися серед початкових груп (використовуючи таблицю випадкових чисел, відповідно до порядку їх нумерації, ...)

Методи секціонування характеризуються більшою мінливістю порівняно з агломеративними ієрархічними методами. Методи секціонування менш поширені в практичному застосуванні

2. 2. 2. Ієрархічні процедури 2. 2. 2. 1 2.2.2. Ієрархічні процедури 2.2.2.1. Агломераційний процес Агломераційний процес - найкращий розділ є вихідною точкою -> групування

Відмінності між aggl. Відмінності між aggl. Процедури випливають лише з того, як визначаються відстані Відстань між об'єктами P + Q до будь-якої групи R: D (R, P + Q) = A * D (R, P) + B * D (R, Q) + E * D (P, Q) + G * ID (R; P) -D (R, Q) I з: D (R, P): відстань між групами R і PD (R, Q): відстань між групами R і QD (P, Q): Відстань між групами P і Q

об’єднує об’єкти, що мають найменшу відстань 2.2.2.2. Процедура процедур “Single-Linkage”, “Complete Linkkage” та “Ward”. Процедура Single Linkage поєднує об’єкти, що мають найменшу відстань: Найближча процедура сусідів SLV завжди малює найменше значення як нову відстань між двома групами Індивідуальний підхід на відстані -> тому підходить для розпізнавання "випадаючих", схильний утворювати багато малих і не дуже великих груп -> тенденція до формування ланцюгів

Метод повного зв’язку Найбільші відстані використовуються як відстані = метод найдальшого сусіда Відстань тепер відповідає найбільшій окремій відстані

швидше схильний утворювати невеликі групи, непридатні для виявлення «викидів» через використання найбільших відстаней окремих значень

Метод Уорда Мета: об’єднати ті об’єкти, які якомога менше збільшують розкид групи -> тим самим створюючи якомога однорідніші кластери як міру неоднорідності, використовується критерій дисперсії = сума похибок квадратів (FQS) Розрахунок квадрату. Евклід. Відстань між усіма об'єктами FQS на першому кроці = 0, оскільки кожен об'єкт має власну групу -> ще не розсіяну

4 * 0,5 = 2 (= FQS) 6,667 * 0,5 = 3,333 3,333 + 2 = 5,333 11 * 0,5 = 5,5 5,5 + 5,333 = 10,833

Метод Уорда використовує вимірювання відстані, змінні повинні бути метричними, без відхилень, некорельованих змінних, важливим очікуванням груп однакового розміру. видовжені групи або групи з невеликою кількістю елементів, що не впізнаються. Рекомендація: - SLV спершу знайдіть викиди - "Усуньте" викиди - Повторно вивчіть зменшену кількість об’єктів іншим агломеративним методом - Метод повинен бути обраний на тлі відповідної ситуації застосування

2.3. Визначення кількості кластерів Рішення щодо того, яка кількість кластерів є "найкращим" рішенням, і яке слід використовувати Вирішення конфлікту цілей між керованістю та вимогою однорідності є сумою помилок квадратів у методі Уорда) графічне уточнення забезпечується дендрограмою

Розвиток неоднорідності побудований на основі сукупності кластерів у системі координат -> 4-кластерне рішення