Омалала - PDF скачати безкоштовно

Імпорт даних, опис ДАНІ 2

Імпорт файлу даних, описової статистики та графіки # модифікація папки за замовчуванням import os.chdir (") #data import import import pandas fromage = pandas.read_table ("fromage.txt", sep = "\ t", header = 0, index_col = 0) # друк розмірних даних (fromage.shape) # друк описової статистики (fromage.describe ()) #graphic - двократне перетинання змінних з pandas.tools.plotting імпорт scatter_matrix scatter_matrix (сир, figsize = (9,9)) Цей тип графіків ніколи не є нешкідливим. Наприклад, ми зазначаємо, що (1) "ліпіди" суттєво корелюють з "калоріями" та "холестерином" (без надто багато сюрпризів) (примітка: одна і та ж інформація буде важити в аналізі 3 рази); (2) у певних конфігураціях групи здаються природними (наприклад, схрещування “білків” та “холестерину” з досить помітною міжгруповою кореляцією). 4

Ієрархічна зростаюча класифікація CAH 5

Ієрархічна зростаюча класифікація Використовуючи пакет "scipy" # бібліотеки заливають CAH з matplotlib import pyplot як plt з scipy.cluster.hierarchy import dendrogram, linkage # генерують матрицю посилань Z = linkage (fromage_cr, method = 'ward', metric = 'euclidean') # відображення дендрограми plt.title ("cah") дендрограма (z, labels = fromage.index, direction = 'left', color_threshold = 0) plt.show () Дендрограма "пропонує" розкол в 4 групи. Ми зазначаємо, що клас сирів, “свіжі сири” (вкрай ліворуч), виділяється серед інших до такої міри, що ми також могли розглянути поділ лише на 2 групи. Ми повернемось до цього більш детально, коли змішаємо аналіз з аналізом основних компонентів (PCA). 6

Метод мобільного центру K-MEANS 8

Метод Мобільного центру допомагає у виявленні достатньої кількості груп K-MEANS, на відміну від CAH, не надає допоміжних засобів для виявлення кількості класів. Ми повинні програмувати їх на Python або використовувати процедури, запропоновані спеціальними пакетами. Діаграма часто однакова: одна варіює кількість груп, а одна стежить за розвитком показника якості рішення, тобто. здатність індивідів бути ближче до споріднених людей тієї самої групи, ніж до осіб інших груп. Далі метрика “силует” обчислюється для різної кількості груп, отриманих в результаті методу рухомого центру. # бібліотека для оцінки розділів з метрик імпорту sklearn # використання метрики "силует" # змінюйте кількість кластерів від 2 до 10 res = np.arange (9, dtype = "double") для k у np.arange (9): km = cluster.kmeans (n_clusters = k + 2) km.fit (fromage_cr) res [k] = metrics.silhouette_score (fromage_cr, km.labels_) print (res) #graphic import matplotlib.pyplot as plt plt. title ( "silhouette") plt.xlabel ("# кластерів") plt.plot (np.arange (2,11,1), res) plt.show () Розділ у k = 2 групах здається найкращим у сенсі метрика “силует”. Примітка: Це дивно, але ми не мали однакових результатів під R. 10

Одновимірний та багатовимірний аналізи Тлумачення класів 11

Інтерпретація класів Аналіз основних компонентів (PCA) За допомогою PCA ми враховуємо зв’язок між змінними. Аналіз багатший. Але ви повинні знати, як правильно читати виходи PCA. # ACP з sklearn.decomposition import PCA acp = PCA (n_components = 2) .fit_transform (fromage_cr) #project у факторіальній площині # з іншим кольоровим кодом відповідно до групи # примітка про роль zip () у циклі for for, k у zip (['червоний', 'синій', 'газовий екран', 'аква'], [0,1,2,3]): plt.scatter (acp [kmeans.labels _ == k, 0], acp [kmeans.labels _ == k, 1], c = color) plt.show () Виникла проблема. Група свіжих сирів (група n = 0) перезаписує наявну інформацію та упаковує інші сири в блок, який орієнтований інакше. Насправді, якщо ми розуміємо природу групи n 0 свіжих сирів, інші складніше зрозуміти, коли їх розміщують у першій факторіальній площині. 13

У світлі результатів PCA ЗАВЕРШИТИ АНАЛІЗ 14