Ієрархічна кластеризація відноситься до процедури неконтрольованого навчання, яка визначає послідовні кластери на основі попередньо визначених кластерів. Він працює через групування даних у дерево кластерів. Статистика ієрархічної кластеризації, розглядаючи кожну точку даних як окремий кластер. Кінцева точка відноситься до іншого набору кластерів, де кожен кластер відрізняється від іншого кластера, а об’єкти в кожному кластері однакові один з одним.
Існує два типи ієрархічної кластеризації
- Агломеративна ієрархічна кластеризація
- Роздільна кластеризація
Агломеративна ієрархічна кластеризація
Агломеративна кластеризація є одним із найпоширеніших типів ієрархічної кластеризації, яка використовується для групування схожих об’єктів у кластери. Агломеративна кластеризація також відома як AGNES (Agglomerative Nesting). В агломеративній кластеризації кожна точка даних діє як окремий кластер, і на кожному кроці об’єкти даних групуються методом «знизу вгору». Спочатку кожен об'єкт даних знаходиться у своєму кластері. На кожній ітерації кластери поєднуються з різними кластерами, поки не буде сформований один кластер.
Алгоритм агломеративної ієрархічної кластеризації
- Визначте подібність між індивідами та всіма іншими кластерами. (Знайти матрицю близькості).
- Розглядайте кожну точку даних як окремий кластер.
- Об’єднайте подібні кластери.
- Перерахуйте матрицю близькості для кожного кластера.
- Повторюйте кроки 3 і 4, поки не отримаєте єдиний кластер.
Давайте зрозуміємо це поняття за допомогою графічного представлення за допомогою дендрограми.
За допомогою наведеної демонстрації ми можемо зрозуміти, як працює фактичний алгоритм. Тут жодних розрахунків не проводилося, припускається вся близькість між кластерами.
Припустімо, що у нас є шість різних точок даних P, Q, R, S, T, V.
Крок 1:
Розглянемо кожен алфавіт (P, Q, R, S, T, V) як окремий кластер і знайдіть відстань між окремим кластером і всіма іншими кластерами.
крок 2:
Тепер об’єднайте порівнювані кластери в один кластер. Скажімо, кластер Q і кластер R схожі один на одного, щоб ми могли об’єднати їх на другому кроці. Нарешті ми отримуємо кластери [ (P), (QR), (ST), (V)]
крок 3:
Тут ми перераховуємо близькість відповідно до алгоритму та об’єднуємо два найближчі кластери [(ST), (V)] разом, щоб сформувати нові кластери як [(P), (QR), (STV)]
крок 4:
Повторіть той самий процес. Кластери STV і PQ порівнюються та об’єднуються, щоб утворити новий кластер. Тепер ми маємо [(P), (QQRSTV)].
крок 5:
Нарешті два кластери, що залишилися, об’єднуються, щоб утворити єдиний кластер [(PQRSTV)]
Роздільна ієрархічна кластеризація
Роздільна ієрархічна кластеризація є прямою протилежністю агломеративної ієрархічної кластеризації. У роздільній ієрархічній кластеризації всі точки даних вважаються окремим кластером, і на кожній ітерації точки даних, які не схожі, відокремлюються від кластера. Розділені точки даних розглядаються як окремий кластер. Нарешті, у нас залишилося N кластерів.
Переваги ієрархічної кластеризації
- Він простий у реалізації та в деяких випадках дає найкращий результат.
- Це легко і призводить до ієрархії, структури, яка містить більше інформації.
- Нам не потрібно попередньо вказувати кількість кластерів.
Недоліки ієрархічної кластеризації
- Розбиває великі грона.
- Важко працювати з кластерами різного розміру та опуклими формами.
- Він чутливий до шуму та викидів.
- Алгоритм ніколи не можна змінити або видалити, якщо це було зроблено раніше.