Кластеризація або кластерний аналіз — це техніка машинного навчання, яка групує набір даних без міток. Це можна визначити як «Спосіб групування точок даних у різні кластери, що складаються з подібних точок даних. Об'єкти з можливою подібністю залишаються в групі, яка має менше або зовсім не схожа з іншою групою.'
Це робиться шляхом знаходження деяких схожих шаблонів у немаркованому наборі даних, таких як форма, розмір, колір, поведінка тощо, і поділяє їх відповідно до наявності та відсутності цих подібних шаблонів.
Це ан навчання без контролю метод, отже, алгоритм не забезпечує нагляд, і він має справу з немаркованим набором даних.
Після застосування цієї техніки кластеризації кожному кластеру або групі надається ідентифікатор кластера. Система ML може використовувати цей ідентифікатор для спрощення обробки великих і складних наборів даних.
Техніка кластеризації зазвичай використовується для аналіз статистичних даних.
Примітка. Кластеризація десь схожа на алгоритм класифікації , але різниця полягає в типі набору даних, який ми використовуємо. У класифікації ми працюємо з позначеним набором даних, тоді як у кластеризації ми працюємо з непозначеним набором даних.
приклад : Давайте розберемося з технікою кластеризації на реальному прикладі Mall: коли ми відвідуємо будь-який торговий центр, ми можемо спостерігати, що речі зі схожим використанням згруповані разом. Наприклад, футболки згруповані в одному розділі, а штани – в інших розділах, так само в розділах овочів яблука, банани, манго тощо згруповані в окремі розділи, щоб ми могли легко знайти речі. Техніка кластеризації також працює таким же чином. Іншими прикладами кластеризації є групування документів відповідно до теми.
Техніка кластеризації може бути широко використана в різних завданнях. Деякі найпоширеніші способи використання цієї техніки:
- Сегментація ринку
- Статистичний аналіз даних
- Аналіз соціальних мереж
- Сегментація зображення
- Виявлення аномалій тощо.
Крім цих загальних вживань, він використовується Amazon у своїй системі рекомендацій, щоб надати рекомендації відповідно до минулого пошуку продуктів. Netflix також використовує цю техніку, щоб рекомендувати своїм користувачам фільми та веб-серіали відповідно до історії переглядів.
Наведена нижче схема пояснює роботу алгоритму кластеризації. Ми бачимо, що різні фрукти поділяються на кілька груп зі схожими властивостями.
розрахунок терміну перебування в excel
Види методів кластеризації
Методи кластеризації широко поділяються на Жорстка кластеризація (точка даних належить лише до однієї групи) і М'яка кластеризація (точки даних також можуть належати до іншої групи). Але існують і інші різноманітні підходи до кластеризації. Нижче наведено основні методи кластеризації, які використовуються в машинному навчанні.
Кластеризація розділів
Це тип кластеризації, який розділяє дані на неієрархічні групи. Він також відомий як метод на основі центроїда . Найпоширенішим прикладом кластеризації розділів є Алгоритм кластеризації K-Means .
У цьому типі набір даних розділено на набір із k груп, де K використовується для визначення кількості попередньо визначених груп. Центр кластера створюється таким чином, щоб відстань між точками даних одного кластера була мінімальною порівняно з центроїдом іншого кластера.
Кластеризація на основі щільності
Метод кластеризації на основі щільності з’єднує області з високою щільністю в кластери, а розподіли довільної форми формуються до тих пір, поки щільну область можна з’єднати. Цей алгоритм робить це, ідентифікуючи різні кластери в наборі даних і з’єднуючи області з високою щільністю в кластери. Щільні області в просторі даних розділені одна від одної розрідженими областями.
Ці алгоритми можуть зіткнутися з труднощами при кластеризації точок даних, якщо набір даних має різну щільність і високі розміри.
Кластеризація на основі моделі розподілу
У методі кластеризації на основі моделі розподілу дані поділяються на основі ймовірності того, як набір даних належить до певного розподілу. Групування виконується, припускаючи деякі загальні розподіли Розподіл Гауса .
Прикладом цього типу є Алгоритм кластеризації очікування-максимізації який використовує моделі суміші Гауса (GMM).
Ієрархічна кластеризація
Ієрархічну кластеризацію можна використовувати як альтернативу для розділеної кластеризації, оскільки немає вимоги попередньо вказувати кількість створюваних кластерів. У цій техніці набір даних ділиться на кластери для створення деревоподібної структури, яка також називається a дендрограма . Спостереження або будь-яку кількість кластерів можна вибрати, розрізавши дерево на правильному рівні. Найпоширенішим прикладом цього методу є Агломеративний ієрархічний алгоритм .
Нечітка кластеризація
Нечітка кластеризація — це тип м’якого методу, у якому об’єкт даних може належати більш ніж одній групі чи кластеру. Кожен набір даних має набір коефіцієнтів приналежності, які залежать від ступеня приналежності до кластера. Алгоритм нечітких C-середніх є прикладом цього типу кластеризації; іноді його також називають алгоритмом нечітких k-середніх.
Алгоритми кластеризації
Алгоритми кластеризації можна розділити на основі їх моделей, які пояснюються вище. Опубліковано різні типи алгоритмів кластеризації, але лише деякі з них широко використовуються. Алгоритм кластеризації базується на типі даних, які ми використовуємо. Наприклад, деяким алгоритмам потрібно вгадати кількість кластерів у даному наборі даних, тоді як деяким потрібно знайти мінімальну відстань між спостереженнями набору даних.
Тут ми обговорюємо в основному популярні алгоритми кластеризації, які широко використовуються в машинному навчанні:
Застосування кластеризації
Нижче наведено деякі загальновідомі застосування техніки кластеризації в машинному навчанні: