logo

Кластеризація в машинному навчанні

Кластеризація або кластерний аналіз — це техніка машинного навчання, яка групує набір даних без міток. Це можна визначити як «Спосіб групування точок даних у різні кластери, що складаються з подібних точок даних. Об'єкти з можливою подібністю залишаються в групі, яка має менше або зовсім не схожа з іншою групою.'

Це робиться шляхом знаходження деяких схожих шаблонів у немаркованому наборі даних, таких як форма, розмір, колір, поведінка тощо, і поділяє їх відповідно до наявності та відсутності цих подібних шаблонів.

Це ан навчання без контролю метод, отже, алгоритм не забезпечує нагляд, і він має справу з немаркованим набором даних.

Після застосування цієї техніки кластеризації кожному кластеру або групі надається ідентифікатор кластера. Система ML може використовувати цей ідентифікатор для спрощення обробки великих і складних наборів даних.

Техніка кластеризації зазвичай використовується для аналіз статистичних даних.

Примітка. Кластеризація десь схожа на алгоритм класифікації , але різниця полягає в типі набору даних, який ми використовуємо. У класифікації ми працюємо з позначеним набором даних, тоді як у кластеризації ми працюємо з непозначеним набором даних.

приклад : Давайте розберемося з технікою кластеризації на реальному прикладі Mall: коли ми відвідуємо будь-який торговий центр, ми можемо спостерігати, що речі зі схожим використанням згруповані разом. Наприклад, футболки згруповані в одному розділі, а штани – в інших розділах, так само в розділах овочів яблука, банани, манго тощо згруповані в окремі розділи, щоб ми могли легко знайти речі. Техніка кластеризації також працює таким же чином. Іншими прикладами кластеризації є групування документів відповідно до теми.

Техніка кластеризації може бути широко використана в різних завданнях. Деякі найпоширеніші способи використання цієї техніки:

  • Сегментація ринку
  • Статистичний аналіз даних
  • Аналіз соціальних мереж
  • Сегментація зображення
  • Виявлення аномалій тощо.

Крім цих загальних вживань, він використовується Amazon у своїй системі рекомендацій, щоб надати рекомендації відповідно до минулого пошуку продуктів. Netflix також використовує цю техніку, щоб рекомендувати своїм користувачам фільми та веб-серіали відповідно до історії переглядів.

Наведена нижче схема пояснює роботу алгоритму кластеризації. Ми бачимо, що різні фрукти поділяються на кілька груп зі схожими властивостями.

розрахунок терміну перебування в excel
Кластеризація в машинному навчанні

Види методів кластеризації

Методи кластеризації широко поділяються на Жорстка кластеризація (точка даних належить лише до однієї групи) і М'яка кластеризація (точки даних також можуть належати до іншої групи). Але існують і інші різноманітні підходи до кластеризації. Нижче наведено основні методи кластеризації, які використовуються в машинному навчанні.

    Кластеризація розділів Кластеризація на основі щільності Кластеризація на основі моделі розподілу Ієрархічна кластеризація Нечітка кластеризація

Кластеризація розділів

Це тип кластеризації, який розділяє дані на неієрархічні групи. Він також відомий як метод на основі центроїда . Найпоширенішим прикладом кластеризації розділів є Алгоритм кластеризації K-Means .

У цьому типі набір даних розділено на набір із k груп, де K використовується для визначення кількості попередньо визначених груп. Центр кластера створюється таким чином, щоб відстань між точками даних одного кластера була мінімальною порівняно з центроїдом іншого кластера.

Кластеризація в машинному навчанні

Кластеризація на основі щільності

Метод кластеризації на основі щільності з’єднує області з високою щільністю в кластери, а розподіли довільної форми формуються до тих пір, поки щільну область можна з’єднати. Цей алгоритм робить це, ідентифікуючи різні кластери в наборі даних і з’єднуючи області з високою щільністю в кластери. Щільні області в просторі даних розділені одна від одної розрідженими областями.

Ці алгоритми можуть зіткнутися з труднощами при кластеризації точок даних, якщо набір даних має різну щільність і високі розміри.

Кластеризація в машинному навчанні

Кластеризація на основі моделі розподілу

У методі кластеризації на основі моделі розподілу дані поділяються на основі ймовірності того, як набір даних належить до певного розподілу. Групування виконується, припускаючи деякі загальні розподіли Розподіл Гауса .

Прикладом цього типу є Алгоритм кластеризації очікування-максимізації який використовує моделі суміші Гауса (GMM).

Кластеризація в машинному навчанні

Ієрархічна кластеризація

Ієрархічну кластеризацію можна використовувати як альтернативу для розділеної кластеризації, оскільки немає вимоги попередньо вказувати кількість створюваних кластерів. У цій техніці набір даних ділиться на кластери для створення деревоподібної структури, яка також називається a дендрограма . Спостереження або будь-яку кількість кластерів можна вибрати, розрізавши дерево на правильному рівні. Найпоширенішим прикладом цього методу є Агломеративний ієрархічний алгоритм .

Кластеризація в машинному навчанні

Нечітка кластеризація

Нечітка кластеризація — це тип м’якого методу, у якому об’єкт даних може належати більш ніж одній групі чи кластеру. Кожен набір даних має набір коефіцієнтів приналежності, які залежать від ступеня приналежності до кластера. Алгоритм нечітких C-середніх є прикладом цього типу кластеризації; іноді його також називають алгоритмом нечітких k-середніх.

Алгоритми кластеризації

Алгоритми кластеризації можна розділити на основі їх моделей, які пояснюються вище. Опубліковано різні типи алгоритмів кластеризації, але лише деякі з них широко використовуються. Алгоритм кластеризації базується на типі даних, які ми використовуємо. Наприклад, деяким алгоритмам потрібно вгадати кількість кластерів у даному наборі даних, тоді як деяким потрібно знайти мінімальну відстань між спостереженнями набору даних.

Тут ми обговорюємо в основному популярні алгоритми кластеризації, які широко використовуються в машинному навчанні:

    Алгоритм K-Means:Алгоритм k-середніх є одним із найпопулярніших алгоритмів кластеризації. Він класифікує набір даних, розділяючи вибірки на різні кластери з рівними дисперсіями. У цьому алгоритмі необхідно вказати кількість кластерів. Він швидкий, вимагає менше обчислень, має лінійну складність O(n). Алгоритм середнього зсуву:Алгоритм середнього зсуву намагається знайти щільні області в гладкій щільності точок даних. Це приклад моделі на основі центроїда, яка працює над оновленням кандидатів на центроїд як центр точок у певному регіоні.Алгоритм DBSCAN:Воно стоїть для просторової кластеризації додатків із шумом на основі щільності . Це приклад моделі на основі щільності, подібної до середнього зсуву, але з деякими чудовими перевагами. У цьому алгоритмі області високої щільності розділені областями низької щільності. Завдяки цьому кластери можуть мати будь-яку довільну форму.Кластеризація очікувань-максимізації за допомогою GMM:Цей алгоритм можна використовувати як альтернативу для алгоритму k-середніх або для тих випадків, коли K-середні можуть бути невдалими. У GMM передбачається, що точки даних є розподіленими за Гаусом.Агломеративний ієрархічний алгоритм:Агломеративний ієрархічний алгоритм виконує ієрархічну кластеризацію знизу вгору. У цьому випадку кожна точка даних розглядається як один кластер на початку, а потім послідовно об’єднується. Кластерну ієрархію можна представити у вигляді деревоподібної структури.Поширення афінності:Він відрізняється від інших алгоритмів кластеризації тим, що не вимагає вказувати кількість кластерів. У цьому випадку кожна точка даних надсилає повідомлення між парою точок даних до зближення. Він має O(N2Т) часова складність, що є основним недоліком цього алгоритму.

Застосування кластеризації

Нижче наведено деякі загальновідомі застосування техніки кластеризації в машинному навчанні:

    В ідентифікації ракових клітин:Алгоритми кластеризації широко використовуються для ідентифікації ракових клітин. Він поділяє набори даних ракових і неракових захворювань на різні групи.У пошукових системах:Пошукові системи також працюють на методі кластеризації. Результат пошуку відображається на основі найближчого об’єкта до пошукового запиту. Це робиться шляхом групування подібних об’єктів даних в одну групу, яка знаходиться далеко від інших несхожих об’єктів. Точний результат запиту залежить від якості використаного алгоритму кластеризації.Сегментація клієнтів:Він використовується в дослідженні ринку для сегментації клієнтів на основі їх вибору та переваг.в біології:Він використовується в біології для класифікації різних видів рослин і тварин за допомогою техніки розпізнавання зображень.У землекористуванні:Техніка кластеризації використовується для визначення площ подібного землекористування в базі даних ГІС. Це може бути дуже корисним для визначення того, для якої мети слід використовувати конкретну землю, тобто для якої мети вона більше підходить.