КЛАСТЕРИЗАЦІЯ В МАШИННОМУ НАВЧАННІ

Кластеризація або кластерний аналіз — це техніка машинного навчання, яка групує набір даних без міток. Це можна визначити як «Спосіб групування точок даних у різні кластери, що складаються з подібних точок даних. Об'єкти з можливою подібністю залишаються в групі, яка має менше або зовсім не схожа з іншою групою.'

Це робиться шляхом знаходження деяких схожих шаблонів у немаркованому наборі даних, таких як форма, розмір, колір, поведінка тощо, і поділяє їх відповідно до наявності та відсутності цих подібних шаблонів.

Це ан навчання без контролю метод, отже, алгоритм не забезпечує нагляд, і він має справу з немаркованим набором даних.

Після застосування цієї техніки кластеризації кожному кластеру або групі надається ідентифікатор кластера. Система ML може використовувати цей ідентифікатор для спрощення обробки великих і складних наборів даних.

Техніка кластеризації зазвичай використовується для аналіз статистичних даних.

Примітка. Кластеризація десь схожа на алгоритм класифікації , але різниця полягає в типі набору даних, який ми використовуємо. У класифікації ми працюємо з позначеним набором даних, тоді як у кластеризації ми працюємо з непозначеним набором даних.

приклад : Давайте розберемося з технікою кластеризації на реальному прикладі Mall: коли ми відвідуємо будь-який торговий центр, ми можемо спостерігати, що речі зі схожим використанням згруповані разом. Наприклад, футболки згруповані в одному розділі, а штани – в інших розділах, так само в розділах овочів яблука, банани, манго тощо згруповані в окремі розділи, щоб ми могли легко знайти речі. Техніка кластеризації також працює таким же чином. Іншими прикладами кластеризації є групування документів відповідно до теми.

Техніка кластеризації може бути широко використана в різних завданнях. Деякі найпоширеніші способи використання цієї техніки:

Сегментація ринку
Статистичний аналіз даних
Аналіз соціальних мереж
Сегментація зображення
Виявлення аномалій тощо.

Крім цих загальних вживань, він використовується Amazon у своїй системі рекомендацій, щоб надати рекомендації відповідно до минулого пошуку продуктів. Netflix також використовує цю техніку, щоб рекомендувати своїм користувачам фільми та веб-серіали відповідно до історії переглядів.

Наведена нижче схема пояснює роботу алгоритму кластеризації. Ми бачимо, що різні фрукти поділяються на кілька груп зі схожими властивостями.

розрахунок терміну перебування в excel

Види методів кластеризації

Методи кластеризації широко поділяються на Жорстка кластеризація (точка даних належить лише до однієї групи) і М'яка кластеризація (точки даних також можуть належати до іншої групи). Але існують і інші різноманітні підходи до кластеризації. Нижче наведено основні методи кластеризації, які використовуються в машинному навчанні.

Кластеризація розділів Кластеризація на основі щільності Кластеризація на основі моделі розподілу Ієрархічна кластеризація Нечітка кластеризація

Кластеризація розділів

Це тип кластеризації, який розділяє дані на неієрархічні групи. Він також відомий як метод на основі центроїда . Найпоширенішим прикладом кластеризації розділів є Алгоритм кластеризації K-Means .

У цьому типі набір даних розділено на набір із k груп, де K використовується для визначення кількості попередньо визначених груп. Центр кластера створюється таким чином, щоб відстань між точками даних одного кластера була мінімальною порівняно з центроїдом іншого кластера.

Кластеризація на основі щільності

Метод кластеризації на основі щільності з’єднує області з високою щільністю в кластери, а розподіли довільної форми формуються до тих пір, поки щільну область можна з’єднати. Цей алгоритм робить це, ідентифікуючи різні кластери в наборі даних і з’єднуючи області з високою щільністю в кластери. Щільні області в просторі даних розділені одна від одної розрідженими областями.

Ці алгоритми можуть зіткнутися з труднощами при кластеризації точок даних, якщо набір даних має різну щільність і високі розміри.

Кластеризація на основі моделі розподілу

У методі кластеризації на основі моделі розподілу дані поділяються на основі ймовірності того, як набір даних належить до певного розподілу. Групування виконується, припускаючи деякі загальні розподіли Розподіл Гауса .

Прикладом цього типу є Алгоритм кластеризації очікування-максимізації який використовує моделі суміші Гауса (GMM).

Ієрархічна кластеризація

Ієрархічну кластеризацію можна використовувати як альтернативу для розділеної кластеризації, оскільки немає вимоги попередньо вказувати кількість створюваних кластерів. У цій техніці набір даних ділиться на кластери для створення деревоподібної структури, яка також називається a дендрограма . Спостереження або будь-яку кількість кластерів можна вибрати, розрізавши дерево на правильному рівні. Найпоширенішим прикладом цього методу є Агломеративний ієрархічний алгоритм .

Нечітка кластеризація

Нечітка кластеризація — це тип м’якого методу, у якому об’єкт даних може належати більш ніж одній групі чи кластеру. Кожен набір даних має набір коефіцієнтів приналежності, які залежать від ступеня приналежності до кластера. Алгоритм нечітких C-середніх є прикладом цього типу кластеризації; іноді його також називають алгоритмом нечітких k-середніх.

Алгоритми кластеризації

Алгоритми кластеризації можна розділити на основі їх моделей, які пояснюються вище. Опубліковано різні типи алгоритмів кластеризації, але лише деякі з них широко використовуються. Алгоритм кластеризації базується на типі даних, які ми використовуємо. Наприклад, деяким алгоритмам потрібно вгадати кількість кластерів у даному наборі даних, тоді як деяким потрібно знайти мінімальну відстань між спостереженнями набору даних.

Тут ми обговорюємо в основному популярні алгоритми кластеризації, які широко використовуються в машинному навчанні:

O(n).

для просторової кластеризації додатків із шумом на основі щільності

Застосування кластеризації

Нижче наведено деякі загальновідомі застосування техніки кластеризації в машинному навчанні:

В ідентифікації ракових клітин:Алгоритми кластеризації широко використовуються для ідентифікації ракових клітин. Він поділяє набори даних ракових і неракових захворювань на різні групи.У пошукових системах:Пошукові системи також працюють на методі кластеризації. Результат пошуку відображається на основі найближчого об’єкта до пошукового запиту. Це робиться шляхом групування подібних об’єктів даних в одну групу, яка знаходиться далеко від інших несхожих об’єктів. Точний результат запиту залежить від якості використаного алгоритму кластеризації.Сегментація клієнтів:Він використовується в дослідженні ринку для сегментації клієнтів на основі їх вибору та переваг.в біології:Він використовується в біології для класифікації різних видів рослин і тварин за допомогою техніки розпізнавання зображень.У землекористуванні:Техніка кластеризації використовується для визначення площ подібного землекористування в базі даних ГІС. Це може бути дуже корисним для визначення того, для якої мети слід використовувати конкретну землю, тобто для якої мети вона більше підходить.

TechCodeview

Кластеризація в машинному навчанні