Як ми знаємо, алгоритм керованого машинного навчання можна в цілому класифікувати на алгоритми регресії та класифікації. В алгоритмах регресії ми передбачили результат для безперервних значень, але щоб передбачити категоричні значення, нам потрібні алгоритми класифікації.
Що таке алгоритм класифікації?
Алгоритм класифікації – це методика навчання під керівництвом, яка використовується для визначення категорії нових спостережень на основі даних навчання. У класифікації програма вивчає дані набору даних або спостережень, а потім класифікує нові спостереження за кількома класами або групами. Як от, Так або Ні, 0 або 1, спам або не спам, кіт або пес, тощо. Класи можна називати цілями/мітками або категоріями.
структура колекції java
На відміну від регресії, вихідна змінна класифікації є категорією, а не значенням, наприклад «зелений або синій», «фрукт або тварина» тощо. Оскільки алгоритм класифікації є методикою навчання під керівництвом, отже, він приймає позначені вхідні дані, які означає, що він містить введення з відповідним виходом.
В алгоритмі класифікації дискретна вихідна функція (y) відображається на вхідній змінній (x).
y=f(x), where y = categorical output
Найкращим прикладом алгоритму класифікації ML є Детектор електронного спаму .
Основною метою алгоритму класифікації є визначення категорії даного набору даних, і ці алгоритми в основному використовуються для прогнозування виходу для категоріальних даних.
Алгоритми класифікації можна краще зрозуміти, використовуючи діаграму нижче. На наведеній нижче діаграмі є два класи, клас A та клас B. Ці класи мають особливості, які схожі один на одного та відрізняються від інших класів.
Алгоритм, який реалізує класифікацію набору даних, відомий як класифікатор. Існує два типи класифікацій:
Приклади: ТАК чи НІ, ЧОЛОВІК чи ЖІНКА, СПАМ чи НЕ СПАМ, КІТ чи СОБАКА тощо.
приклад: Класифікації видів сільськогосподарських культур, Класифікація видів музики.
Учні в класифікаційних задачах:
У задачах класифікації є два типи учнів:
приклад: Алгоритм K-NN, міркування на основі випадків
Типи алгоритмів класифікації ML:
Алгоритми класифікації можна далі розділити на дві категорії:
- Логістична регресія
- Підтримуючі векторні машини
- K-найближчі сусіди
- Ядро SVM
- Наївний Байєс
- Класифікація дерева рішень
- Випадкова класифікація лісу
Примітка: ми вивчимо наведені вище алгоритми в наступних розділах.
Оцінка моделі класифікації:
Після того, як наша модель завершена, необхідно оцінити її продуктивність; або це класифікаційна або регресійна модель. Отже, для оцінки моделі класифікації ми маємо такі способи:
обхід бінарного дерева поштою
1. Втрата журналу або втрата крос-ентропії:
- Він використовується для оцінки продуктивності класифікатора, результатом якого є значення ймовірності між 0 і 1.
- Для хорошої двійкової моделі класифікації значення втрати журналу має бути близьким до 0.
- Значення втрат журналу збільшується, якщо прогнозоване значення відхиляється від фактичного значення.
- Менші логарифмічні втрати означають вищу точність моделі.
- Для двійкової класифікації крос-ентропію можна обчислити як:
?(ylog(p)+(1?y)log(1?p))
Де y = фактичний вихід, p = прогнозований випуск.
2. Матриця плутанини:
- Матриця плутанини надає нам матрицю/таблицю як вихідні дані та описує продуктивність моделі.
- Вона також відома як матриця помилок.
- Матриця складається з результатів прогнозів у зведеній формі, яка містить загальну кількість правильних прогнозів і неправильних прогнозів. Матриця виглядає так, як у таблиці нижче:
Справжній Позитив | Справжній негатив | |
---|---|---|
Прогнозований позитивний | Справжній позитив | Хибно позитивний |
Прогнозовано негативно | Помилково негативний | Справжній негатив |
3. Крива AUC-ROC:
- Крива ROC означає Крива робочих характеристик приймача і AUC означає Площа під кривою .
- Це графік, який показує ефективність моделі класифікації при різних порогових значеннях.
- Щоб візуалізувати продуктивність багатокласової моделі класифікації, ми використовуємо криву AUC-ROC.
- Крива ROC будується з TPR і FPR, де TPR (частота справжніх позитивних результатів) на осі Y і FPR (частота помилкових позитивних результатів) на осі X.
Випадки використання алгоритмів класифікації
Алгоритми класифікації можна використовувати в різних місцях. Нижче наведено кілька популярних випадків використання алгоритмів класифікації:
- Виявлення електронного спаму
- Розпізнавання мови
- Ідентифікація пухлинних клітин раку.
- Класифікація лікарських засобів
- Біометрична ідентифікація тощо.