АЛГОРИТМ КЛАСИФІКАЦІЇ В МАШИННОМУ НАВЧАННІ

Як ми знаємо, алгоритм керованого машинного навчання можна в цілому класифікувати на алгоритми регресії та класифікації. В алгоритмах регресії ми передбачили результат для безперервних значень, але щоб передбачити категоричні значення, нам потрібні алгоритми класифікації.

Що таке алгоритм класифікації?

Алгоритм класифікації – це методика навчання під керівництвом, яка використовується для визначення категорії нових спостережень на основі даних навчання. У класифікації програма вивчає дані набору даних або спостережень, а потім класифікує нові спостереження за кількома класами або групами. Як от, Так або Ні, 0 або 1, спам або не спам, кіт або пес, тощо. Класи можна називати цілями/мітками або категоріями.

структура колекції java

На відміну від регресії, вихідна змінна класифікації є категорією, а не значенням, наприклад «зелений або синій», «фрукт або тварина» тощо. Оскільки алгоритм класифікації є методикою навчання під керівництвом, отже, він приймає позначені вхідні дані, які означає, що він містить введення з відповідним виходом.

В алгоритмі класифікації дискретна вихідна функція (y) відображається на вхідній змінній (x).

 y=f(x), where y = categorical output

Найкращим прикладом алгоритму класифікації ML є Детектор електронного спаму .

Основною метою алгоритму класифікації є визначення категорії даного набору даних, і ці алгоритми в основному використовуються для прогнозування виходу для категоріальних даних.

Алгоритми класифікації можна краще зрозуміти, використовуючи діаграму нижче. На наведеній нижче діаграмі є два класи, клас A та клас B. Ці класи мають особливості, які схожі один на одного та відрізняються від інших класів.

Алгоритм класифікації в машинному навчанні

Алгоритм, який реалізує класифікацію набору даних, відомий як класифікатор. Існує два типи класифікацій:

Приклади:

приклад:

Учні в класифікаційних задачах:

У задачах класифікації є два типи учнів:

приклад:

Типи алгоритмів класифікації ML:

Алгоритми класифікації можна далі розділити на дві категорії:

Логістична регресія
Підтримуючі векторні машини

K-найближчі сусіди
Ядро SVM
Наївний Байєс
Класифікація дерева рішень
Випадкова класифікація лісу

Примітка: ми вивчимо наведені вище алгоритми в наступних розділах.

Оцінка моделі класифікації:

Після того, як наша модель завершена, необхідно оцінити її продуктивність; або це класифікаційна або регресійна модель. Отже, для оцінки моделі класифікації ми маємо такі способи:

обхід бінарного дерева поштою

1. Втрата журналу або втрата крос-ентропії:

Він використовується для оцінки продуктивності класифікатора, результатом якого є значення ймовірності між 0 і 1.
Для хорошої двійкової моделі класифікації значення втрати журналу має бути близьким до 0.
Значення втрат журналу збільшується, якщо прогнозоване значення відхиляється від фактичного значення.
Менші логарифмічні втрати означають вищу точність моделі.
Для двійкової класифікації крос-ентропію можна обчислити як:

 ?(ylog(p)+(1?y)log(1?p))

Де y = фактичний вихід, p = прогнозований випуск.

2. Матриця плутанини:

Матриця плутанини надає нам матрицю/таблицю як вихідні дані та описує продуктивність моделі.
Вона також відома як матриця помилок.
Матриця складається з результатів прогнозів у зведеній формі, яка містить загальну кількість правильних прогнозів і неправильних прогнозів. Матриця виглядає так, як у таблиці нижче:

	Справжній Позитив	Справжній негатив
Прогнозований позитивний	Справжній позитив	Хибно позитивний
Прогнозовано негативно	Помилково негативний	Справжній негатив

3. Крива AUC-ROC:

Крива ROC означає Крива робочих характеристик приймача і AUC означає Площа під кривою .
Це графік, який показує ефективність моделі класифікації при різних порогових значеннях.
Щоб візуалізувати продуктивність багатокласової моделі класифікації, ми використовуємо криву AUC-ROC.
Крива ROC будується з TPR і FPR, де TPR (частота справжніх позитивних результатів) на осі Y і FPR (частота помилкових позитивних результатів) на осі X.

Випадки використання алгоритмів класифікації

Алгоритми класифікації можна використовувати в різних місцях. Нижче наведено кілька популярних випадків використання алгоритмів класифікації:

Виявлення електронного спаму
Розпізнавання мови
Ідентифікація пухлинних клітин раку.
Класифікація лікарських засобів
Біометрична ідентифікація тощо.