logo

Алгоритм класифікації в машинному навчанні

Як ми знаємо, алгоритм керованого машинного навчання можна в цілому класифікувати на алгоритми регресії та класифікації. В алгоритмах регресії ми передбачили результат для безперервних значень, але щоб передбачити категоричні значення, нам потрібні алгоритми класифікації.

Що таке алгоритм класифікації?

Алгоритм класифікації – це методика навчання під керівництвом, яка використовується для визначення категорії нових спостережень на основі даних навчання. У класифікації програма вивчає дані набору даних або спостережень, а потім класифікує нові спостереження за кількома класами або групами. Як от, Так або Ні, 0 або 1, спам або не спам, кіт або пес, тощо. Класи можна називати цілями/мітками або категоріями.

структура колекції java

На відміну від регресії, вихідна змінна класифікації є категорією, а не значенням, наприклад «зелений або синій», «фрукт або тварина» тощо. Оскільки алгоритм класифікації є методикою навчання під керівництвом, отже, він приймає позначені вхідні дані, які означає, що він містить введення з відповідним виходом.

В алгоритмі класифікації дискретна вихідна функція (y) відображається на вхідній змінній (x).

 y=f(x), where y = categorical output 

Найкращим прикладом алгоритму класифікації ML є Детектор електронного спаму .

Основною метою алгоритму класифікації є визначення категорії даного набору даних, і ці алгоритми в основному використовуються для прогнозування виходу для категоріальних даних.

Алгоритми класифікації можна краще зрозуміти, використовуючи діаграму нижче. На наведеній нижче діаграмі є два класи, клас A та клас B. Ці класи мають особливості, які схожі один на одного та відрізняються від інших класів.

Алгоритм класифікації в машинному навчанні

Алгоритм, який реалізує класифікацію набору даних, відомий як класифікатор. Існує два типи класифікацій:

    Бінарний класифікатор:Якщо проблема класифікації має лише два можливі результати, тоді вона називається двійковим класифікатором.
    Приклади: ТАК чи НІ, ЧОЛОВІК чи ЖІНКА, СПАМ чи НЕ СПАМ, КІТ чи СОБАКА тощо.Мультикласовий класифікатор:Якщо проблема класифікації має більше двох результатів, вона називається багатокласовим класифікатором.
    приклад: Класифікації видів сільськогосподарських культур, Класифікація видів музики.

Учні в класифікаційних задачах:

У задачах класифікації є два типи учнів:

    Ліниві учні:Lazy Learner спочатку зберігає навчальний набір даних і чекає, поки не отримає тестовий набір даних. У випадку ледачого учня класифікація виконується на основі найбільш пов’язаних даних, що зберігаються в наборі навчальних даних. Потрібно менше часу на навчання, але більше часу на прогнози.
    приклад: Алгоритм K-NN, міркування на основі випадківБажаючі навчатися:Перш ніж отримати тестовий набір даних, Eager Learners розробляють модель класифікації на основі навчального набору даних. На відміну від ледачих учнів, Eager Learner займає більше часу на навчання та менше часу на прогнозування. приклад: Дерева рішень, Навів Байєс, ANN.

Типи алгоритмів класифікації ML:

Алгоритми класифікації можна далі розділити на дві категорії:

    Лінійні моделі
    • Логістична регресія
    • Підтримуючі векторні машини
    Нелінійні моделі
    • K-найближчі сусіди
    • Ядро SVM
    • Наївний Байєс
    • Класифікація дерева рішень
    • Випадкова класифікація лісу

Примітка: ми вивчимо наведені вище алгоритми в наступних розділах.

Оцінка моделі класифікації:

Після того, як наша модель завершена, необхідно оцінити її продуктивність; або це класифікаційна або регресійна модель. Отже, для оцінки моделі класифікації ми маємо такі способи:

обхід бінарного дерева поштою

1. Втрата журналу або втрата крос-ентропії:

  • Він використовується для оцінки продуктивності класифікатора, результатом якого є значення ймовірності між 0 і 1.
  • Для хорошої двійкової моделі класифікації значення втрати журналу має бути близьким до 0.
  • Значення втрат журналу збільшується, якщо прогнозоване значення відхиляється від фактичного значення.
  • Менші логарифмічні втрати означають вищу точність моделі.
  • Для двійкової класифікації крос-ентропію можна обчислити як:
 ?(ylog(p)+(1?y)log(1?p)) 

Де y = фактичний вихід, p = прогнозований випуск.

2. Матриця плутанини:

  • Матриця плутанини надає нам матрицю/таблицю як вихідні дані та описує продуктивність моделі.
  • Вона також відома як матриця помилок.
  • Матриця складається з результатів прогнозів у зведеній формі, яка містить загальну кількість правильних прогнозів і неправильних прогнозів. Матриця виглядає так, як у таблиці нижче:
Справжній Позитив Справжній негатив
Прогнозований позитивний Справжній позитив Хибно позитивний
Прогнозовано негативно Помилково негативний Справжній негатив
Алгоритм класифікації в машинному навчанні

3. Крива AUC-ROC:

  • Крива ROC означає Крива робочих характеристик приймача і AUC означає Площа під кривою .
  • Це графік, який показує ефективність моделі класифікації при різних порогових значеннях.
  • Щоб візуалізувати продуктивність багатокласової моделі класифікації, ми використовуємо криву AUC-ROC.
  • Крива ROC будується з TPR і FPR, де TPR (частота справжніх позитивних результатів) на осі Y і FPR (частота помилкових позитивних результатів) на осі X.

Випадки використання алгоритмів класифікації

Алгоритми класифікації можна використовувати в різних місцях. Нижче наведено кілька популярних випадків використання алгоритмів класифікації:

  • Виявлення електронного спаму
  • Розпізнавання мови
  • Ідентифікація пухлинних клітин раку.
  • Класифікація лікарських засобів
  • Біометрична ідентифікація тощо.