КОНТРОЛЬОВАНЕ ТА НЕКОНТРОЛЬОВАНЕ НАВЧАННЯ - TECHCODEVIEW.COM

Машинне навчання — це галузь інформатики, яка дає комп’ютерам можливість навчатися без явного програмування. Контрольоване та неконтрольоване навчання є двома основними типами машинне навчання .

в навчання під наглядом , машина навчається на наборі позначених даних, що означає, що вхідні дані поєднуються з бажаним виходом. Потім машина вчиться прогнозувати вихід для нових вхідних даних. Контрольоване навчання часто використовується для таких завдань, як класифікація, регресія та виявлення об’єктів.

У неконтрольованому навчанні машина навчається на наборі непозначених даних, що означає, що вхідні дані не поєднуються з бажаним виходом. Потім машина вчиться знаходити закономірності та зв’язки в даних. Навчання без нагляду часто використовується для таких завдань, як кластеризація , зменшення розмірності та виявлення аномалій.

Що таке контрольоване навчання?

Контрольоване навчання є різновидом алгоритм машинного навчання який вивчає дані з мітками. Дані з мітками — це дані, які позначені правильною відповіддю чи класифікацією.

Контрольоване навчання, як вказує назва, має присутність супервізора як викладача. Навчання під наглядом — це коли ми навчаємо або тренуємо машину, використовуючи добре позначені дані. Це означає, що деякі дані вже позначено правильною відповіддю. Після цього машині надається новий набір прикладів (даних), щоб алгоритм навчання під наглядом аналізував навчальні дані (набір навчальних прикладів) і створював правильний результат на основі позначених даних.

Наприклад, у позначеному наборі даних із зображеннями слона, верблюда та корови кожне зображення буде позначено тегами Elephant , Camelor Cow.

Контрольоване навчання

Ключові моменти:

Контрольоване навчання передбачає навчання машини на основі даних із мітками.
Позначені дані складаються з прикладів із правильною відповіддю чи класифікацією.
Машина вивчає зв’язок між входами (зображеннями фруктів) і виходами (етикетками фруктів).
Потім навчена машина може робити прогнози на основі нових даних без міток.

приклад:

Скажімо, у вас є кошик із фруктами, який ви хочете ідентифікувати. Машина спочатку аналізувала б зображення, щоб виділити такі характеристики, як його форма, колір і текстура. Потім він порівняв ці особливості з особливостями фруктів, про які вже дізнався. Якщо характеристики нового зображення найбільше схожі на риси яблука, машина передбачить, що фрукт є яблуком.

як скасувати вибір у gimp

Наприклад , припустимо, вам дали кошик, наповнений різними видами фруктів. Тепер перший крок — навчити машину всіма різними фруктами по одному, як це:

Якщо форма об’єкта округла і має поглиблення вгорі, червоного кольору, то він буде позначений як – Яблуко .
Якщо форма об’єкта є довгим вигнутим циліндром зелено-жовтого кольору, то він буде позначений як – Банан .

Тепер припустімо, що після навчання даних ви дали новий окремий фрукт, скажімо, банан із кошика, і попросили його ідентифікувати.

об’єкт java в json

Оскільки машина вже вивчила речі з попередніх даних, і цього разу має використовувати їх з розумом. Спочатку він класифікує фрукт за його формою та кольором, а потім підтвердить назву фрукта як БАНАН і віднесе його до категорії Банан. Таким чином, машина вивчає речі з навчальних даних (кошик із фруктами), а потім застосовує знання до тестових даних (нові фрукти).

Типи навчання під контролем

Контрольоване навчання поділяється на дві категорії алгоритмів:

регресія : Проблема регресії полягає в тому, що вихідна змінна є реальним значенням, наприклад доларами або вагою.
Класифікація : Проблема класифікації полягає в тому, що вихідна змінна є категорією, як-от червоний або синій, хвороба чи відсутність хвороби.

Навчання під наглядом має справу з позначеними даними або вивчає їх. Це означає, що деякі дані вже позначені правильною відповіддю.

1- Регресія

Регресія – це тип навчання під наглядом, який використовується для прогнозування постійних значень, таких як ціни на житло, ціни на акції або відтік клієнтів. Алгоритми регресії вивчають функцію, яка відображає вхідні характеристики на вихідне значення.

Деякі поширені алгоритми регресії включати:

Лінійна регресія
Поліноміальна регресія
Підтримка векторної машинної регресії
Регресія дерева рішень
Регресія випадкового лісу

2- Класифікація

Класифікація – це тип навчання під наглядом, який використовується для прогнозування категоричних значень, наприклад, чи відмовиться клієнт чи ні, чи є електронний лист спамом чи ні, або чи показано на медичному зображенні пухлину чи ні. Алгоритми класифікації вивчають функцію, яка відображає вхідні ознаки розподілу ймовірностей за вихідними класами.

Деякі поширені алгоритми класифікації включати:

Логістична регресія
Підтримуйте векторні машини
Дерева рішень
Випадкові ліси
Наївний Байє

Оцінювання моделей навчання під контролем

Оцінка моделей навчання під наглядом є важливим кроком у забезпеченні точності та можливості узагальнення моделі. Є ряд різних метрики які можна використовувати для оцінки моделей навчання під наглядом, але деякі з найпоширеніших включають:

Для регресії

Середня квадратична помилка (MSE): MSE вимірює середню квадратичну різницю між прогнозованими та фактичними значеннями. Нижчі значення MSE вказують на кращу продуктивність моделі.
Середньоквадратична помилка (RMSE): RMSE – квадратний корінь із MSE, що представляє стандартне відхилення помилок передбачення. Подібно до MSE, нижчі значення RMSE вказують на кращу продуктивність моделі.
Середня абсолютна похибка (MAE): MAE вимірює середню абсолютну різницю між прогнозованими та фактичними значеннями. Він менш чутливий до викидів порівняно з MSE або RMSE.
R-квадрат (коефіцієнт детермінації): R-квадрат вимірює частку дисперсії цільової змінної, яка пояснюється моделлю. Вищі значення R-квадрат вказують на кращу відповідність моделі.

Для класифікації

Точність: Точність – це відсоток прогнозів, які модель робить правильно. Він розраховується шляхом ділення кількості правильних прогнозів на загальну кількість прогнозів.
Точність: Точність – це відсоток позитивних прогнозів, зроблених моделлю, які насправді є правильними. Він розраховується шляхом ділення кількості справжніх позитивних прогнозів на загальну кількість позитивних прогнозів.
Нагадаємо: Пригадування — це відсоток усіх позитивних прикладів, які модель правильно визначає. Він розраховується діленням кількості справді позитивних на загальну кількість позитивних прикладів.
Оцінка F1: Оцінка F1 є середньозваженим показником точності та запам’ятовування. Він обчислюється шляхом взяття середнього гармонічного точності та відкликання.
Матриця плутанини: Матриця плутанини — це таблиця, яка показує кількість прогнозів для кожного класу разом із фактичними мітками класу. Його можна використовувати для візуалізації ефективності моделі та визначення областей, де модель має проблеми.

Застосування контрольованого навчання

Контрольоване навчання можна використовувати для вирішення широкого спектру проблем, зокрема:

Фільтрація спаму: Алгоритми навчання під наглядом можна навчити виявляти та класифікувати електронні листи зі спамом на основі їх вмісту, допомагаючи користувачам уникати небажаних повідомлень.
Класифікація зображення: Контрольоване навчання може автоматично класифікувати зображення за різними категоріями, як-от тварини, об’єкти чи сцени, полегшуючи такі завдання, як пошук зображень, модерація вмісту та рекомендації продуктів на основі зображень.
Медичний діагноз: Навчання під наглядом може допомогти в медичній діагностиці шляхом аналізу даних пацієнта, таких як медичні зображення, результати тестів та історія пацієнта, щоб визначити закономірності, які вказують на конкретні захворювання або стани.
Виявлення шахрайства: Контрольовані моделі навчання можуть аналізувати фінансові транзакції та виявляти шаблони, які вказують на шахрайство, допомагаючи фінансовим установам запобігати шахрайству та захищати своїх клієнтів.
Обробка природної мови (NLP): Контрольоване навчання відіграє вирішальну роль у завданнях НЛП, включаючи аналіз настроїв, машинний переклад і резюмування тексту, що дозволяє машинам розуміти та ефективно обробляти людську мову.

Переваги навчання під наглядом

Контрольоване навчання дозволяє збирати дані та виводить дані з попереднього досвіду.
Допомагає оптимізувати критерії продуктивності за допомогою досвіду.
Контрольоване машинне навчання допомагає вирішувати різні типи реальних обчислювальних проблем.
Він виконує завдання класифікації та регресії.
Це дозволяє оцінити або зіставити результат з новим зразком.
Ми маємо повний контроль над вибором кількості занять, які ми хочемо в навчальних даних.

Недоліки навчання під контролем

Класифікувати великі дані може бути складно.
Навчання під наглядом вимагає багато обчислювального часу. Отже, це вимагає багато часу.
Кероване навчання не може впоратися з усіма складними завданнями машинного навчання.
Час обчислення для навчання під наглядом дуже великий.
Для цього потрібен набір даних з мітками.
Це вимагає тренувального процесу.

Що таке неконтрольоване навчання?

Навчання без нагляду — це тип машинного навчання, який вивчає дані без міток. Це означає, що дані не мають жодних попередніх позначок або категорій. Метою неконтрольованого навчання є виявлення закономірностей і зв’язків у даних без будь-яких явних вказівок.

Неконтрольоване навчання — це навчання машини з використанням інформації, яка не є ані секретною, ані позначеною, і дозволяє алгоритму діяти на основі цієї інформації без вказівок. Тут завдання машини полягає в тому, щоб згрупувати несортовану інформацію за схожістю, шаблонами та відмінностями без попереднього навчання даних.

На відміну від навчання під наглядом, тут немає вчителя, що означає, що машина не навчатиметься. Тому машина обмежена самостійно знаходити приховану структуру в немаркованих даних.

Ви можете використовувати самостійне навчання, щоб досліджувати зібрані дані про тварин і розрізняти кілька груп відповідно до рис і дій тварин. Ці групи можуть відповідати різним видам тварин, надаючи вам змогу класифікувати істот незалежно від уже існуючих міток.

Безконтрольне навчання

Ключові моменти

Неконтрольоване навчання дозволяє моделі виявляти закономірності та зв’язки в немаркованих даних.
Алгоритми кластеризації групують схожі точки даних разом на основі їхніх властивих характеристик.
Вилучення ознак фіксує важливу інформацію з даних, що дозволяє моделі робити значущі відмінності.
Асоціація міток призначає категорії кластерам на основі витягнутих моделей і характеристик.

приклад

Уявіть, що у вас є модель машинного навчання, навчена на великому наборі даних із зображеннями без міток, які містять собак і котів. Модель ніколи раніше не бачила зображення собаки чи кота, і вона не має попередніх міток чи категорій для цих тварин. Ваше завдання полягає в тому, щоб використовувати самостійне навчання, щоб ідентифікувати собак і котів на новому, небаченому зображенні.

Наприклад , припустімо, що йому дають зображення собак і котів, яких він ніколи не бачив.

рядок у дату

Таким чином, машина не має уявлення про особливості собак і котів, тому ми не можемо віднести її до категорії «собаки та коти». Але він може класифікувати їх відповідно до їхніх подібностей, шаблонів і відмінностей, тобто ми можемо легко класифікувати зображення вище на дві частини. Перший може містити всі фотографії, які мають собаки в них і друга частина може містити всі фотографії, що мають коти у них. Тут ви нічого не вивчали раніше, а це означає, що немає навчальних даних чи прикладів.

Це дозволяє моделі працювати самостійно, щоб виявити шаблони та інформацію, які раніше не були виявлені. В основному він має справу з немаркованими даними.

Типи неконтрольованого навчання

Неконтрольоване навчання класифікується за двома категоріями алгоритмів:

Кластеризація : Проблема кластеризації полягає в тому, коли ви хочете виявити властиві групування в даних, наприклад, групування клієнтів за купівельною поведінкою.
Асоціація : Проблема вивчення правила асоціації полягає в тому, що ви хочете виявити правила, які описують великі частини ваших даних, наприклад, люди, які купують X, також схильні купувати Y.

Кластеризація

Кластеризація — це тип неконтрольованого навчання, який використовується для групування схожих точок даних. Алгоритми кластеризації працювати шляхом ітераційного переміщення точок даних ближче до їхніх центрів кластерів і далі від точок даних в інших кластерах.

Ексклюзив (перегородка)
Агломераційний
Перекриття
Імовірнісний

Типи кластеризації: -

Ієрархічна кластеризація
K-означає кластеризацію
Аналіз головних компонентів
Декомпозиція сингулярного значення
Незалежний аналіз компонентів
Моделі сумішей Гауса (GMMs)
Просторова кластеризація додатків із шумом на основі щільності (DBSCAN)

Вивчення правила асоціації

Навчання правил асоціації – це тип неконтрольованого навчання, який використовується для виявлення шаблонів у даних. Правило асоціації алгоритми навчання працюють, знаходячи зв’язки між різними елементами в наборі даних.

Деякі поширені алгоритми навчання правил асоціації включають:

Апріорний алгоритм
Алгоритм Eclat
FP-алгоритм зростання

Оцінювання моделей навчання без контролю

Оцінка моделей навчання без контролю є важливим кроком у забезпеченні ефективності та користі моделі. Однак це може бути складніше, ніж оцінка моделей навчання під наглядом, оскільки немає базових правдивих даних, з якими можна порівняти прогнози моделі.

Існує кілька різних показників, які можна використовувати для оцінки моделей навчання без контролю, але деякі з найпоширеніших включають:

перетворити int на рядок java

Оцінка силуету: Оцінка силуету вимірює, наскільки добре кожна точка даних кластеризована з власними членами кластера та відокремлена від інших кластерів. Він варіюється від -1 до 1, причому вищі показники вказують на кращу кластеризацію.
Рахунок Калінскі-Харабаш: Оцінка Calinski-Harabasz вимірює співвідношення між дисперсією між кластерами та дисперсією всередині кластерів. Він коливається від 0 до нескінченності, причому вищі бали вказують на кращу кластеризацію.
Скоригований індекс ранду: Скоригований індекс Ренда вимірює подібність між двома кластеризаціями. Він коливається від -1 до 1, причому вищі показники вказують на більш подібні кластеризації.
Індекс Девіса-Болдіна: Індекс Дейвіса-Болдіна вимірює середню схожість між кластерами. Він коливається від 0 до нескінченності, причому нижчі оцінки вказують на кращу кластеризацію.
Оцінка F1: Оцінка F1 є середньозваженим показником точності та запам’ятовування, які є двома показниками, які зазвичай використовуються в контрольованому навчанні для оцінки класифікаційних моделей. Однак оцінка F1 також може бути використана для оцінки моделей навчання без контролю, таких як моделі кластеризації.

застосування навчання без контролю

Навчання без контролю можна використовувати для вирішення широкого спектру проблем, зокрема:

Виявлення аномалій: неконтрольоване навчання може ідентифікувати незвичайні шаблони або відхилення від нормальної поведінки в даних, дозволяючи виявляти шахрайство, вторгнення або системні збої.
Наукове відкриття: неконтрольоване навчання може виявити приховані зв’язки та закономірності в наукових даних, що призведе до нових гіпотез і уявлень у різних наукових галузях.
Системи рекомендацій: неконтрольоване навчання може ідентифікувати моделі та схожість у поведінці та вподобаннях користувачів, щоб рекомендувати продукти, фільми чи музику, які відповідають їхнім інтересам.
Сегментація клієнтів: неконтрольоване навчання може ідентифікувати групи клієнтів зі схожими характеристиками, дозволяючи компаніям націлювати маркетингові кампанії та ефективніше покращувати обслуговування клієнтів.
Аналіз зображень: неконтрольоване навчання може групувати зображення на основі їх вмісту, полегшуючи такі завдання, як класифікація зображень, виявлення об’єктів і пошук зображень.

Переваги навчання без контролю

Для цього не потрібно маркувати навчальні дані.
Зменшення розмірності можна легко здійснити за допомогою навчання без нагляду.
Здатний знаходити раніше невідомі моделі в даних.
Навчання без нагляду може допомогти вам отримати уявлення з немаркованих даних, які ви, можливо, не змогли б отримати інакше.
Неконтрольоване навчання добре допомагає знаходити закономірності та зв’язки в даних, не вказуючи, на що шукати. Це може допомогти вам дізнатися щось нове про свої дані.

Недоліки навчання без контролю

Важко виміряти точність або ефективність через відсутність заздалегідь визначених відповідей під час навчання.
Результати часто мають меншу точність.
Користувачеві потрібно витратити час на інтерпретацію та позначення класів, які відповідають цій класифікації.
Неконтрольоване навчання може бути чутливим до якості даних, включаючи відсутні значення, викиди та шумні дані.
Без позначених даних може бути важко оцінити ефективність моделей навчання без нагляду, що ускладнює оцінку їхньої ефективності.

Контрольоване та неконтрольоване машинне навчання

Параметри	Контрольоване машинне навчання	Машинне навчання без нагляду
Вхідні дані	Алгоритми навчаються з використанням позначених даних.	Алгоритми використовуються проти даних, які не позначені
Обчислювальна складність	Більш простий спосіб	Обчислювально складний
Точність	Дуже точний	Менш точний
Кількість класів	Кількість класів відома	Кількість класів невідома
Аналіз даних	Використовує автономний аналіз	Використовує аналіз даних у реальному часі
Використані алгоритми	Лінійна та логістична регресія, випадковий ліс, багатокласова класифікація, дерево рішень, опорна векторна машина, нейронна мережа тощо.	Кластеризація K-Means, ієрархічна кластеризація, KNN, алгоритм Apriori тощо.
Вихід	Надається бажаний результат.	Бажаний результат не надано.
Дані про навчання	Використовуйте навчальні дані для створення моделі.	Дані навчання не використовуються.
Складна модель	Неможливо вивчити більші та складніші моделі, ніж за допомогою навчання під наглядом.	Можна вивчити більші та складніші моделі за допомогою навчання без нагляду.
Модель	Ми можемо протестувати нашу модель.	Ми не можемо протестувати нашу модель.
Називається як	Контрольоване навчання також називають класифікацією.	Навчання без контролю також називається кластеризацією.
приклад	Приклад: оптичне розпізнавання символів.	Приклад: знайдіть обличчя на зображенні.
Нагляд	навчання під наглядом потребує нагляду для навчання моделі.	Навчання без нагляду не потребує нагляду для навчання моделі.

Висновок

Контрольоване та неконтрольоване навчання є двома потужними інструментами, які можна використовувати для вирішення різноманітних проблем. Навчання під контролем добре підходить для завдань, де бажаний результат відомий, тоді як навчання без контролю добре підходить для завдань, де бажаний результат невідомий.

Часті запитання (FAQ)

1. Яка різниця між керованою та неконтрольованою машинною мовою?

Контрольоване та неконтрольоване навчання є двома фундаментальними підходами до машинного навчання, які відрізняються навчальними даними та цілями навчання.
перевести рядок як int

Контрольоване навчання передбачає навчання моделі машинного навчання на позначеному наборі даних, де кожна точка даних має відповідну мітку або вихідне значення. Алгоритм вчиться зіставляти вхідні дані з потрібними результатами, що дозволяє робити прогнози для нових, невидимих даних.

Навчання без контролю , з іншого боку, має справу з наборами даних без міток, де точки даних не мають пов’язаних міток або вихідних значень.

2. Що таке контрольоване навчання?

Кероване навчання – це тип машинного навчання, де алгоритм навчається на позначеному наборі даних, де кожна точка даних має відповідну мітку або вихідне значення. Алгоритм вчиться зіставляти вхідні дані з потрібними результатами, що дозволяє робити прогнози для нових, невидимих даних.

3. Які загальні алгоритми навчання під наглядом?

Загальні алгоритми навчання під наглядом включають:

Класифікація: Використовується для призначення категорій точкам даних. Приклади включають опорні векторні машини (SVM), логістичну регресію та дерева рішень.

регресія: Використовується для прогнозування безперервних числових значень. Приклади включають лінійну регресію, поліноміальну регресію та гребеневу регресію.

4. Які поширені алгоритми неконтрольованого навчання?

Загальні алгоритми неконтрольованого навчання включають:

Кластеризація: Групування точок даних у кластери на основі їх подібності. Приклади включають кластеризацію k-середніх та ієрархічну кластеризацію.

Зменшення розмірності: Зменшення кількості функцій у наборі даних зі збереженням найважливішої інформації. Приклади включають аналіз головних компонентів (PCA) і автокодери.

5. Що таке неконтрольоване навчання?

Неконтрольоване навчання – це тип машинного навчання, коли алгоритм навчається на непозначеному наборі даних, де точки даних не мають відповідних міток або вихідних значень. Алгоритм вчиться ідентифікувати закономірності та структури в даних без явних вказівок.

6. Коли використовувати контрольоване навчання чи неконтрольоване навчання?

Використовуйте контрольоване навчання, якщо у вас є позначений набір даних і ви хочете робити прогнози для нових даних. Використовуйте неконтрольоване навчання, якщо у вас є набір даних без міток і ви хочете визначити шаблони або структури в даних.