logo

Зміщення та дисперсія в машинному навчанні

Машинне навчання — це розділ штучного інтелекту, який дозволяє машинам виконувати аналіз даних і робити прогнози. Однак, якщо модель машинного навчання неточна, вона може призводити до помилок передбачення, і ці помилки передбачення зазвичай відомі як зміщення та дисперсія. У машинному навчанні ці помилки завжди будуть присутні, оскільки завжди є невелика різниця між прогнозами моделі та фактичними прогнозами. Головна мета аналітиків ML/data science — зменшити ці помилки, щоб отримати точніші результати. У цій темі ми збираємося обговорити зміщення та дисперсію, компроміс зміщення та дисперсії, недообладнання та переобладнання. Але перш ніж почати, давайте спочатку розберемося, що таке помилки в машинному навчанні?

Зміщення та дисперсія в машинному навчанні

Помилки в машинному навчанні?

У машинному навчанні помилка є показником того, наскільки точно алгоритм може робити прогнози для раніше невідомого набору даних. На основі цих помилок вибирається модель машинного навчання, яка найкраще працює з певним набором даних. У машинному навчанні бувають два типи помилок:

    Зменшувані помилки:Ці помилки можна зменшити, щоб підвищити точність моделі. Такі помилки можна далі класифікувати на зміщення та дисперсію.
    Зміщення та дисперсія в машинному навчанні Незнижувані помилки:Ці помилки завжди будуть присутні в моделі

незалежно від того, який алгоритм було використано. Причиною цих помилок є невідомі змінні, значення яких не можна зменшити.

Що таке упередженість?

Загалом, модель машинного навчання аналізує дані, знаходить у них закономірності та робить прогнози. Під час навчання модель вивчає ці шаблони в наборі даних і застосовує їх для тестування даних для прогнозування. Під час прогнозування виникає різниця між прогнозованими значеннями, зробленими моделлю, та фактичними/очікуваними значеннями , і ця різниця відома як помилки зміщення або помилки через зміщення . Це можна визначити як нездатність алгоритмів машинного навчання, таких як лінійна регресія, зафіксувати справжній зв’язок між точками даних. Кожен алгоритм починається з певної величини зміщення, оскільки зміщення виникає з припущень у моделі, що робить цільову функцію простою для вивчення. Модель має:

java int для подвоєння
    Низьке зміщення:Модель з низьким зміщенням робитиме менше припущень щодо форми цільової функції.Високий зсув:Модель із високим упередженням робить більше припущень, і модель стає нездатною охопити важливі характеристики нашого набору даних. Модель високого зміщення також не може добре працювати на нових даних.

Як правило, лінійний алгоритм має високий зміщення, оскільки він змушує їх швидко навчатися. Чим простіший алгоритм, тим вищий зміщення, ймовірно, буде введено. Тоді як нелінійний алгоритм часто має низьке зміщення.

Деякі приклади алгоритмів машинного навчання з низьким упередженням це дерева рішень, k-найближчі сусіди та опорні векторні машини . У той же час існує алгоритм з високим зміщенням Лінійна регресія, лінійний дискримінантний аналіз і логістична регресія.

Способи зменшення високого зміщення:

Високе зміщення в основному виникає через дуже просту модель. Нижче наведено кілька способів зменшення високого зміщення:

  • Збільште вхідні характеристики, оскільки модель недостатньо обладнана.
  • Зменшити термін регуляризації.
  • Використовуйте більш складні моделі, такі як включення деяких поліноміальних функцій.

Що таке помилка дисперсії?

Дисперсія вказує на кількість варіацій у прогнозі, якщо використовувалися різні навчальні дані. Простими словами, дисперсія показує, наскільки випадкова величина відрізняється від свого очікуваного значення. В ідеалі модель не повинна сильно відрізнятися від одного навчального набору даних до іншого, що означає, що алгоритм повинен добре розуміти приховане відображення між вхідними та вихідними змінними. Помилки дисперсії є одним із низька дисперсія або висока дисперсія.

Низька дисперсія означає, що існує невелика варіація в передбаченні цільової функції зі змінами в наборі навчальних даних. В той самий час, Висока дисперсія показує велику варіацію в передбаченні цільової функції зі змінами в наборі навчальних даних.

Модель, яка показує високу дисперсію, багато чого вчиться і добре працює з навчальним набором даних і погано узагальнює невидимий набір даних. Як наслідок, така модель дає хороші результати з навчальним набором даних, але демонструє високий рівень помилок у тестовому наборі даних.

python перетворює байти на рядок

Оскільки при високій дисперсії модель дізнається занадто багато з набору даних, це призводить до переобладнання моделі. Модель з високою дисперсією має такі проблеми:

  • Висока дисперсія моделі призводить до переобладнання.
  • Збільшення складності моделі.

Зазвичай нелінійні алгоритми мають високу гнучкість, щоб відповідати моделі, мають високу дисперсію.

Зміщення та дисперсія в машинному навчанні

Деякі приклади алгоритмів машинного навчання з низькою дисперсією: Лінійна регресія, логістична регресія та лінійний дискримінантний аналіз . У той же час, алгоритми з високою дисперсією є дерево рішень, опорна векторна машина та K-найближчі сусіди.

Способи зменшення високої дисперсії:

  • Зменшіть вхідні функції або кількість параметрів, оскільки модель переобладнана.
  • Не використовуйте дуже складну модель.
  • Збільште тренувальні дані.
  • Збільшити термін регулярізації.

Різні комбінації зміщення-дисперсії

Існує чотири можливі комбінації зміщення та дисперсії, які представлені на діаграмі нижче:

Зміщення та дисперсія в машинному навчанні
    Низьке зміщення, низька дисперсія:
    Поєднання низького зміщення та низької дисперсії показує ідеальну модель машинного навчання. Однак практично це неможливо.Низьке зміщення, висока дисперсія:З низьким зміщенням і високою дисперсією прогнози моделі в середньому непослідовні та точні. Цей випадок виникає, коли модель навчається за допомогою великої кількості параметрів і, отже, призводить до an переобладнання Високе зміщення, низька дисперсія:З високим зміщенням і низькою дисперсією передбачення послідовні, але в середньому неточні. Цей випадок трапляється, коли модель погано навчається за допомогою навчального набору даних або використовує мало чисел параметра. Це призводить до недообладнання проблеми в моделі.Високе зміщення, висока дисперсія:
    З високим упередженням і високою дисперсією прогнози є непослідовними, а також неточними в середньому.

Як визначити високу дисперсію або високе зміщення?

Високу дисперсію можна визначити, якщо модель має:

Зміщення та дисперсія в машинному навчанні
  • Низька помилка навчання та висока помилка тесту.

Високе зміщення можна визначити, якщо модель має:

  • Висока помилка навчання, а помилка тесту майже схожа на помилку навчання.

Компроміс зміщення та дисперсії

Під час побудови моделі машинного навчання дуже важливо подбати про зміщення та дисперсію, щоб уникнути надмірного та недостатнього оснащення моделі. Якщо модель дуже проста з меншою кількістю параметрів, вона може мати низьку дисперсію та високе зміщення. Тоді як, якщо модель має велику кількість параметрів, вона матиме високу дисперсію та низьке зміщення. Отже, потрібно встановити баланс між помилками зміщення та дисперсії, і цей баланс між помилкою зміщення та помилкою дисперсії відомий як компроміс Bias-Variance.

потік java фільтрів
Зміщення та дисперсія в машинному навчанні

Для точного передбачення моделі алгоритми потребують низької дисперсії та низького зміщення. Але це неможливо, оскільки зсув і дисперсія пов’язані один з одним:

  • Якщо ми зменшимо дисперсію, це збільшить зсув.
  • Якщо ми зменшимо зміщення, це збільшить дисперсію.

Компроміс зміщення та дисперсії є центральною проблемою під час навчання під наглядом. В ідеалі нам потрібна модель, яка точно фіксує закономірності в навчальних даних і водночас добре узагальнює невидимий набір даних. На жаль, це неможливо зробити одночасно. Тому що алгоритм з високою дисперсією може добре працювати з навчальними даними, але це може призвести до переобладнання даних із шумом. У той час як алгоритм високого зміщення генерує дуже просту модель, яка може навіть не вловлювати важливі закономірності в даних. Отже, нам потрібно знайти найкращу точку між упередженням і дисперсією, щоб створити оптимальну модель.

Отже, Компроміс «зміщення-варіація» — це пошук оптимального балансу між помилками зміщення та дисперсії.