вступ
Машинне навчання змінило спосіб обробки та перевірки даних, а алгоритми дерева рішень є відомим рішенням для завдань класифікації та регресії. Індекс Джині, інакше званий домішкою Джіні або коефіцієнтом Джині, є суттєвою мірою домішки, яка використовується в алгоритмах дерева рішень. У цій статті ми вичерпно дослідимо ідею індексу Джіні, його числову формулу та застосування в машинному навчанні. Ми також порівняємо індекс Джіні та інші вимірювання домішок, поговоримо про його обмеження та переваги та проаналізуємо контекстний аналіз його застосування в реальному світі. Нарешті ми представимо тут майбутні підшипники для дослідження.
Що таке індекс Джині?
Індекс Джині – це частка домішок або нерівності в статистичних і грошових параметрах. У машинному навчанні він використовується як міра домішок в алгоритмах дерева рішень для завдань класифікації. Індекс Джіні вимірює ймовірність того, що випадково обраний тест буде неправильно класифікований алгоритмом дерева рішень, і його значення коливається від 0 (ідеально чистий) до 1 (ідеально нечистий).
Формула індексу Джіні
Індекс Джіні — це частка домішки або нерівності циркуляції, яка регулярно використовується як міра домішки в алгоритмах дерева рішень. Що стосується дерев рішень, індекс Джіні використовується для визначення найкращої функції для розділення даних на кожному вузлі дерева.
Формула індексу Джині виглядає так:
де pi — це ймовірність того, що предмет має місце в певному класі.
Наприклад, ми повинні розглянути проблему бінарної класифікації з двома класами An і B. Якщо ймовірність класу An дорівнює p, а ймовірність класу B дорівнює (1-p), тоді індекс Джині можна обчислити як :
Значення індексу Джіні коливається від 0,0 до 0,5 для задач бінарної класифікації, де 0,0 демонструє ідеально чистий вузол (усі приклади мають місце з подібним класом), а 0,5 показує абсолютно нечистий вузол (тести однаково розподілені між двома класами ).
Використання індексу Джіні в задачах класифікації
Індекс Джіні зазвичай використовується як міра домішок в алгоритмах дерева рішень для проблем класифікації. У деревах рішень кожен вузол звертається до певного елемента, а мета полягає в тому, щоб розділити дані на підмножини, які, по суті, є настільки чистими, наскільки можна очікувати. Вимірювання домішок (наприклад, індекс Джині) використовується для визначення найкращого розподілу в кожному вузлі.
Щоб проілюструвати це, ми повинні розглянути приклад дерева рішень для питання двійкової класифікації. Дерево має два елементи: вік і дохід, і мета полягає в тому, щоб передбачити, незалежно від того, чи збирається особа придбати товар. Дерево будується з використанням індексу Джіні як міри домішок.
У кореневому вузлі індекс Джині обчислюється з огляду на ймовірність того, що приклади мають місце з класом 0 або класом 1. Вузол розбивається з огляду на компонент, який призводить до найбільшого зниження індексу Джині. Цей цикл повторюється рекурсивно для кожної підмножини, доки не буде виконано міру зупинки.
Дерева рішень
Дерево рішень — це добре відомий алгоритм машинного навчання, який використовується як для завдань класифікації, так і для регресії. Модель працює шляхом рекурсивного розбиття набору даних на більш скромні підмножини з урахуванням значень інформаційних виділень, визначених для обмеження домішок наступних підмножин.
У кожному вузлі дерева приймається рішення з огляду на значення одного з інформаційних виділень, з кінцевою метою, щоб наступні підмножини були в основному настільки чистими, наскільки можна очікувати. Чистота підмножини регулярно оцінюється мірою домішок, наприклад, індексом Джині або ентропією.
Алгоритм дерева рішень можна використовувати як для завдань бінарної, так і для багатокласової класифікації, а також для задач регресії. У задачах бінарної класифікації дерево рішень розбиває набір даних на два підмножини відповідно до значення двійкової ознаки, наприклад «так» або «ні». У завданнях багатокласової класифікації дерево рішень розбиває набір даних на численні підмножини відповідно до значень прямої ознаки, наприклад червоного, зеленого або синього.
Індекс Джіні проти інших показників домішок
Окрім індексу Джіні, існують інші міри домішок, які зазвичай використовуються в алгоритмах дерева рішень, наприклад, ентропія та приріст інформації.
Ентропія:
У машинному навчанні ентропія — це частка нерегулярності або вразливості в групі даних. Зазвичай він використовується як міра домішок в алгоритмах дерева рішень разом з індексом Джіні.
В алгоритмах дерева рішень ентропія використовується для визначення найкращого компонента для розділення даних у кожному вузлі дерева. Мета полягає в тому, щоб знайти елемент, який призводить до найбільшого зниження ентропії, що стосується компонента, який дає найбільше інформації про проблему класифікації.
Хоча ентропія та індекс Джині зазвичай використовуються як показники домішок в алгоритмах дерева рішень, вони мають різні властивості. Ентропія є делікатнішою для циркуляції назв класів і загалом забезпечує більш скориговані дерева, тоді як індекс Джіні менш чутливий до присвоєння позначок класу та загалом створює більш обмежені дерева з меншою кількістю розколів. Рішення про міру домішок залежить від конкретної проблеми та атрибутів даних.
Приріст інформації:
Інформаційний приріст — це дія, яка використовується для оцінки характеру поділу під час побудови дерева рішень. Метою дерева рішень є розділення даних на підмножини, які в основному є настільки ж однорідними, наскільки це можливо, як і для цільової змінної, тому наступне дерево можна використовувати для визначення точних очікувань щодо нових даних. Інформаційний приріст вимірює зменшення ентропії або домішки, досягнуте розщепленням. Функція з найбільш значним приростом інформації вибирається як найкраща функція для розподілу на кожному вузлі дерева рішень.
Інформаційний приріст зазвичай є необхідним заходом для оцінки природи розколів у деревах рішень, але не на цьому слід зосереджуватися. Також можна використовувати різні показники, наприклад, індекс Джині або коефіцієнт помилкової класифікації. Рішення щодо основи поділу залежить від основної проблеми та атрибутів набору даних, що використовується.
Приклад індексу Джіні
Нам слід розглянути проблему бінарної класифікації, коли у нас є набір даних із 10 прикладів із двома класами: «Позитивний» і «Негативний». З 10 прикладів 6 мають місце в класі «Позитивний» і 4 мають місце в класі «Негативний».
Щоб обчислити індекс Джині для набору даних, ми спочатку обчислюємо ймовірність кожного класу:
p_1 = 6/10 = 0,6 (позитивний)
p_2 = 4/10 = 0,4 (негативний)
Тоді, на цьому етапі, ми використовуємо формулу індексу Джіні для обчислення домішки набору даних:
Gini(S) = 1 - (p_1^2 + p_2^2)
= 1 - (0,6^2 + 0,4^2)
= 0,48
Отже, індекс Джині набору даних становить 0,48.
Тепер припустімо, що нам потрібно розділити набір даних на елемент «X», який має два потенційних значення: «A» і «B». Ми розділили набір даних на дві підмножини з огляду на компонент:
Підмножина 1 (X = A): 4 позитивних, 1 негативний
Підмножина 2 (X = B): 2 позитивні, 3 негативні
Щоб обчислити зменшення індексу Джині для цього розподілу, ми спочатку обчислюємо індекс Джині кожної підмножини:
Джині(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32
Джіні(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48
Потім ми використовуємо формулу отримання інформації для розрахунку зменшення індексу Джині:
IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))
= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))
= 0,08
Таким чином, приріст інформації (тобто зменшення індексу Джині) для розділення набору даних на підсвічування «X» становить 0,08.
У цій ситуації, якщо ми обчислюємо приріст інформації для всіх елементів і вибираємо той, який має найбільший приріст інформації, цей компонент буде обрано як найкращий компонент для розподілу в кореневому вузлі дерева рішень.
Переваги:
Індекс Джіні є широко використовуваним показником для оцінки природи розколів у деревах рішень, і він користується деякою перевагою над різними показниками, наприклад, ентропією чи рівнем неправильної класифікації. Ось частина основних переваг використання індексу Джіні:
латексний стіл
Обчислювально ефективний: Індекс Джині є менш складним і обчислювально швидшим показником на відміну від інших показників, наприклад ентропії, яка передбачає обчислення логарифмів.
Інтуїтивна інтерпретація: Індекс Джіні простий і простий у тлумаченні. Він вимірює ймовірність того, що випадково обраний приклад із набору буде неправильно класифікований у випадку, якщо він випадково позначений відповідно до класу передачі в наборі.
Підходить для двійкової класифікації: Індекс Джіні є особливо потужним для задач бінарної класифікації, де цільова змінна має лише два класи. У таких випадках індекс Джині, як відомо, більш стабільний, ніж інші показники.
Надійний до дисбалансу класу: Індекс Джині є менш делікатним для класового дисбалансу на відміну від інших показників, наприклад, точності або рівня неправильної класифікації. Це пояснюється тим, що індекс Джіні залежить від загального обсягу прикладів у кожному класі на відміну від прямих чисел.
Менш схильні до переобладнання: Індекс Джіні загалом створюватиме більш скромні дерева рішень у порівнянні з різними показниками, що робить його менш схильним до переобладнання. Це пояснюється тим, що індекс Джині загалом надає перевагу функціям, які створюють скромніші пакети даних, що зменшує можливості переобладнання.
Недоліки:
Незважаючи на те, що індекс Джіні має деякі переваги як міра розщеплення для дерев рішень, він також має кілька недоліків. Ось частина основних недоліків використання індексу Джіні:
Упередження до функцій із багатьма категоріями: Індекс Джіні загалом схиляється до функцій із багатьма категоріями чи значеннями, оскільки вони можуть робити більше розбиття та пакетування даних. Це може спричинити переобладнання та більш складне дерево рішень.
Не підходить для безперервних змінних: Індекс Джіні не підходить для безперервних змінних, оскільки він вимагає дискретизації змінної на категорії або відсіки, що може призвести до втрати інформації та зниження точності.
Ігнорує взаємодію функцій: Індекс Джіні враховує лише індивідуальну передбачувану силу кожної функції та ігнорує взаємодію між функціями. Це може призвести до поганих розподілів і менш точних прогнозів.
Не ідеально підходить для деяких наборів даних: іноді індекс Джіні може бути не ідеальним показником для оцінки природи розколів у дереві рішень. Наприклад, у випадку, якщо цільова змінна є винятково нахиленою або незбалансованою, інші вимірювання, наприклад, приріст інформації або частка приросту, можуть бути більш придатними.
Схильність до упередженості за наявності відсутніх значень: Індекс Джіні може бути зміщеним за наявності відсутніх значень, оскільки він, як правило, схилятиметься до ознак із меншою кількістю відсутніх значень, незалежно від того, чи є вони найбільш інформативними.
Застосування Gini Index у реальному світі
Індекс Джіні використовувався в різних додатках у машинному навчанні, наприклад, для визначення місця вимагання, кредитного рейтингу та розподілу клієнтів. Наприклад, для виявлення здирництва можна використовувати індекс Джіні, щоб відрізнити схеми в даних обміну та розпізнати дивні способи поведінки. У кредитному скорингу індекс Джині можна використовувати, щоб передбачити ймовірність дефолту з огляду на такі змінні, як дохід, співвідношення непогашеної заборгованості до заробітної плати додому та звіт про погашення кредиту. У відділенні клієнтів індекс Джіні можна використовувати для групування клієнтів з огляду на їх спосіб поведінки та схильності.
Майбутні дослідження
Незважаючи на його безмежне використання в алгоритмах дерева рішень, індекс Джіні все ще є для дослідження. Однією з областей дослідження є розробка нових показників домішок, які можуть усунути обмеження індексу Джині, наприклад його схильність до факторів з багатьма рівнями. Ще одним напрямом дослідження є оптимізація алгоритмів дерева рішень з використанням індексу Джіні, наприклад, використання методів обладнання для роботи над точністю дерев рішень.
Висновок
Індекс Джіні є суттєвою мірою домішок, яка використовується в алгоритмах дерева рішень для завдань класифікації. Він вимірює ймовірність того, що випадково вибраний тест буде неправильно класифікований алгоритмом дерева рішень, і його значення змінюється від 0 (ідеально чистий) до 1 (ідеально нечистий). Індекс Джіні є простим і ефективним, обчислювально продуктивним і потужним для винятків. Він використовувався в різних програмах машинного навчання, наприклад, виявлення спотворень, кредитний рейтинг і розподіл клієнтів. Незважаючи на те, що індекс Джині має деякі обмеження, все ще є можливість дослідити його вдосконалення та вдосконалення нових показників домішок.