АПРІОРНИЙ АЛГОРИТМ - ВИДОБУТОК ДАНИХ

Апріорний алгоритм відноситься до алгоритму, який використовується для обчислення правил асоціації між об’єктами. Це означає, як два або більше об'єктів пов'язані один з одним. Іншими словами, ми можемо сказати, що апріорний алгоритм — це правило асоціації, яке аналізує, що люди, які купили продукт A, також купили продукт B.

Основною метою апріорного алгоритму є створення правила асоціації між різними об’єктами. Правило асоціації описує, як два або більше об’єктів пов’язані один з одним. Апріорний алгоритм також називають частим аналізом шаблонів. Як правило, ви працюєте з алгоритмом Apriori на базі даних, яка складається з величезної кількості транзакцій. Розберемося з апріорним алгоритмом на прикладі; Припустимо, ви йдете на Великий базар і купуєте різні продукти. Це допомагає клієнтам легко купувати їхні товари та підвищує ефективність продажів Big Bazar. У цьому підручнику ми обговоримо апріорний алгоритм із прикладами.

вступ

Ми візьмемо приклад, щоб краще зрозуміти концепцію. Ви, мабуть, помітили, що продавець у піцерії готує разом піцу, безалкогольний напій і хлібну паличку. Він також пропонує знижку своїм клієнтам, які купують ці комбо. Ви коли-небудь думали, чому він так робить? Він вважає, що клієнти, які купують піцу, також купують безалкогольні напої та хлібні палички. Однак, створюючи комбо, він полегшує роботу клієнтів. У той же час він також підвищує ефективність продажів.

Подібним чином ви йдете на Big Bazar і знайдете печиво, чіпси та шоколад разом. Це свідчить про те, що власник магазину робить так, щоб покупцям було зручно купувати ці товари в одному місці.

Наведені вище два приклади є найкращими прикладами Правил асоціації в

Підтримка

впевненість

Ліфт

Розглянемо приклад, щоб зрозуміти це поняття.

Ми вже обговорювали вище; вам потрібна величезна база даних, яка містить велику кількість транзакцій. Припустімо, у вас є 4000 транзакцій клієнтів на великому базарі. Ви повинні обчислити підтримку, впевненість і підйом для двох продуктів, і ви можете сказати печиво та шоколад. Це тому, що клієнти часто купують ці два товари разом.

З 4000 транзакцій 400 містять печиво, тоді як 600 містять шоколад, і ці 600 транзакцій включають 200, які включають печиво та шоколад. Використовуючи ці дані, ми знайдемо підтримку, впевненість і підйом.

Підтримка

Підтримка стосується стандартної популярності будь-якого продукту. Підтримку можна знайти як частку від ділення кількості транзакцій, що входять до складу продукту, на загальну кількість транзакцій. Отже, отримуємо

Підтримка (Печиво) = (Транзакції, пов’язані з печивом) / (Загальна кількість транзакцій)

= 400/4000 = 10 відсотків.

команда arp-a

впевненість

Впевненість означає можливість того, що покупці купили і печиво, і шоколад разом. Отже, вам потрібно розділити кількість транзакцій, які включають печиво та шоколад, на загальну кількість транзакцій, щоб отримати впевненість.

Отже,

Впевненість = (Транзакції, пов’язані як з печивом, так і з шоколадом) / (Загальна кількість транзакцій, пов’язаних з печивом)

= 200/400

= 50 відсотків.

Це означає, що 50 відсотків клієнтів, які купували печиво, купували також шоколад.

Ліфт

Розглянемо наведений вище приклад; Підвищення означає збільшення частки продажів шоколадних цукерок, коли ви продаєте печиво. Математичні рівняння підйомної сили наведені нижче.

Підйом = (Впевненість (Печиво - шоколад)/ (Підтримка (Печиво)

= 50/10 = 5

Це означає, що ймовірність того, що люди купуватимуть і печиво, і шоколад разом, у п’ять разів більша, ніж ті, що купуватимуть лише одне печиво. Якщо значення підвищення нижче одиниці, це означає, що люди навряд чи купуватимуть обидва товари разом. Чим більше значення, тим краще поєднання.

Як працює алгоритм Apriori в Data Mining?

Розберемося з цим алгоритмом на прикладі

клас проти об'єкта java

Розглянемо сценарій Великого базару, де набір продуктів P = {Рис, бобові, олія, молоко, яблуко}. База даних містить шість транзакцій, де 1 означає наявність продукту, а 0 означає відсутність продукту.

ID транзакції	Рис	Пульс	Олія Молоко	Яблуко
t1	1	1	1	0	0
t2	0	1	1	1	0
t3	0	0	0	1	1
t4	1	1	0	1	0
t5	1	1	1	0	1
t6	1	1	1	1	1

Алгоритм Апріорі робить наведені припущення

Усі підмножини частого набору елементів мають бути частими.
Підмножини набору нечастих елементів мають бути нечастими.
Виправте пороговий рівень підтримки. У нашому випадку ми зафіксували його на рівні 50 відсотків.

Крок 1

Створіть частотну таблицю всіх продуктів, які з’являються в усіх транзакціях. Тепер скоротіть таблицю частот, щоб додати лише продукти з пороговим рівнем підтримки понад 50 відсотків. Знаходимо задану таблицю частот.

Продукт	Періодичність (кількість транзакцій)
Рис (R)	4
Пульс (P)	5
Масло (O)	4
Молоко (M)	4

У наведеній вище таблиці вказано продукти, які найчастіше купують клієнти.

Крок 2

Створіть пари продуктів, наприклад RP, RO, RM, PO, PM, OM. Ви отримаєте задану таблицю частот.

Набір елементів	Періодичність (кількість транзакцій)
RP	4
RO	3
RM	2
ПІСЛЯ	4
PM	3
ПРО	2

Крок 3

Впроваджуємо ту саму порогову підтримку 50 відсотків і розглядаємо продукти, які перевищують 50 відсотків. У нашому випадку більше 3

Таким чином, ми отримуємо RP, RO, PO та PM

Крок 4

Тепер знайдіть набір із трьох продуктів, які клієнти купують разом. Отримуємо дану комбінацію.

список методів java

РП і РО дають РРО
PO і PM дають POM

Крок 5

Обчисліть частоту двох наборів елементів, і ви отримаєте подану таблицю частот.

Набір елементів	Періодичність (кількість транзакцій)
РРО	4
POM	3

Якщо ви реалізуєте порогове припущення, ви можете з’ясувати, що набір клієнтів із трьох продуктів є RPO.

Ми розглянули простий приклад для обговорення апріорного алгоритму інтелектуального аналізу даних. Насправді ви знайдете тисячі таких комбінацій.

Як підвищити ефективність Апріорного алгоритму?

Для підвищення ефективності алгоритму Апріорі використовуються різні методи

Підрахунок набору елементів на основі хешу

Під час підрахунку набору елементів на основі хешування вам потрібно виключити k-набір елементів, еквівалентна кількість блоків хешування якого є меншою за порогове значення, є рідкісним набором елементів.

перетворити int на рядок у java

Зменшення транзакцій

У скороченні транзакцій транзакція, яка не містить частого набору елементів X, стає нецінною під час наступних сканувань.

Апріорний алгоритм інтелектуального аналізу даних

Ми вже обговорювали приклад апріорного алгоритму, що стосується частої генерації набору елементів. Алгоритм Apriori має багато застосувань у видобутку даних.

Основні вимоги до пошуку правил асоціації в інтелектуальному аналізі даних наведені нижче.

Використовуйте грубу силу

Проаналізуйте всі правила та знайдіть рівень підтримки та надійності для окремого правила. Після цього виключіть значення, які є меншими за порогове значення підтримки та рівні довіри.

Двоступеневі підходи

Двоетапний підхід є кращим варіантом для пошуку правил асоціацій, ніж метод грубої сили.

Крок 1

У цій статті ми вже обговорювали, як створити таблицю частот і обчислити набори елементів, які мають більше значення підтримки, ніж значення порогової підтримки.

завантажити відео з youtube vlc

Крок 2

Щоб створити правила асоціації, вам потрібно використовувати двійковий розділ частих наборів елементів. Ви повинні вибрати ті, які мають найвищий рівень довіри.

У наведеному вище прикладі ви можете побачити, що комбінація RPO була частим набором елементів. Тепер дізнаємося всі правила використання РРО.

РП-О, РО-П, ПО-Р, О-РП, П-РО, Р-ПО

Ви бачите, що є шість різних комбінацій. Отже, якщо у вас є n елементів, їх буде 2^п- 2 правила асоціації кандидатів.

Переваги Апріорного алгоритму

Він використовується для розрахунку великих наборів елементів.
Простий для розуміння та застосування.

Недоліки апріорних алгоритмів

Алгоритм Apriori є дорогим методом пошуку підтримки, оскільки обчислення має проходити через всю базу даних.
Іноді вам потрібна величезна кількість правил-кандидатів, тому це стає обчислювально дорожчим.