logo

Що таке CRISP в Data Mining?

CRISP-DM означає міжгалузевий стандартний процес інтелектуального аналізу даних. Методологія CRISP-DM забезпечує структурований підхід до планування проекту інтелектуального аналізу даних. Це надійна та добре перевірена методологія. Ми не претендуємо на право власності на нього. Не ми це придумали. Ми перетворюємо його потужну практичність, гнучкість і корисність під час використання аналітики для вирішення бізнес-завдань. Це золота нитка, яка проходить майже через кожну зустріч з клієнтом.

Ця модель є ідеалізованою послідовністю подій. На практиці багато завдань можуть виконуватися в іншому порядку, і часто буде необхідно повернутися до попередніх завдань і повторити певні дії. Модель не намагається охопити всі можливі маршрути в процесі інтелектуального аналізу даних.

Як CRISP допомагає?

CRISP DM надає дорожню карту, надає найкращі методи роботи та надає структури для кращих і швидших результатів використання інтелектуального аналізу даних, тож саме так він допомагає бізнесу слідкувати під час планування та виконання проекту інтелектуального аналізу даних.

Фази CRISP-DM

CRISP-DM надає огляд життєвого циклу інтелектуального аналізу даних як модель процесу. Модель життєвого циклу включає шість фаз, зі стрілками, які вказують на найважливіші та часті залежності між фазами. Послідовність фаз не сувора. Більшість проектів за потреби переміщуються туди-сюди між фазами. Модель CRISP-DM є гнучкою і її можна легко налаштувати.

Наприклад, якщо ваша організація має на меті виявляти відмивання грошей, ви, швидше за все, будете просіювати великі обсяги даних без конкретної мети моделювання. Замість моделювання ваша робота буде зосереджена на дослідженні та візуалізації даних, щоб виявити підозрілі закономірності у фінансових даних. CRISP-DM дозволяє створити модель аналізу даних, яка відповідає вашим потребам.

Він містить опис типових етапів проекту, завдань, пов’язаних з кожним етапом, і пояснення зв’язків між цими завданнями.

Що таке CRISP в Data Mining

Фаза 1: Розуміння бізнесу

Першим етапом процесу CRISP-DM є розуміння того, чого ви хочете досягти з точки зору бізнесу. Ваша організація може мати конкуруючі цілі та обмеження, які необхідно правильно збалансувати. Цей етап процесу спрямований на виявлення важливих факторів, що впливають на результат проекту. Нехтування цим кроком може означати, що багато зусиль буде докладено для отримання правильних відповідей на неправильні запитання.

Які бажані результати проекту?

    Поставте цілі:Опишіть свою головну мету з точки зору бізнесу. Також можуть бути інші пов’язані запитання, які ви хотіли б згадати. Наприклад, вашою основною метою може бути утримання поточних клієнтів шляхом прогнозування, коли вони будуть схильні переходити до конкурента.Скласти план проекту:Опишіть план досягнення інтелектуального аналізу даних і бізнес-цілей. План повинен визначати кроки, які необхідно виконати протягом решти проекту, включаючи початковий вибір інструментів і методів.Критерії успішності бізнесу:Тут ви викладете критерії, за якими ви будете визначати, чи був проект успішним з точки зору бізнесу. В ідеалі вони повинні бути конкретними та такими, що піддаються вимірюванню, наприклад, зменшувати кількість клієнтів до певного рівня. Однак іноді може знадобитися більш суб’єктивний критерій, наприклад надання корисної інформації про відносини.

Оцініть поточну ситуацію

що це означає xd

Це передбачає більш детальне встановлення фактів щодо ресурсів, обмежень, припущень та інших факторів, які вам потрібно буде враховувати під час визначення цілі аналізу даних і плану проекту.

    Інвентаризація ресурсів:Перелічіть ресурси, доступні для проекту, зокрема:
    • Персонал (бізнес-експерти, експерти з даних, технічна підтримка, експерти з аналізу даних)
    • Дані (фіксовані витяги, доступ до живих, збережених або оперативних даних)
    • Обчислювальні ресурси (апаратні платформи)
    • Програмне забезпечення (інструменти аналізу даних, інше відповідне програмне забезпечення)
    Вимоги, припущення та обмеження:Перелічіть усі вимоги проекту, включаючи графік завершення, необхідну зрозумілість і якість результатів, а також будь-які проблеми безпеки даних і юридичні проблеми. Переконайтеся, що вам дозволено використовувати дані. Перелічіть припущення, зроблені проектом. Це можуть бути припущення щодо даних, які можна перевірити під час інтелектуального аналізу даних, але також можуть включати неперевірені припущення щодо бізнесу, пов’язаного з проектом. Важливо вказати останні, якщо вони впливають на достовірність результатів. Перелічіть обмеження проекту. Це можуть бути обмеження щодо доступності ресурсів, але також можуть включати технологічні обмеження, такі як розмір набору даних, який практично можна використовувати для моделювання.Ризики та непередбачені обставини:Перелічіть ризики або події, які можуть затримати проект або спричинити його провал. Перелічіть відповідні плани на випадок надзвичайних ситуацій, наприклад, які дії ви вживатимете, якщо виникнуть ці ризики чи події?Термінологія:Складіть глосарій термінології, що стосується проекту. Зазвичай це буде складатися з двох компонентів:
    • Глосарій відповідної бізнес-термінології є частиною бізнес-розуміння, доступного для проекту. Складання цього глосарію є корисною «виявленням знань» і освітньою вправою.
    • Глосарій термінології інтелектуального аналізу даних ілюструється прикладами, що стосуються бізнес-проблеми.
    Витрати та переваги:Створіть аналіз витрат і вигод для проекту, який порівнює витрати проекту з потенційними вигодами для бізнесу в разі його успіху. Це порівняння має бути максимально конкретним. Наприклад, ви повинні використовувати фінансові заходи в комерційній ситуації.

Визначте цілі аналізу даних

Бізнес-ціль визначає цілі в бізнес-термінології. Ціль інтелектуального аналізу даних визначає цілі проекту в технічних термінах. Наприклад, бізнес-ціллю може бути збільшення продажів за каталогом існуючим клієнтам. Мета аналізу даних може полягати в тому, щоб передбачити, скільки віджетів придбає клієнт, враховуючи їхні покупки за останні три роки, демографічну інформацію (вік, зарплата, місто тощо) і ціну товару.

    Критерії успішності бізнесу:Він описує очікувані результати проекту, які дозволяють досягти бізнес-цілей.Критерії успіху аналізу даних:Він визначає критерії успішного результату проекту. Наприклад, певний рівень точності прогнозування або профіль схильності до покупки з заданим ступенем «підйому». Як і у випадку з критеріями успіху бізнесу, може виникнути необхідність описати їх у суб’єктивних термінах, і в цьому випадку слід ідентифікувати особу чи осіб, які роблять суб’єктивне судження.

Скласти план проекту

Опишіть передбачуваний план досягнення цілей інтелектуального аналізу даних і бізнес-цілей. У вашому плані повинні бути визначені кроки, які необхідно виконати протягом решти проекту, включаючи початковий вибір інструментів і методів.

1. План проекту: Перелічіть етапи, які необхідно виконати в проекті, із зазначенням їх тривалості, необхідних ресурсів, входів, виходів і залежностей. Там, де це можливо, спробуйте зробити чіткими широкомасштабні ітерації в процесі інтелектуального аналізу даних, наприклад, повторення фаз моделювання та оцінювання.

У рамках плану проекту важливо проаналізувати залежність між часовими графіками та ризиками. Позначте результати цих аналізів чітко в плані проекту, в ідеалі з діями та рекомендаціями, якщо ризики виявляться. Вирішіть, яка стратегія оцінювання буде використана на етапі оцінювання.

Ваш план проекту буде динамічним документом. Наприкінці кожного етапу ви переглядатимете прогрес і досягнення та відповідно оновлюватимете план проекту. Конкретні пункти перевірки цих оновлень мають бути частиною плану проекту.

2. Первинна оцінка інструментів і прийомів: Наприкінці першого етапу ви повинні провести початкову оцінку інструментів і методів. Наприклад, ви вибираєте інструмент аналізу даних, який підтримує різні методи для різних етапів процесу. Важливо оцінити інструменти та методи на початку процесу, оскільки вибір інструментів і методів може вплинути на весь проект.

Етап 2: Розуміння даних

На другому етапі процесу CRISP-DM потрібно отримати дані, перелічені в ресурсах проекту. Цей початковий збір включає завантаження даних, якщо це необхідно для розуміння даних. Наприклад, якщо ви використовуєте певний інструмент для розуміння даних, цілком доцільно завантажити свої дані в цей інструмент. Якщо ви отримуєте кілька джерел даних, вам потрібно розглянути, як і коли ви будете їх інтегрувати.

    Початковий звіт про збір даних:Перелічіть отримані джерела даних, їх розташування, методи, використані для їх отримання, і будь-які проблеми, які виникли. Записуйте проблеми, з якими ви зіткнулися, і будь-які досягнуті рішення. Це допоможе з майбутнім тиражуванням цього проекту та виконанням подібних майбутніх проектів.

Опишіть дані

Вивчіть «масові» або «поверхневі» властивості отриманих даних і повідомте про результати.

скільки важить кат тімпф
    Звіт з описом даних:Опишіть зібрані дані, включаючи їх формат, кількість, ідентичність полів та будь-які інші виявлені особливості поверхні. Оцініть, чи відповідають отримані дані вашим вимогам.

Дослідити дані

На цьому етапі ви розв’яжете питання інтелектуального аналізу даних, використовуючи методи запитів, візуалізації даних і звітності. Вони можуть включати:

  • Розподіл ключових атрибутів
  • Зв’язки між парами або невеликою кількістю атрибутів
  • Результати простих агрегацій
  • Властивості значущих субпопуляцій
  • Простий статистичний аналіз

Ці аналізи можуть безпосередньо стосуватися ваших цілей аналізу даних. Вони можуть сприяти або вдосконалювати опис даних і звіти про якість, а також брати участь у трансформації та інших етапах підготовки даних, необхідних для подальшого аналізу.

    Звіт про дослідження даних:Опишіть результати вашого дослідження даних, включаючи перші висновки або початкову гіпотезу та їхній вплив на решту проекту. Якщо це доцільно, ви можете включити тут графіки та графіки, щоб вказати характеристики даних, які пропонують подальше вивчення цікавих підмножин даних.

Перевірте якість даних

Вивчіть якість даних, відповідаючи на такі питання, як:

  • Чи повні дані, чи охоплюють усі необхідні випадки?
  • Чи він правильний, чи містить помилки, і якщо є, то наскільки вони поширені?
  • Чи є в даних відсутні значення? Якщо так, то як вони представлені, де зустрічаються та наскільки поширені?

Звіт про якість даних

Перелічіть результати перевірки якості даних. Якщо існують проблеми з якістю, запропонуйте можливі рішення. Рішення проблем із якістю даних зазвичай значною мірою залежить від даних і бізнес-знань.

Етап 3: Підготовка даних

На цьому етапі проекту ви вирішуєте, які дані використовуватимете для аналізу. Критерії, які ви можете використовувати для прийняття цього рішення, включають відповідність даних вашим цілям інтелектуального аналізу даних, якість даних і технічні обмеження, такі як обмеження обсягу даних або типів даних.

    Обґрунтування включення/виключення:Перелічіть дані, які потрібно включити/виключити, і причини цих рішень.

Очистіть свої дані

Це завдання передбачає підвищення якості даних до рівня, необхідного для вибраних методів аналізу. Це може включати вибір чистих підмножин даних, вставлення відповідних значень за замовчуванням або більш амбітні методи, такі як оцінка відсутніх даних шляхом моделювання.

    Звіт про очищення даних:Опишіть, які рішення та дії ви вжили для вирішення проблем якості даних. Розгляньте будь-які перетворення даних, зроблені з метою очищення, і їхній можливий вплив на результати аналізу.

Побудуйте необхідні дані

Це завдання включає конструктивні операції підготовки даних, такі як створення похідних атрибутів, цілих нових записів або перетворених значень для існуючих атрибутів.

перевірка нуля в java
    Похідні атрибути:Це нові атрибути, створені з одного або кількох існуючих атрибутів у тому самому записі. Наприклад, ви можете використовувати змінні довжини та ширини для обчислення нової змінної площі.Згенеровані записи:Тут ви описуєте створення абсолютно нових записів. Наприклад, вам може знадобитися створити записи для клієнтів, які не купували протягом минулого року. Не було причин мати такі записи в необроблених даних. Тим не менш, може мати сенс представити, що конкретні клієнти явно не зробили нульових покупок для цілей моделювання.

Інтегруйте дані

Ці методи поєднують інформацію з кількох баз даних, таблиць або записів для створення нових записів або значень.

    Об’єднані дані:Об’єднання таблиць означає об’єднання двох або більше таблиць з різною інформацією про ті самі об’єкти. Наприклад, мережа роздрібної торгівлі може мати одну таблицю з інформацією про загальні характеристики кожного магазину (наприклад, площа, тип торгового центру), іншу таблицю з узагальненими даними про продажі (наприклад, прибуток, відсоткова зміна продажів за попередній рік) і інша з інформацією про демографію навколишнього регіону. Кожна з цих таблиць містить один запис для кожного магазину. Ці таблиці можна об’єднати в нову таблицю з одним записом для кожного сховища, об’єднавши поля з вихідних таблиць.Агрегації:Агрегації — це операції, під час яких нові значення обчислюються шляхом узагальнення інформації з кількох записів або таблиць. Наприклад, перетворення таблиці покупок клієнтів, де один запис для кожної покупки, у нову таблицю та один запис для кожного клієнта з такими полями, як кількість покупок, середня сума покупки, відсоток замовлень, стягнених з кредитної картки, відсоток товарів під підвищенням тощо.

Фаза 4: Моделювання

Виберіть техніку моделювання: на першому кроці ви виберете базову техніку моделювання, яку будете використовувати. Хоча ви, можливо, вже вибрали інструмент на етапі розуміння бізнесу, на цьому етапі ви виберете конкретну техніку моделювання, напр. побудова дерева рішень за допомогою C5.0 або генерація нейронної мережі із зворотним поширенням. Якщо застосовано кілька прийомів, виконайте це завдання окремо для кожного прийому.

додавання рядка в java
    Техніка моделювання:Задокументуйте основну техніку моделювання, яка буде використана.Припущення моделювання:Багато методів моделювання роблять конкретні припущення щодо даних, наприклад, що всі атрибути мають рівномірний розподіл, жодні пропущені значення не допускаються, атрибут класу має бути символічним тощо. Запишіть усі зроблені припущення.

Створити дизайн тесту

Перш ніж побудувати модель, вам потрібно створити процедуру або механізм для перевірки якості та достовірності моделі. Наприклад, у контрольованих завданнях інтелектуального аналізу даних, таких як класифікація, часто використовують частоту помилок як показник якості для моделей інтелектуального аналізу даних. Тому ви зазвичай розділяєте набір даних на набори тренувань і тестів, будуєте модель на наборі курсів і оцінюєте її якість на окремому тестовому наборі.

    Дизайн тесту:Опишіть передбачуваний план навчання, тестування та оцінювання моделей. Основним компонентом плану є визначення того, як розділити доступний набір даних на набори даних для навчання, тестування та перевірки.

Побудувати модель

Запустіть інструмент моделювання на підготовленому наборі даних, щоб створити одну або кілька моделей.

    Налаштування параметрів:У будь-якому інструменті моделювання часто існує велика кількість параметрів, які можна налаштувати. Перелічіть параметри, їх значення та обґрунтування вибору налаштувань параметрів.Моделі:Це моделі, створені інструментом моделювання, а не звіт про моделі.Опис моделей:Опишіть отримані моделі, повідомте про інтерпретацію моделей і задокументуйте будь-які труднощі, що виникли з їхніми значеннями.

Оцініть модель

Інтерпретуйте моделі відповідно до ваших знань у галузі, критеріїв успішного аналізу даних і бажаного дизайну тесту. Оцініть успішність застосування методів моделювання та виявлення, а потім зв’яжіться з бізнес-аналітиками та експертами в галузі пізніше, щоб обговорити результати аналізу даних у бізнес-контексті. У цьому завданні розглядаються лише моделі, тоді як на етапі оцінки також розглядаються всі інші результати, отримані під час проекту.

На цьому етапі слід проранжувати моделі та оцінити їх за критеріями оцінки. Ви повинні враховувати бізнес-цілі та критерії успіху, наскільки це можливо. У більшості проектів інтелектуального аналізу даних один метод застосовується кілька разів, а результати інтелектуального аналізу даних генеруються за допомогою кількох різних методів.

    Оцінка моделі:Узагальнює результати цього завдання, перераховує якості створених вами моделей (наприклад, з точки зору точності) і ранжує їх якість одна з одною.Переглянуті налаштування параметрів:Відповідно до оцінки моделі перегляньте їх і налаштуйте для наступного моделювання. Повторюйте побудову та оцінку моделі, доки не переконаєтеся, що знайшли найкращу(і) модель(и). Документуйте всі такі перегляди та оцінки.

Етап 5: Оцінка

Оцініть свої результати: на попередніх етапах оцінки враховувалися такі фактори, як точність і загальність моделі. Під час цього кроку ви оціните ступінь, до якого модель відповідає вашим бізнес-цілям, і спробуєте визначити, чи існує якась бізнес-причина, чому ця модель є недоліком. Іншим варіантом є тестування моделі на тестових програмах у реальній програмі, якщо дозволяють часові та бюджетні обмеження. Етап оцінки також включає оцінку будь-яких інших отриманих вами результатів аналізу даних. Результати інтелектуального аналізу даних охоплюють моделі, які обов’язково пов’язані з початковими бізнес-цілями, та всі інші висновки, які не обов’язково пов’язані з початковими бізнес-цілями, але також можуть виявити додаткові виклики, інформацію або підказки щодо майбутніх напрямків.

    Оцінка результатів аналізу даних:Узагальніть результати оцінки в критеріях успіху бізнесу, включаючи остаточне твердження щодо того, чи відповідає проект початковим цілям бізнесу.Затверджені моделі:Після оцінки моделей за критеріями успішності бізнесу згенеровані моделі, які відповідають вибраним критеріям, стають затвердженими моделями.

Процес огляду

На даний момент отримані моделі видаються задовільними та задовольняють потреби бізнесу. Тепер вам доцільно провести більш ретельний аналіз роботи з аналізом даних, щоб визначити, чи є важливий фактор або завдання, яке якимось чином було пропущено. Цей огляд також охоплює питання забезпечення якості. Наприклад: чи правильно ми побудували модель? Чи ми використовували лише ті атрибути, які нам дозволено використовувати і які доступні для майбутніх аналізів?

    Огляд процесу:Підведіть підсумок огляду процесу та виділіть дії, які були пропущені, і ті, які слід повторити.

Визначте наступні кроки

Тепер ви вирішуєте, як діяти далі залежно від результатів оцінки та перегляду процесу. Ви завершуєте цей проект і переходите до розгортання, ініціюєте подальші ітерації чи створюєте нові проекти інтелектуального аналізу даних? Ви також повинні проаналізувати свої ресурси та бюджет, що залишилися, що може вплинути на ваші рішення.

    Список можливих дій:Перелічіть можливі подальші дії та причини за та проти кожного варіанту.Рішення:Опишіть рішення щодо подальших дій разом із обґрунтуванням.

Етап 6: Розгортання

Плануйте розгортання: на етапі розгортання ви візьмете результати оцінки та визначите стратегію їхнього розгортання. Якщо було визначено загальну процедуру для створення відповідної(их) моделі(й), ця процедура задокументована тут для подальшого розгортання. Має сенс розглянути шляхи та засоби розгортання на етапі розуміння бізнесу, оскільки розгортання має вирішальне значення для успіху проекту. Саме тут прогнозна аналітика допомагає покращити операційну сторону вашого бізнесу.

    План розгортання:Узагальніть свою стратегію розгортання, включаючи необхідні кроки та способи їх виконання.

План моніторингу та обслуговування

Моніторинг і обслуговування є важливими питаннями, якщо результат аналізу даних стає частиною повсякденного бізнесу та його середовища. Ретельна підготовка стратегії обслуговування допомагає уникнути невиправдано тривалих періодів неправильного використання результатів аналізу даних. Проект потребує детального плану процесу моніторингу для моніторингу розгортання результатів аналізу даних. Цей план враховує конкретний тип розгортання.

    План моніторингу та обслуговування:Узагальніть стратегію моніторингу та обслуговування, включаючи необхідні кроки та способи їх виконання.

Складіть остаточний звіт

Наприкінці проекту ви напишете підсумковий звіт. Залежно від плану розгортання, цей звіт може бути лише коротким викладом проекту та його досвіду (якщо вони ще не були задокументовані як поточна діяльність), або це може бути остаточне та вичерпне представлення результатів аналізу даних.

    Підсумковий звіт:Це остаточний письмовий звіт про участь у видобутку даних. Він включає всі попередні результати, узагальнюючи та систематизуючи результати.Фінальна презентація:Після завершення проекту часто проводяться зустрічі, на яких результати представлені клієнту.

Огляд проекту

які розміри екрана мого комп’ютера

Оцініть, що було правильно, а що неправильно, що було зроблено добре, а що потребує вдосконалення.

    Документація досвіду:Узагальніть важливий досвід, отриманий під час проекту. Наприклад, ця документація може містити будь-які підводні камені, з якими ви зіткнулися, оманливі підходи або підказки щодо вибору найкращих методів аналізу даних у подібних ситуаціях. В ідеальних проектах документація досвіду також охоплює будь-які звіти, які окремі учасники проекту написали на попередніх етапах проекту.