CRISP-DM означає міжгалузевий стандартний процес інтелектуального аналізу даних. Методологія CRISP-DM забезпечує структурований підхід до планування проекту інтелектуального аналізу даних. Це надійна та добре перевірена методологія. Ми не претендуємо на право власності на нього. Не ми це придумали. Ми перетворюємо його потужну практичність, гнучкість і корисність під час використання аналітики для вирішення бізнес-завдань. Це золота нитка, яка проходить майже через кожну зустріч з клієнтом.
Ця модель є ідеалізованою послідовністю подій. На практиці багато завдань можуть виконуватися в іншому порядку, і часто буде необхідно повернутися до попередніх завдань і повторити певні дії. Модель не намагається охопити всі можливі маршрути в процесі інтелектуального аналізу даних.
Як CRISP допомагає?
CRISP DM надає дорожню карту, надає найкращі методи роботи та надає структури для кращих і швидших результатів використання інтелектуального аналізу даних, тож саме так він допомагає бізнесу слідкувати під час планування та виконання проекту інтелектуального аналізу даних.
Фази CRISP-DM
CRISP-DM надає огляд життєвого циклу інтелектуального аналізу даних як модель процесу. Модель життєвого циклу включає шість фаз, зі стрілками, які вказують на найважливіші та часті залежності між фазами. Послідовність фаз не сувора. Більшість проектів за потреби переміщуються туди-сюди між фазами. Модель CRISP-DM є гнучкою і її можна легко налаштувати.
Наприклад, якщо ваша організація має на меті виявляти відмивання грошей, ви, швидше за все, будете просіювати великі обсяги даних без конкретної мети моделювання. Замість моделювання ваша робота буде зосереджена на дослідженні та візуалізації даних, щоб виявити підозрілі закономірності у фінансових даних. CRISP-DM дозволяє створити модель аналізу даних, яка відповідає вашим потребам.
Він містить опис типових етапів проекту, завдань, пов’язаних з кожним етапом, і пояснення зв’язків між цими завданнями.
Фаза 1: Розуміння бізнесу
Першим етапом процесу CRISP-DM є розуміння того, чого ви хочете досягти з точки зору бізнесу. Ваша організація може мати конкуруючі цілі та обмеження, які необхідно правильно збалансувати. Цей етап процесу спрямований на виявлення важливих факторів, що впливають на результат проекту. Нехтування цим кроком може означати, що багато зусиль буде докладено для отримання правильних відповідей на неправильні запитання.
Які бажані результати проекту?
Оцініть поточну ситуацію
що це означає xd
Це передбачає більш детальне встановлення фактів щодо ресурсів, обмежень, припущень та інших факторів, які вам потрібно буде враховувати під час визначення цілі аналізу даних і плану проекту.
- Персонал (бізнес-експерти, експерти з даних, технічна підтримка, експерти з аналізу даних)
- Дані (фіксовані витяги, доступ до живих, збережених або оперативних даних)
- Обчислювальні ресурси (апаратні платформи)
- Програмне забезпечення (інструменти аналізу даних, інше відповідне програмне забезпечення)
- Глосарій відповідної бізнес-термінології є частиною бізнес-розуміння, доступного для проекту. Складання цього глосарію є корисною «виявленням знань» і освітньою вправою.
- Глосарій термінології інтелектуального аналізу даних ілюструється прикладами, що стосуються бізнес-проблеми.
Визначте цілі аналізу даних
Бізнес-ціль визначає цілі в бізнес-термінології. Ціль інтелектуального аналізу даних визначає цілі проекту в технічних термінах. Наприклад, бізнес-ціллю може бути збільшення продажів за каталогом існуючим клієнтам. Мета аналізу даних може полягати в тому, щоб передбачити, скільки віджетів придбає клієнт, враховуючи їхні покупки за останні три роки, демографічну інформацію (вік, зарплата, місто тощо) і ціну товару.
Скласти план проекту
Опишіть передбачуваний план досягнення цілей інтелектуального аналізу даних і бізнес-цілей. У вашому плані повинні бути визначені кроки, які необхідно виконати протягом решти проекту, включаючи початковий вибір інструментів і методів.
1. План проекту: Перелічіть етапи, які необхідно виконати в проекті, із зазначенням їх тривалості, необхідних ресурсів, входів, виходів і залежностей. Там, де це можливо, спробуйте зробити чіткими широкомасштабні ітерації в процесі інтелектуального аналізу даних, наприклад, повторення фаз моделювання та оцінювання.
У рамках плану проекту важливо проаналізувати залежність між часовими графіками та ризиками. Позначте результати цих аналізів чітко в плані проекту, в ідеалі з діями та рекомендаціями, якщо ризики виявляться. Вирішіть, яка стратегія оцінювання буде використана на етапі оцінювання.
Ваш план проекту буде динамічним документом. Наприкінці кожного етапу ви переглядатимете прогрес і досягнення та відповідно оновлюватимете план проекту. Конкретні пункти перевірки цих оновлень мають бути частиною плану проекту.
2. Первинна оцінка інструментів і прийомів: Наприкінці першого етапу ви повинні провести початкову оцінку інструментів і методів. Наприклад, ви вибираєте інструмент аналізу даних, який підтримує різні методи для різних етапів процесу. Важливо оцінити інструменти та методи на початку процесу, оскільки вибір інструментів і методів може вплинути на весь проект.
Етап 2: Розуміння даних
На другому етапі процесу CRISP-DM потрібно отримати дані, перелічені в ресурсах проекту. Цей початковий збір включає завантаження даних, якщо це необхідно для розуміння даних. Наприклад, якщо ви використовуєте певний інструмент для розуміння даних, цілком доцільно завантажити свої дані в цей інструмент. Якщо ви отримуєте кілька джерел даних, вам потрібно розглянути, як і коли ви будете їх інтегрувати.
Опишіть дані
Вивчіть «масові» або «поверхневі» властивості отриманих даних і повідомте про результати.
скільки важить кат тімпф
Дослідити дані
На цьому етапі ви розв’яжете питання інтелектуального аналізу даних, використовуючи методи запитів, візуалізації даних і звітності. Вони можуть включати:
- Розподіл ключових атрибутів
- Зв’язки між парами або невеликою кількістю атрибутів
- Результати простих агрегацій
- Властивості значущих субпопуляцій
- Простий статистичний аналіз
Ці аналізи можуть безпосередньо стосуватися ваших цілей аналізу даних. Вони можуть сприяти або вдосконалювати опис даних і звіти про якість, а також брати участь у трансформації та інших етапах підготовки даних, необхідних для подальшого аналізу.
Перевірте якість даних
Вивчіть якість даних, відповідаючи на такі питання, як:
- Чи повні дані, чи охоплюють усі необхідні випадки?
- Чи він правильний, чи містить помилки, і якщо є, то наскільки вони поширені?
- Чи є в даних відсутні значення? Якщо так, то як вони представлені, де зустрічаються та наскільки поширені?
Звіт про якість даних
Перелічіть результати перевірки якості даних. Якщо існують проблеми з якістю, запропонуйте можливі рішення. Рішення проблем із якістю даних зазвичай значною мірою залежить від даних і бізнес-знань.
Етап 3: Підготовка даних
На цьому етапі проекту ви вирішуєте, які дані використовуватимете для аналізу. Критерії, які ви можете використовувати для прийняття цього рішення, включають відповідність даних вашим цілям інтелектуального аналізу даних, якість даних і технічні обмеження, такі як обмеження обсягу даних або типів даних.
Очистіть свої дані
Це завдання передбачає підвищення якості даних до рівня, необхідного для вибраних методів аналізу. Це може включати вибір чистих підмножин даних, вставлення відповідних значень за замовчуванням або більш амбітні методи, такі як оцінка відсутніх даних шляхом моделювання.
Побудуйте необхідні дані
Це завдання включає конструктивні операції підготовки даних, такі як створення похідних атрибутів, цілих нових записів або перетворених значень для існуючих атрибутів.
перевірка нуля в java
Інтегруйте дані
Ці методи поєднують інформацію з кількох баз даних, таблиць або записів для створення нових записів або значень.
Фаза 4: Моделювання
Виберіть техніку моделювання: на першому кроці ви виберете базову техніку моделювання, яку будете використовувати. Хоча ви, можливо, вже вибрали інструмент на етапі розуміння бізнесу, на цьому етапі ви виберете конкретну техніку моделювання, напр. побудова дерева рішень за допомогою C5.0 або генерація нейронної мережі із зворотним поширенням. Якщо застосовано кілька прийомів, виконайте це завдання окремо для кожного прийому.
додавання рядка в java
Створити дизайн тесту
Перш ніж побудувати модель, вам потрібно створити процедуру або механізм для перевірки якості та достовірності моделі. Наприклад, у контрольованих завданнях інтелектуального аналізу даних, таких як класифікація, часто використовують частоту помилок як показник якості для моделей інтелектуального аналізу даних. Тому ви зазвичай розділяєте набір даних на набори тренувань і тестів, будуєте модель на наборі курсів і оцінюєте її якість на окремому тестовому наборі.
Побудувати модель
Запустіть інструмент моделювання на підготовленому наборі даних, щоб створити одну або кілька моделей.
Оцініть модель
Інтерпретуйте моделі відповідно до ваших знань у галузі, критеріїв успішного аналізу даних і бажаного дизайну тесту. Оцініть успішність застосування методів моделювання та виявлення, а потім зв’яжіться з бізнес-аналітиками та експертами в галузі пізніше, щоб обговорити результати аналізу даних у бізнес-контексті. У цьому завданні розглядаються лише моделі, тоді як на етапі оцінки також розглядаються всі інші результати, отримані під час проекту.
На цьому етапі слід проранжувати моделі та оцінити їх за критеріями оцінки. Ви повинні враховувати бізнес-цілі та критерії успіху, наскільки це можливо. У більшості проектів інтелектуального аналізу даних один метод застосовується кілька разів, а результати інтелектуального аналізу даних генеруються за допомогою кількох різних методів.
Етап 5: Оцінка
Оцініть свої результати: на попередніх етапах оцінки враховувалися такі фактори, як точність і загальність моделі. Під час цього кроку ви оціните ступінь, до якого модель відповідає вашим бізнес-цілям, і спробуєте визначити, чи існує якась бізнес-причина, чому ця модель є недоліком. Іншим варіантом є тестування моделі на тестових програмах у реальній програмі, якщо дозволяють часові та бюджетні обмеження. Етап оцінки також включає оцінку будь-яких інших отриманих вами результатів аналізу даних. Результати інтелектуального аналізу даних охоплюють моделі, які обов’язково пов’язані з початковими бізнес-цілями, та всі інші висновки, які не обов’язково пов’язані з початковими бізнес-цілями, але також можуть виявити додаткові виклики, інформацію або підказки щодо майбутніх напрямків.
Процес огляду
На даний момент отримані моделі видаються задовільними та задовольняють потреби бізнесу. Тепер вам доцільно провести більш ретельний аналіз роботи з аналізом даних, щоб визначити, чи є важливий фактор або завдання, яке якимось чином було пропущено. Цей огляд також охоплює питання забезпечення якості. Наприклад: чи правильно ми побудували модель? Чи ми використовували лише ті атрибути, які нам дозволено використовувати і які доступні для майбутніх аналізів?
Визначте наступні кроки
Тепер ви вирішуєте, як діяти далі залежно від результатів оцінки та перегляду процесу. Ви завершуєте цей проект і переходите до розгортання, ініціюєте подальші ітерації чи створюєте нові проекти інтелектуального аналізу даних? Ви також повинні проаналізувати свої ресурси та бюджет, що залишилися, що може вплинути на ваші рішення.
Етап 6: Розгортання
Плануйте розгортання: на етапі розгортання ви візьмете результати оцінки та визначите стратегію їхнього розгортання. Якщо було визначено загальну процедуру для створення відповідної(их) моделі(й), ця процедура задокументована тут для подальшого розгортання. Має сенс розглянути шляхи та засоби розгортання на етапі розуміння бізнесу, оскільки розгортання має вирішальне значення для успіху проекту. Саме тут прогнозна аналітика допомагає покращити операційну сторону вашого бізнесу.
План моніторингу та обслуговування
Моніторинг і обслуговування є важливими питаннями, якщо результат аналізу даних стає частиною повсякденного бізнесу та його середовища. Ретельна підготовка стратегії обслуговування допомагає уникнути невиправдано тривалих періодів неправильного використання результатів аналізу даних. Проект потребує детального плану процесу моніторингу для моніторингу розгортання результатів аналізу даних. Цей план враховує конкретний тип розгортання.
Складіть остаточний звіт
Наприкінці проекту ви напишете підсумковий звіт. Залежно від плану розгортання, цей звіт може бути лише коротким викладом проекту та його досвіду (якщо вони ще не були задокументовані як поточна діяльність), або це може бути остаточне та вичерпне представлення результатів аналізу даних.
Огляд проекту
які розміри екрана мого комп’ютера
Оцініть, що було правильно, а що неправильно, що було зроблено добре, а що потребує вдосконалення.