Наука про дані обертається навколо обробки та аналізу даних за допомогою низки інструментів і методів. У сучасному світі, що керується даними, ми стикаємося з типами даних, кожен з яких потребує обробки та інтерпретації. Важливо розуміти різні типи даних для правильного аналізу та статистичної інтерпретації даних. Тип даних визначає відповідні статистичні методи та операції, які слід використовувати. Різні типи даних потребують різних методів аналізу та інтерпретації, щоб зробити важливі висновки. У цій статті ми розглянемо концепцію даних і їх значення, наведемо реальні приклади та допоможемо вам працювати з ними.
Рівні вимірювання
Перш ніж аналізувати набір даних, дуже важливо визначити тип даних, які він містить. На щастя, усі дані можна згрупувати в одну з чотирьох категорій: номінальні, порядкові, інтервальні або коефіцієнтні дані. Хоча їх часто називають типами даних, насправді це різні рівні вимірювання. Рівень вимірювання відображає точність, з якою змінна була кількісно визначена, і він визначає методи, які можна використовувати для отримання розуміння з даних.
Чотири категорії даних не завжди легко розрізнити, вони належать до ієрархії, де кожен рівень будується на попередньому.

Є чотири типи даних: категоричні, які можна далі поділити на номінальні та порядкові, і числові, які можна додатково поділити на інтервальні та співвідношення. Номінальна та порядкова шкали є відносно неточними, що полегшує їх аналіз, але вони пропонують менш точне розуміння. З іншого боку, шкали інтервалів і співвідношень є складнішими і їх важко аналізувати, але вони мають потенціал, щоб надати набагато більш детальну інформацію.
- Номінальні дані – Номінальні дані – це базовий тип даних, який класифікує дані за допомогою міток або імен значень, таких як стать, колір волосся або види тварин. Він не має жодної ієрархії.
- Порядкові дані – Порядкові дані включають класифікацію даних на основі рангу, наприклад соціального статусу, за такими категоріями, як «багатий», «середній дохід» або «бідний». Однак між цими категоріями немає встановлених інтервалів.
- Інтервальні дані – Інтервальні дані – це спосіб організації та порівняння даних, який включає виміряні інтервали. Температурні шкали, такі як Цельсій або Фаренгейт, є хорошими прикладами інтервальних даних. Однак дані про інтервали не мають справжнього нуля, тобто вимірювання нуля все ще може представляти кількісну міру (наприклад, нуль градусів за Цельсієм, що є лише ще одним пунктом на шкалі і насправді не означає, що температура відсутня). .
- Дані співвідношення – Найскладніший рівень вимірювання – дані співвідношення. Подібно до інтервальних даних, він класифікує та впорядковує дані, використовуючи виміряні інтервали. Але, на відміну від інтервальних даних, дані співвідношення містять справжній нуль. Коли змінна дорівнює нулю, ця змінна відсутня. Яскравою ілюстрацією даних співвідношення є вимірювання висоти, яке не може бути від’ємним.
Що таке номінальні дані?
Категориальні дані, також відомі як номінальні дані, є важливим типом інформації, яка використовується в різноманітних сферах, таких як дослідження, статистика та аналіз даних. Він складається з категорій або міток, які допомагають класифікувати та впорядковувати дані. Суттєвою особливістю категоріальних даних є те, що вони не мають жодного внутрішнього порядку чи ранжування серед своїх категорій. Натомість ці категорії окремі, різні та взаємовиключні.

Наприклад, номінальні дані використовуються для класифікації інформації за різними мітками або категоріями без будь-якого природного порядку чи ранжирування. Ці мітки або категорії представлені за допомогою імен або термінів, і серед них немає природного порядку чи ранжирування. Номінальні дані корисні для якісної класифікації та організації інформації, дозволяючи дослідникам і аналітикам групувати точки даних на основі конкретних атрибутів або характеристик без будь-яких числових зв’язків.
- Категорії кольору очей, такі як блакитний або зелений, представляють номінальні дані. Кожна категорія є окремою, без порядку чи рейтингу.
- Такі бренди смартфонів, як iPhone або Samsung, є номінальними даними. Серед брендів немає ієрархії.
- Види транспорту, такі як автомобіль чи велосипед, є номінальними даними. Вони являють собою окремі категорії без внутрішнього порядку.
Характеристика номінальних даних
- Дані, класифіковані як номінальні, складаються з категорій, які повністю відокремлені та відмінні одна від одної.
- Дані, які підпадають під номінальну категорію, виділяються описовими мітками, а не будь-яким числовим або кількісним значенням
- Номінальні дані не можна ранжувати або впорядкувати ієрархічно, оскільки жодна категорія не є вищою або нижчою за іншу.
приклад
Ось кілька прикладів того, як номінальні дані використовуються для класифікації та категоризації інформації на окремі та невпорядковані категорії:
1. Кольори автомобіля: Кольори автомобілів – це номінальні дані з чіткими категоріями, але без внутрішнього порядку чи рейтингу. Кожен автомобіль відноситься до однієї кольорової категорії без будь-якого логічного чи числового зв’язку між кольорами.
2. Види фруктів: Категорії фруктів у кошику іменні. Кожен фрукт належить до певної категорії без ієрархії чи порядку. Усі категорії відрізняються та дискретні.
3. Жанри фільму: Жанри фільмів є номінальними даними, оскільки серед таких категорій, як бойовик чи комедія, немає рейтингу. Кожен жанр унікальний, але ми не можемо сказати, чи один кращий за інший, виходячи лише з цих даних.
Що таке порядкові дані?
Порядкові дані — це форма якісних даних, яка класифікує змінні за описовими категоріями. Він характеризується тим, що категорії, які він використовує, ранжуються за певною ієрархічною шкалою, наприклад, від високого до низького. Порядкові дані є другим за складністю типом вимірювань після номінальних даних. Хоча це складніше, ніж номінальні дані, у яких відсутній будь-який притаманний порядок, все ж відносно спрощено.

Наприклад, порядкові дані — це тип даних, який використовується для категоризації елементів зі змістовною ієрархією або порядком. Ці категорії допомагають нам порівнювати та ранжувати різні досягнення, позиції чи продуктивність учнів, навіть якщо інтервали між ними не однакові. Порядкові дані корисні для розуміння впорядкованих виборів або переваг і для оцінки відносних відмінностей.
- Шкільні оцінки: такі оцінки як A, B, C є порядковими даними, упорядкованими за досягненнями, але інтервали між ними відрізняються.
- Рівень освіти: такі рівні, як середня школа, бакалавр, магістр, є порядковими даними, упорядкованими за освітою, але прогалини між рівнями відрізняються.
- Рівень стажу роботи: такі рівні роботи, як початковий, середній, старший, є порядковими даними, що вказують на ієрархію, але розрив залежить від роботи та галузі.
Характеристика порядкових даних
- Порядкові дані підпадають під категорію нечислових і категоріальних даних, але вони все одно можуть використовувати числові значення як мітки.
- Порядкові дані завжди ранжуються в ієрархії (звідси назва «порядкові»).
- Порядкові дані можуть бути ранжовані, але їхні значення розподілені нерівномірно.
- За допомогою порядкових даних можна обчислити частотний розподіл, моду, медіану та діапазон змінних.
приклад
Ось кілька прикладів використання порядкових даних у полях і доменах:
1. Освітні рівні: Порядкові дані зазвичай використовуються для представлення рівнів освіти, таких як школа, ступінь бакалавра, ступінь магістра та доктор філософії. Ці рівні мають порядок.
2. Оцінки задоволеності клієнтів: Ще одне застосування даних – опитування задоволеності клієнтів. Ці опитування часто просять респондентів оцінити свій досвід за шкалою від поганого до відмінного.
3. Економічні класи: класи, включаючи середній клас і вищий клас, можуть бути класифіковані як порядкові дані на основі їх рейтингу.
Ці приклади демонструють способи використання порядкових даних у полях і доменах.
Номінальні та звичайні дані
| характеристики | Номінальні дані | Порядкові дані |
|---|---|---|
| Природа категорій | Виразний і дискретний | Дискретний і виразний |
| Порядок/Рейтинг | Немає внутрішнього порядку | Має чіткий порядок або рейтинг |
| Числові значення | Немає значущих числових значень | Немає значущих числових значень |
| Техніка аналізу | Підрахунки частоти, відсотки, стовпчасті діаграми | Ранжування, медіана, непараметричні тести, упорядковані стовпчасті діаграми, порядкова регресія |
| приклад | Забарвлення, стать, види тварин бінарне дерево пошуку] | Шкільні оцінки, рівень освіти, рівень стажу |
| Інтерпретація | Використовується для класифікації та групування на основі категорії | Використовується для оцінки впорядкованих уподобань, ієрархії або рейтингу |