Hive — це система сховища даних, яка використовується для аналізу структурованих даних. Він побудований на вершині Hadoop. Його розробила компанія Facebook.
Hive забезпечує функціональність читання, запису та керування великими наборами даних, які зберігаються в розподіленому сховищі. Він запускає SQL-запити під назвою HQL (мова запитів Hive), які внутрішньо перетворюються на завдання MapReduce.
як перейменувати каталог в linux
Використовуючи Hive, ми можемо пропустити вимогу традиційного підходу до написання складних програм MapReduce. Hive підтримує мову визначення даних (DDL), мову обробки даних (DML) і функції, визначені користувачем (UDF).
Особливості Hive
Ось такі функції Hive:
- Hive швидкий і масштабований.
- Він надає SQL-подібні запити (тобто HQL), які неявно перетворюються на завдання MapReduce або Spark.
- Він здатний аналізувати великі набори даних, що зберігаються в HDFS.
- Він підтримує різні типи зберігання, такі як простий текст, RCFile і HBase.
- Він використовує індексування для прискорення запитів.
- Він може працювати зі стислими даними, що зберігаються в екосистемі Hadoop.
- Він підтримує функції, визначені користувачем (UDF), де користувач може надати свої функції.
Обмеження Hive
- Hive не може обробляти дані в реальному часі.
- Він не призначений для обробки онлайн-транзакцій.
- Запити Hive містять високу затримку.
Відмінності між вуликом і свинею
Вулик | свиня |
---|---|
Hive зазвичай використовується аналітиками даних. | Pig зазвичай використовується програмістами. |
Він слідує SQL-подібним запитам. | Він відповідає мові потоку даних. |
Він може обробляти структуровані дані. | Він може обробляти напівструктуровані дані. |
Він працює на сервері кластера HDFS. | Він працює на стороні клієнта кластера HDFS. |
Вулик повільніший за Свиню. | Pig порівняно швидший за Hive. |