logo

Що таке HIVE

Hive — це система сховища даних, яка використовується для аналізу структурованих даних. Він побудований на вершині Hadoop. Його розробила компанія Facebook.

Hive забезпечує функціональність читання, запису та керування великими наборами даних, які зберігаються в розподіленому сховищі. Він запускає SQL-запити під назвою HQL (мова запитів Hive), які внутрішньо перетворюються на завдання MapReduce.

як перейменувати каталог в linux

Використовуючи Hive, ми можемо пропустити вимогу традиційного підходу до написання складних програм MapReduce. Hive підтримує мову визначення даних (DDL), мову обробки даних (DML) і функції, визначені користувачем (UDF).

Особливості Hive

Ось такі функції Hive:

  • Hive швидкий і масштабований.
  • Він надає SQL-подібні запити (тобто HQL), які неявно перетворюються на завдання MapReduce або Spark.
  • Він здатний аналізувати великі набори даних, що зберігаються в HDFS.
  • Він підтримує різні типи зберігання, такі як простий текст, RCFile і HBase.
  • Він використовує індексування для прискорення запитів.
  • Він може працювати зі стислими даними, що зберігаються в екосистемі Hadoop.
  • Він підтримує функції, визначені користувачем (UDF), де користувач може надати свої функції.

Обмеження Hive

  • Hive не може обробляти дані в реальному часі.
  • Він не призначений для обробки онлайн-транзакцій.
  • Запити Hive містять високу затримку.

Відмінності між вуликом і свинею

Вулик свиня
Hive зазвичай використовується аналітиками даних. Pig зазвичай використовується програмістами.
Він слідує SQL-подібним запитам. Він відповідає мові потоку даних.
Він може обробляти структуровані дані. Він може обробляти напівструктуровані дані.
Він працює на сервері кластера HDFS. Він працює на стороні клієнта кластера HDFS.
Вулик повільніший за Свиню. Pig порівняно швидший за Hive.