logo

Підручник Apache Spark

Підручник Apache Spark

Підручник Apache Spark містить базові та розширені концепції Spark. Наш підручник Spark призначений для початківців і професіоналів.

Spark — це уніфікований механізм аналітики для великомасштабної обробки даних, включаючи вбудовані модулі для SQL, потокової передачі, машинного навчання та обробки графіків.

Наш навчальний посібник із Spark включає всі теми Apache Spark із вступом до Spark, інсталяцією Spark, архітектурою Spark, компонентами Spark, RDD, прикладами Spark у реальному часі тощо.

Що таке Spark?

Apache Spark — це платформа кластерних обчислень з відкритим кодом. Його основна мета — обробка даних, згенерованих у реальному часі.

Spark було створено на основі Hadoop MapReduce. Він був оптимізований для роботи в пам’яті, тоді як альтернативні підходи, такі як MapReduce від Hadoop, записують дані на жорсткі диски комп’ютера та з них. Таким чином, Spark обробляє дані набагато швидше, ніж інші альтернативи.

Історія Apache Spark

Іскра була ініційована Матеєм Захарією з UC Berkeley's AMLab у 2009 році. У 2010 році він був відкритий за ліцензією BSD.

У 2013 році проект придбала Apache Software Foundation. У 2014 році Spark став проектом Apache верхнього рівня.

Особливості Apache Spark

    швидко- Він забезпечує високу продуктивність як для пакетних, так і для потокових даних, використовуючи найсучасніший планувальник DAG, оптимізатор запитів і механізм фізичного виконання.Простий у використанні- Це полегшує написання програми на Java, Scala, Python, R і SQL. Він також надає понад 80 операторів високого рівня.Загальність- Він надає колекцію бібліотек, включаючи SQL і DataFrames, MLlib для машинного навчання, GraphX ​​і Spark Streaming.Легкий- Це легкий уніфікований механізм аналітики, який використовується для великомасштабної обробки даних.Бігає всюди- Він може легко працювати на Hadoop, Apache Mesos, Kubernetes, автономно або в хмарі.

Використання Spark

    Інтеграція даних:Дані, створені системами, недостатньо узгоджені, щоб об’єднати їх для аналізу. Щоб отримати узгоджені дані із систем, ми можемо використовувати такі процеси, як вилучення, перетворення та завантаження (ETL). Spark використовується для зменшення вартості та часу, необхідних для цього процесу ETL.Обробка потоку:Завжди складно працювати з даними, створеними в реальному часі, наприклад файлами журналів. Spark достатньо здатний працювати з потоками даних і відмовляється від потенційно шахрайських операцій.Машинне навчання:Завдяки збільшенню обсягу даних підходи машинного навчання стають більш здійсненними та точнішими. Оскільки spark здатний зберігати дані в пам’яті та швидко виконувати повторні запити, це полегшує роботу з алгоритмами машинного навчання.Інтерактивна аналітика:Spark здатний швидко генерувати відповідь. Отже, замість того, щоб запускати заздалегідь визначені запити, ми можемо обробляти дані в інтерактивному режимі.

Передумова

Перш ніж вивчати Spark, ви повинні мати базові знання про Hadoop.

Аудиторія

Наш підручник Spark розроблений, щоб допомогти новачкам і професіоналам.

Проблеми

Ми запевняємо вас, що ви не знайдете жодних проблем із цим підручником Spark. Однак, якщо виникне будь-яка помилка, опублікуйте проблему в контактній формі.