Введение в Hadoop, часть 3

(компонент стека манипулирования данными эхо-системы Hadoop)

Привет, ребята,

В предыдущей статье (введение в Hadoop, часть 2) я обсуждал основные компоненты эхо-системы Hadoop. В этой статье я объясню важные инструменты для обработки данных эхо-системы Hadoop. Я уверен, что это поможет вам понять компоненты стека обработки данных эхо-системы Hadoop.

Для создания приложения больших данных в распределенной среде помимо HDFS, YARN и MapReduce существует множество стеков манипулирования данными, то есть инструменты/технологии запроса данных, обработки и приема данных в реальном мире. Я кратко представлю некоторые из важных компонентов стека обработки данных эхо-системы Hadoop:

· Апачская свинья

· Апач HBase

· Апач Кассандра

· Апачский улей

· Апач Спарк

· Апач Шторм

Свинья Apache

Это высокоуровневая среда сценариев, работающая поверх MapReduce. Если вам неудобно или вы не хотите писать код на Java или Python для MapReduce и вам удобнее работать со сценариями SQL, Pig — хороший выбор для вас в распределенной среде. Pig — это очень простой язык сценариев, который используется для получения сложных результатов без написания сложных кодов Java или Python. Pig также поддерживает параллелизм в распределенной среде.

Для получения более подробной информации об Apache Pig вы можете посетить веб-страницу Apache: https://pig.apache.org/

Apache HBase

Это база данных NOSQL на основе столбцов, обеспечивающая доступ к большим данным в режиме реального времени. HBase предлагает возможность размещать большие объемы данных (большие данные) в распределенной среде.

Для получения более подробной информации об Apache HBase вы можете обратиться к веб-странице Apache HBase: https://hbase.apache.org/

Апач Кассандра

Это распределенное хранилище с широкими столбцами и системой управления базами данных NoSQL с открытым исходным кодом. Он способен обрабатывать большие объемы данных в распределенной среде и обеспечивает высокую доступность.

Для получения более подробной информации об Apache Cassandra вы можете обратиться к веб-странице Apache Cassandra: https://cassandra.apache.org/doc/latest/

Apache Hive

Это структура хранилища данных в распределенной среде Hadoop. Он обеспечивает доступ к данным (чтение/запись) и управление данными в HDFS и других системах хранения данных, таких как HBase. Он поддерживает SQL-подобный язык запросов под названием HiveQL для выполнения задач ETL (извлечение, преобразование и загрузка) с данными, которые автоматически преобразуют SQL-подобные запросы в задания MapReduce, выполняемые в Hadoop. Apache Hive обладает высокой масштабируемостью и позволяет выполнять обработку в режиме реального времени и пакетную обработку.

Для получения более подробной информации об Apache Hive вы можете обратиться к веб-странице Apache Hive: https://hive.apache.org/

Apache Spark

Это механизм аналитики в реальном времени, работающий поверх Hadoop. Apache Spark используется для написания приложений на Java, Scala, Python, R и SQL. Spark предоставляет различные библиотеки для машинного обучения, фреймы данных, графики потоковой рекламы, которые используются для объединения и создания высококачественных систем больших данных. Искра супер-быстрая. Это очень надежная технология, использующая концепцию обработки данных в памяти.

Для получения более подробной информации об Apache Spark посетите официальную веб-страницу Apache Spark: https://spark.apache.org/

Апач Шторм

Apache Storm Works — это распределенная отказоустойчивая вычислительная система с открытым исходным кодом. Storm используется для обработки потоков данных в режиме реального времени в Apache Hadoop. Приложение, написанное на Storm, обеспечивает гарантированную обработку данных. Он имеет возможность воспроизводить данные, которые не удалось успешно обработать в первый раз.

Для получения более подробной информации об Apache Strom посетите официальную веб-страницу Apache Storm: https://storm.apache.org/

Заключение

В этой статье я подробно рассказал о компоненте стека манипулирования данными эхо-системы Hadoop. Компонентами обработки данных являются Apache Pig, Apache Hive, Apache HBase, Apache Cassandra и т. д. Я уверен, что это обогатит ваши знания о компонентах стека обработки данных. В статье на следующей неделе я подробно расскажу о стеке координации эхо-системы Hadoop.

Подводя итоги, не стесняйтесь делиться своими комментариями. Ваши аплодисменты и комментарии помогут мне лучше представить содержание. Увидимся на следующей неделе.