Публикации по теме 'hadoop'


Понимание процесса настройки приложения Spark.
Apache Spark — это мощный аналитический механизм с открытым исходным кодом и распределенной инфраструктурой кластерных вычислений общего назначения. Приложение Spark — это автономное вычисление, включающее процесс-драйвер и набор процессов-исполнителей. Здесь процесс драйвера запускает функцию main(), сидя на узле внутри кластера. Более того, он отвечает за три вещи: управление информацией о приложении Spark; ответ на программу или ввод пользователя; анализ, распределение и планирование..

Объяснение больших данных
Большие данные простыми словами! Большие данные повсюду. От Netflix до оцифровки простых ручных форм стало возможным только благодаря большим данным. Большие данные не только сделали хранение и обработку данных более быстрыми, но и более дешевыми и доступными. В этой статье я расскажу вам, что такое большие данные и чем они отличаются от традиционного подхода к хранению и обработке данных.

Введение в Hadoop, часть 3
(компонент стека манипулирования данными эхо-системы Hadoop) Привет, ребята, В предыдущей статье (введение в Hadoop, часть 2) я обсуждал основные компоненты эхо-системы Hadoop. В этой статье я объясню важные инструменты для обработки данных эхо-системы Hadoop. Я уверен, что это поможет вам понять компоненты стека обработки данных эхо-системы Hadoop. Для создания приложения больших данных в распределенной среде помимо HDFS, YARN и MapReduce существует множество стеков..

Настройка PySpark на AWS EC2
Создайте экземпляр EC2 (ubuntu) и подключите экземпляр к локальному терминалу на вашем компьютере. Действия, которые необходимо выполнить после подключения удаленного экземпляра к вашему терминалу ## Загрузить Anaconda на виртуальную машину Ubuntu команда 1 : wget http://repo.continuum.io/archive/Anaconda3–2020.11-linux-x86_64.sh 2020.11 — последняя версия на момент написания. ## Установить Анаконду cmd2 : установить Anaconda3–2020.11-linux-x86_64.sh ## Проверьте, какой..

Мой опыт получения сертификата Clouder CCA Spark и Hadoop (CCA175)
В прошлом месяце я сдал Cloudera CCA175 (7 баллов из 9). Я многому научился во время подготовки к экзамену. Хочу поделиться своим опытом с теми, кто тоже хочет получить эту сертификацию. Экзаменационный портал Моя биография Степень : Магистр бизнес-аналитики в UT Dallas Бакалавр прикладной математики в Национальном университете Чэнчи на Тайване Связанный опыт программирования : (наиболее релевантно для данной сертификации). Python, SQL, Sqoop *, Hadoop *, Hive..

Инвестирование в основные отличия Pandora
Данные - одно из основных отличий Pandora. С момента запуска нашего сервиса в 2005 году слушатели Pandora создали 13 миллиардов станций и просмотрели более 90 миллиардов раз. Эти отзывы наших слушателей являются ключевым компонентом того, как мы настраиваем наши радиостанции и плейлисты, чтобы обеспечить уникальный и индивидуальный опыт. Например, ранее в этом году мы запустили Персонализированные саундтреки на Пандоре . Персонализированные саундтреки - это набор тематических..

Apache Spark - биты и байты
Идеальная платформа для обработки больших данных Apache Spark - это технология, которая занимает значительное место в общем стеке технологий больших данных, а также в экосистеме Hadoop. Существует высокая вероятность того, что даже новичок в инженерии больших данных знаком со словом «Spark» из-за той искры, которую оно вызвало в сообществах больших данных. Но знаете ли вы его основы и возможности? Честно говоря, я не знал, когда начал, хотя был хорошо знаком с термином «Apache..