Публикации по теме 'hadoop'


Объяснение больших данных
Большие данные простыми словами! Большие данные повсюду. От Netflix до оцифровки простых ручных форм стало возможным только благодаря большим данным. Большие данные не только сделали хранение и обработку данных более быстрыми, но и более дешевыми и доступными. В этой статье я расскажу вам, что такое большие данные и чем они отличаются от традиционного подхода к хранению и обработке данных.

Введение в Hadoop, часть 3
(компонент стека манипулирования данными эхо-системы Hadoop) Привет, ребята, В предыдущей статье (введение в Hadoop, часть 2) я обсуждал основные компоненты эхо-системы Hadoop. В этой статье я объясню важные инструменты для обработки данных эхо-системы Hadoop. Я уверен, что это поможет вам понять компоненты стека обработки данных эхо-системы Hadoop. Для создания приложения больших данных в распределенной среде помимо HDFS, YARN и MapReduce существует множество стеков..

Настройка PySpark на AWS EC2
Создайте экземпляр EC2 (ubuntu) и подключите экземпляр к локальному терминалу на вашем компьютере. Действия, которые необходимо выполнить после подключения удаленного экземпляра к вашему терминалу ## Загрузить Anaconda на виртуальную машину Ubuntu команда 1 : wget http://repo.continuum.io/archive/Anaconda3–2020.11-linux-x86_64.sh 2020.11 — последняя версия на момент написания. ## Установить Анаконду cmd2 : установить Anaconda3–2020.11-linux-x86_64.sh ## Проверьте, какой..

Мой опыт получения сертификата Clouder CCA Spark и Hadoop (CCA175)
В прошлом месяце я сдал Cloudera CCA175 (7 баллов из 9). Я многому научился во время подготовки к экзамену. Хочу поделиться своим опытом с теми, кто тоже хочет получить эту сертификацию. Экзаменационный портал Моя биография Степень : Магистр бизнес-аналитики в UT Dallas Бакалавр прикладной математики в Национальном университете Чэнчи на Тайване Связанный опыт программирования : (наиболее релевантно для данной сертификации). Python, SQL, Sqoop *, Hadoop *, Hive..

Инвестирование в основные отличия Pandora
Данные - одно из основных отличий Pandora. С момента запуска нашего сервиса в 2005 году слушатели Pandora создали 13 миллиардов станций и просмотрели более 90 миллиардов раз. Эти отзывы наших слушателей являются ключевым компонентом того, как мы настраиваем наши радиостанции и плейлисты, чтобы обеспечить уникальный и индивидуальный опыт. Например, ранее в этом году мы запустили Персонализированные саундтреки на Пандоре . Персонализированные саундтреки - это набор тематических..

Apache Spark - биты и байты
Идеальная платформа для обработки больших данных Apache Spark - это технология, которая занимает значительное место в общем стеке технологий больших данных, а также в экосистеме Hadoop. Существует высокая вероятность того, что даже новичок в инженерии больших данных знаком со словом «Spark» из-за той искры, которую оно вызвало в сообществах больших данных. Но знаете ли вы его основы и возможности? Честно говоря, я не знал, когда начал, хотя был хорошо знаком с термином «Apache..

Вопросы по теме 'hadoop'

Отсортированное количество слов с использованием Hadoop MapReduce
Я очень новичок в MapReduce, и я завершил пример подсчета слов Hadoop. В этом примере он создает несортированный файл (с парами ключ-значение) с количеством слов. Так можно ли отсортировать его по количеству вхождений слов, объединив другую задачу...
20122 просмотров

Какой дистрибутив Linux лучше всего подходит для Nutch-Hadoop?
мы пытаемся выяснить, какой дистрибутив Linux лучше всего подходит для интеграции Nutch-Hadoop? мы планируем использовать кластеры для обхода большого контента через Nutch. Дайте мне знать, если вам нужно больше разъяснений по этому вопросу?...
1088 просмотров
schedule 19.11.2023

MultipleOutputFormat в хаупе
Я новичок в Hadoop. Я пробую программу Wordcount. Теперь, чтобы попробовать несколько выходных файлов, я использую MultipleOutputFormat . эта ссылка помогла мне в этом....
8457 просмотров
schedule 01.03.2024

Добавление нескольких файлов в распределенный кеш Hadoop?
Я пытаюсь добавить несколько файлов в распределенный кеш Hadoop. На самом деле я не знаю названия файлов. Они будут называться как part-0000* . Может ли кто-нибудь сказать мне, как это сделать? Спасибо, Бала.
3310 просмотров
schedule 22.12.2023

корень установки java
Я пытаюсь настроить Apache Hadoop в своей системе. На странице процедуры говорится: «Отредактируйте файл conf/hadoop-env.sh, чтобы определить, по крайней мере, JAVA_HOME в качестве корня вашей установки Java». Что на самом деле означают настройки...
5310 просмотров
schedule 09.09.2022

В Hive локальный путь загрузки данных перезаписывает существующие данные или добавляется?
Я надеюсь запустить импорт в Hive на cron и надеялся просто использовать "загрузить данные локально inpath '/ tmp / data / x' в таблицу X" в таблицу будет достаточно. Будут ли последующие команды перезаписывать то, что уже находится в таблице?...
19299 просмотров
schedule 11.09.2022

Hadoop mysql, ограничивающий редукторы
Я использую hadoop для обновления некоторых записей в базе данных mysql... Проблема, которую я вижу, заключается в том, что в некоторых случаях для одного и того же набора ключей запускается несколько редукторов. Я видел до 2 редукторов, работающих...
316 просмотров
schedule 07.03.2024

Как я могу заставить HBase хорошо работать с управлением зависимостями sbt?
Я пытаюсь запустить проект sbt, который использует Hadoop CDH3 и HBase. Я пытаюсь использовать файл project/build/Project.scala для объявления зависимостей от HBase и Hadoop. (Я признаю, что мое понимание sbt, maven и ivy немного слабое. Пожалуйста,...
2607 просмотров
schedule 04.10.2023

Потоковая передача или настраиваемый Jar в Hadoop
Я выполняю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python. Я хочу знать о приросте скорости, который я получу, если реализую тот же преобразователь и редуктор на Java (или использую Pig). В частности, я...
2221 просмотров
schedule 23.03.2024

Клиент Hbase не может подключиться к удаленному серверу Hbase
Я написал следующий клиентский класс hbase для удаленного сервера: System.out.println("Hbase Demo Application "); // CONFIGURATION // ENSURE RUNNING try { HBaseConfiguration config = new...
40840 просмотров
schedule 12.03.2024

MultipleInputs с DBInputFormat в Hadoop
В моей базе данных у меня есть несколько таблиц, каждая из которых представляет собой отдельный тип объекта. У меня есть схема Avro, которую я использую в Hadoop, которая представляет собой объединение всех полей этих разных типов сущностей, а также...
1401 просмотров
schedule 04.04.2024

Очень большая пара ключ-значение в Hadoop
Я новичок в Hadoop, и моя текущая сложность программы ограничена сложностью количества слов. Я пытаюсь понять фундаментальную архитектуру Hadoop, чтобы лучше разрабатывать свои решения. Один из важных вопросов, который у меня возникает,...
1418 просмотров
schedule 29.10.2022

Hadoop: инструменты для визуализации ключевых данных и файлов для разработки.
Существуют ли какие-либо простые, легко запускаемые Java-инструменты для визуализации данных типа "ключ-значение" из каталогов заданий с уменьшением карты? В частности, я хочу просмотреть карту с 20 заданиями, сократить рабочий процесс, щелкнуть...
412 просмотров
schedule 25.04.2024

Hadoop DistributedCache не смог сообщить о состоянии
В задании Hadoop я сопоставляю несколько XML-файлов и фильтрую идентификатор для каждого элемента (from < id>-tags) . Поскольку я хочу ограничить задание определенным набором идентификаторов, я читаю в большом файле (около 250 миллионов строк...
293 просмотров
schedule 10.10.2023

Hadoop порождает несколько виртуальных машин
Когда я запускаю Hadoop с помощью скрипта bin/start-all.sh, кажется, что он запускает разные JVM для узла имени, узла данных, средства отслеживания заданий и средства отслеживания задач. Более того, когда я запускаю задание, кажется, что для...
196 просмотров
schedule 13.04.2024

Как прочитать файл из Hadoop с помощью Java без командной строки
Я хотел прочитать файл из системы Hadoop, я мог бы сделать это, используя приведенный ниже код. String uri = theFilename; Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(uri), conf); InputStream in = null; try...
4364 просмотров
schedule 30.10.2023

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS
Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | sort | python reducer.py Однако когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не завершается успешно. mapper.py...
9402 просмотров

Невозможно загрузить модель предложения OpenNLP в задании Hadoop map-reduce
Я пытаюсь интегрировать OpenNLP в работу по уменьшению карты в Hadoop, начиная с некоторого базового разделения предложений. В функции карты выполняется следующий код: public AnalysisFile analyze(String content) { InputStream modelIn = null;...
1476 просмотров
schedule 03.10.2022

AWS Elastic Map Reduce: вывод в SimpleDB
Каков наиболее эффективный способ получить выходные данные Elastic Map Reduce в SimpleDB? Я знаю, что могу просто вывести результаты на S3, загрузить их, а скрипт проанализирует результаты и вставит их в SimpleDB. Но есть ли более...
930 просмотров

Работа RecordReader в Hadoop
Кто-нибудь может объяснить, как на самом деле работает RecordReader? Как работают методы nextkeyvalue() , getCurrentkey() и getprogress() после запуска программы?
5789 просмотров
schedule 30.11.2023