Публикации по теме 'hadoop'


Введение в Hadoop, часть 3
(компонент стека манипулирования данными эхо-системы Hadoop) Привет, ребята, В предыдущей статье (введение в Hadoop, часть 2) я обсуждал основные компоненты эхо-системы Hadoop. В этой статье я объясню важные инструменты для обработки данных эхо-системы Hadoop. Я уверен, что это поможет вам понять компоненты стека обработки данных эхо-системы Hadoop. Для создания приложения больших данных в распределенной среде помимо HDFS, YARN и MapReduce существует множество стеков..

Настройка PySpark на AWS EC2
Создайте экземпляр EC2 (ubuntu) и подключите экземпляр к локальному терминалу на вашем компьютере. Действия, которые необходимо выполнить после подключения удаленного экземпляра к вашему терминалу ## Загрузить Anaconda на виртуальную машину Ubuntu команда 1 : wget http://repo.continuum.io/archive/Anaconda3–2020.11-linux-x86_64.sh 2020.11 — последняя версия на момент написания. ## Установить Анаконду cmd2 : установить Anaconda3–2020.11-linux-x86_64.sh ## Проверьте, какой..

Мой опыт получения сертификата Clouder CCA Spark и Hadoop (CCA175)
В прошлом месяце я сдал Cloudera CCA175 (7 баллов из 9). Я многому научился во время подготовки к экзамену. Хочу поделиться своим опытом с теми, кто тоже хочет получить эту сертификацию. Экзаменационный портал Моя биография Степень : Магистр бизнес-аналитики в UT Dallas Бакалавр прикладной математики в Национальном университете Чэнчи на Тайване Связанный опыт программирования : (наиболее релевантно для данной сертификации). Python, SQL, Sqoop *, Hadoop *, Hive..

Инвестирование в основные отличия Pandora
Данные - одно из основных отличий Pandora. С момента запуска нашего сервиса в 2005 году слушатели Pandora создали 13 миллиардов станций и просмотрели более 90 миллиардов раз. Эти отзывы наших слушателей являются ключевым компонентом того, как мы настраиваем наши радиостанции и плейлисты, чтобы обеспечить уникальный и индивидуальный опыт. Например, ранее в этом году мы запустили Персонализированные саундтреки на Пандоре . Персонализированные саундтреки - это набор тематических..

Apache Spark - биты и байты
Идеальная платформа для обработки больших данных Apache Spark - это технология, которая занимает значительное место в общем стеке технологий больших данных, а также в экосистеме Hadoop. Существует высокая вероятность того, что даже новичок в инженерии больших данных знаком со словом «Spark» из-за той искры, которую оно вызвало в сообществах больших данных. Но знаете ли вы его основы и возможности? Честно говоря, я не знал, когда начал, хотя был хорошо знаком с термином «Apache..

Вопросы по теме 'hadoop'

Отсортированное количество слов с использованием Hadoop MapReduce
Я очень новичок в MapReduce, и я завершил пример подсчета слов Hadoop. В этом примере он создает несортированный файл (с парами ключ-значение) с количеством слов. Так можно ли отсортировать его по количеству вхождений слов, объединив другую задачу...
20122 просмотров

Какой дистрибутив Linux лучше всего подходит для Nutch-Hadoop?
мы пытаемся выяснить, какой дистрибутив Linux лучше всего подходит для интеграции Nutch-Hadoop? мы планируем использовать кластеры для обхода большого контента через Nutch. Дайте мне знать, если вам нужно больше разъяснений по этому вопросу?...
1088 просмотров
schedule 19.11.2023

MultipleOutputFormat в хаупе
Я новичок в Hadoop. Я пробую программу Wordcount. Теперь, чтобы попробовать несколько выходных файлов, я использую MultipleOutputFormat . эта ссылка помогла мне в этом....
8457 просмотров
schedule 01.03.2024

Добавление нескольких файлов в распределенный кеш Hadoop?
Я пытаюсь добавить несколько файлов в распределенный кеш Hadoop. На самом деле я не знаю названия файлов. Они будут называться как part-0000* . Может ли кто-нибудь сказать мне, как это сделать? Спасибо, Бала.
3310 просмотров
schedule 22.12.2023

корень установки java
Я пытаюсь настроить Apache Hadoop в своей системе. На странице процедуры говорится: «Отредактируйте файл conf/hadoop-env.sh, чтобы определить, по крайней мере, JAVA_HOME в качестве корня вашей установки Java». Что на самом деле означают настройки...
5310 просмотров
schedule 09.09.2022

В Hive локальный путь загрузки данных перезаписывает существующие данные или добавляется?
Я надеюсь запустить импорт в Hive на cron и надеялся просто использовать "загрузить данные локально inpath '/ tmp / data / x' в таблицу X" в таблицу будет достаточно. Будут ли последующие команды перезаписывать то, что уже находится в таблице?...
19299 просмотров
schedule 11.09.2022

Hadoop mysql, ограничивающий редукторы
Я использую hadoop для обновления некоторых записей в базе данных mysql... Проблема, которую я вижу, заключается в том, что в некоторых случаях для одного и того же набора ключей запускается несколько редукторов. Я видел до 2 редукторов, работающих...
316 просмотров
schedule 07.03.2024

Как я могу заставить HBase хорошо работать с управлением зависимостями sbt?
Я пытаюсь запустить проект sbt, который использует Hadoop CDH3 и HBase. Я пытаюсь использовать файл project/build/Project.scala для объявления зависимостей от HBase и Hadoop. (Я признаю, что мое понимание sbt, maven и ivy немного слабое. Пожалуйста,...
2607 просмотров
schedule 04.10.2023

Потоковая передача или настраиваемый Jar в Hadoop
Я выполняю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python. Я хочу знать о приросте скорости, который я получу, если реализую тот же преобразователь и редуктор на Java (или использую Pig). В частности, я...
2221 просмотров
schedule 23.03.2024

Клиент Hbase не может подключиться к удаленному серверу Hbase
Я написал следующий клиентский класс hbase для удаленного сервера: System.out.println("Hbase Demo Application "); // CONFIGURATION // ENSURE RUNNING try { HBaseConfiguration config = new...
40840 просмотров
schedule 12.03.2024

MultipleInputs с DBInputFormat в Hadoop
В моей базе данных у меня есть несколько таблиц, каждая из которых представляет собой отдельный тип объекта. У меня есть схема Avro, которую я использую в Hadoop, которая представляет собой объединение всех полей этих разных типов сущностей, а также...
1401 просмотров
schedule 04.04.2024

Очень большая пара ключ-значение в Hadoop
Я новичок в Hadoop, и моя текущая сложность программы ограничена сложностью количества слов. Я пытаюсь понять фундаментальную архитектуру Hadoop, чтобы лучше разрабатывать свои решения. Один из важных вопросов, который у меня возникает,...
1418 просмотров
schedule 29.10.2022

Hadoop: инструменты для визуализации ключевых данных и файлов для разработки.
Существуют ли какие-либо простые, легко запускаемые Java-инструменты для визуализации данных типа "ключ-значение" из каталогов заданий с уменьшением карты? В частности, я хочу просмотреть карту с 20 заданиями, сократить рабочий процесс, щелкнуть...
412 просмотров
schedule 25.04.2024

Hadoop DistributedCache не смог сообщить о состоянии
В задании Hadoop я сопоставляю несколько XML-файлов и фильтрую идентификатор для каждого элемента (from < id>-tags) . Поскольку я хочу ограничить задание определенным набором идентификаторов, я читаю в большом файле (около 250 миллионов строк...
293 просмотров
schedule 10.10.2023

Hadoop порождает несколько виртуальных машин
Когда я запускаю Hadoop с помощью скрипта bin/start-all.sh, кажется, что он запускает разные JVM для узла имени, узла данных, средства отслеживания заданий и средства отслеживания задач. Более того, когда я запускаю задание, кажется, что для...
196 просмотров
schedule 13.04.2024

Как прочитать файл из Hadoop с помощью Java без командной строки
Я хотел прочитать файл из системы Hadoop, я мог бы сделать это, используя приведенный ниже код. String uri = theFilename; Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(uri), conf); InputStream in = null; try...
4364 просмотров
schedule 30.10.2023

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS
Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | sort | python reducer.py Однако когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не завершается успешно. mapper.py...
9402 просмотров

Невозможно загрузить модель предложения OpenNLP в задании Hadoop map-reduce
Я пытаюсь интегрировать OpenNLP в работу по уменьшению карты в Hadoop, начиная с некоторого базового разделения предложений. В функции карты выполняется следующий код: public AnalysisFile analyze(String content) { InputStream modelIn = null;...
1476 просмотров
schedule 03.10.2022

AWS Elastic Map Reduce: вывод в SimpleDB
Каков наиболее эффективный способ получить выходные данные Elastic Map Reduce в SimpleDB? Я знаю, что могу просто вывести результаты на S3, загрузить их, а скрипт проанализирует результаты и вставит их в SimpleDB. Но есть ли более...
930 просмотров

Работа RecordReader в Hadoop
Кто-нибудь может объяснить, как на самом деле работает RecordReader? Как работают методы nextkeyvalue() , getCurrentkey() и getprogress() после запуска программы?
5789 просмотров
schedule 30.11.2023