Публикации по тегам hadoop

Публикации по теме 'hadoop'

Введение в Hadoop, часть 3

(компонент стека манипулирования данными эхо-системы Hadoop) Привет, ребята, В предыдущей статье (введение в Hadoop, часть 2) я обсуждал основные компоненты эхо-системы Hadoop. В этой статье я объясню важные инструменты для обработки данных эхо-системы Hadoop. Я уверен, что это поможет вам понять компоненты стека обработки данных эхо-системы Hadoop. Для создания приложения больших данных в распределенной среде помимо HDFS, YARN и MapReduce существует множество стеков..

Настройка PySpark на AWS EC2

Создайте экземпляр EC2 (ubuntu) и подключите экземпляр к локальному терминалу на вашем компьютере. Действия, которые необходимо выполнить после подключения удаленного экземпляра к вашему терминалу ## Загрузить Anaconda на виртуальную машину Ubuntu команда 1 : wget http://repo.continuum.io/archive/Anaconda3–2020.11-linux-x86_64.sh 2020.11 — последняя версия на момент написания. ## Установить Анаконду cmd2 : установить Anaconda3–2020.11-linux-x86_64.sh ## Проверьте, какой..

Мой опыт получения сертификата Clouder CCA Spark и Hadoop (CCA175)

В прошлом месяце я сдал Cloudera CCA175 (7 баллов из 9). Я многому научился во время подготовки к экзамену. Хочу поделиться своим опытом с теми, кто тоже хочет получить эту сертификацию. Экзаменационный портал Моя биография Степень : Магистр бизнес-аналитики в UT Dallas Бакалавр прикладной математики в Национальном университете Чэнчи на Тайване Связанный опыт программирования : (наиболее релевантно для данной сертификации). Python, SQL, Sqoop *, Hadoop *, Hive..

Инвестирование в основные отличия Pandora

Данные - одно из основных отличий Pandora. С момента запуска нашего сервиса в 2005 году слушатели Pandora создали 13 миллиардов станций и просмотрели более 90 миллиардов раз. Эти отзывы наших слушателей являются ключевым компонентом того, как мы настраиваем наши радиостанции и плейлисты, чтобы обеспечить уникальный и индивидуальный опыт. Например, ранее в этом году мы запустили Персонализированные саундтреки на Пандоре . Персонализированные саундтреки - это набор тематических..

Apache Spark - биты и байты

Идеальная платформа для обработки больших данных Apache Spark - это технология, которая занимает значительное место в общем стеке технологий больших данных, а также в экосистеме Hadoop. Существует высокая вероятность того, что даже новичок в инженерии больших данных знаком со словом «Spark» из-за той искры, которую оно вызвало в сообществах больших данных. Но знаете ли вы его основы и возможности? Честно говоря, я не знал, когда начал, хотя был хорошо знаком с термином «Apache..

Вопросы по теме 'hadoop'

Отсортированное количество слов с использованием Hadoop MapReduce

Я очень новичок в MapReduce, и я завершил пример подсчета слов Hadoop. В этом примере он создает несортированный файл (с парами ключ-значение) с количеством слов. Так можно ли отсортировать его по количеству вхождений слов, объединив другую задачу...

20122 просмотров

30.07.2022

Какой дистрибутив Linux лучше всего подходит для Nutch-Hadoop?

мы пытаемся выяснить, какой дистрибутив Linux лучше всего подходит для интеграции Nutch-Hadoop? мы планируем использовать кластеры для обхода большого контента через Nutch. Дайте мне знать, если вам нужно больше разъяснений по этому вопросу?...

1088 просмотров

hadoop nutch

19.11.2023

MultipleOutputFormat в хаупе

Я новичок в Hadoop. Я пробую программу Wordcount. Теперь, чтобы попробовать несколько выходных файлов, я использую MultipleOutputFormat . эта ссылка помогла мне в этом....

8457 просмотров

java hadoop mapreduce

01.03.2024

Добавление нескольких файлов в распределенный кеш Hadoop?

Я пытаюсь добавить несколько файлов в распределенный кеш Hadoop. На самом деле я не знаю названия файлов. Они будут называться как part-0000* . Может ли кто-нибудь сказать мне, как это сделать? Спасибо, Бала.

3310 просмотров

java hadoop mapreduce

22.12.2023

корень установки java

Я пытаюсь настроить Apache Hadoop в своей системе. На странице процедуры говорится: «Отредактируйте файл conf/hadoop-env.sh, чтобы определить, по крайней мере, JAVA_HOME в качестве корня вашей установки Java». Что на самом деле означают настройки...

5310 просмотров

java hadoop

09.09.2022

В Hive локальный путь загрузки данных перезаписывает существующие данные или добавляется?

Я надеюсь запустить импорт в Hive на cron и надеялся просто использовать "загрузить данные локально inpath '/ tmp / data / x' в таблицу X" в таблицу будет достаточно. Будут ли последующие команды перезаписывать то, что уже находится в таблице?...

19299 просмотров

hadoop hdfs hive hbase

11.09.2022

Hadoop mysql, ограничивающий редукторы

Я использую hadoop для обновления некоторых записей в базе данных mysql... Проблема, которую я вижу, заключается в том, что в некоторых случаях для одного и того же набора ключей запускается несколько редукторов. Я видел до 2 редукторов, работающих...

316 просмотров

mysql hadoop mapreduce

07.03.2024

Как я могу заставить HBase хорошо работать с управлением зависимостями sbt?

Я пытаюсь запустить проект sbt, который использует Hadoop CDH3 и HBase. Я пытаюсь использовать файл project/build/Project.scala для объявления зависимостей от HBase и Hadoop. (Я признаю, что мое понимание sbt, maven и ivy немного слабое. Пожалуйста,...

2607 просмотров

hadoop scala sbt thrift hbase

04.10.2023

Потоковая передача или настраиваемый Jar в Hadoop

Я выполняю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python. Я хочу знать о приросте скорости, который я получу, если реализую тот же преобразователь и редуктор на Java (или использую Pig). В частности, я...

2221 просмотров

python java streaming hadoop mapreduce

23.03.2024

Клиент Hbase не может подключиться к удаленному серверу Hbase

Я написал следующий клиентский класс hbase для удаленного сервера: System.out.println("Hbase Demo Application "); // CONFIGURATION // ENSURE RUNNING try { HBaseConfiguration config = new...

40840 просмотров

java hadoop hbase

12.03.2024

MultipleInputs с DBInputFormat в Hadoop

В моей базе данных у меня есть несколько таблиц, каждая из которых представляет собой отдельный тип объекта. У меня есть схема Avro, которую я использую в Hadoop, которая представляет собой объединение всех полей этих разных типов сущностей, а также...

1401 просмотров

hadoop avro mapreduce rdbms database-table

04.04.2024

Очень большая пара ключ-значение в Hadoop

Я новичок в Hadoop, и моя текущая сложность программы ограничена сложностью количества слов. Я пытаюсь понять фундаментальную архитектуру Hadoop, чтобы лучше разрабатывать свои решения. Один из важных вопросов, который у меня возникает,...

1418 просмотров

key hadoop

29.10.2022

Hadoop: инструменты для визуализации ключевых данных и файлов для разработки.

Существуют ли какие-либо простые, легко запускаемые Java-инструменты для визуализации данных типа "ключ-значение" из каталогов заданий с уменьшением карты? В частности, я хочу просмотреть карту с 20 заданиями, сократить рабочий процесс, щелкнуть...

412 просмотров

java hadoop key-value file-browser

25.04.2024

Hadoop DistributedCache не смог сообщить о состоянии

В задании Hadoop я сопоставляю несколько XML-файлов и фильтрую идентификатор для каждого элемента (from < id>-tags) . Поскольку я хочу ограничить задание определенным набором идентификаторов, я читаю в большом файле (около 250 миллионов строк...

293 просмотров

hadoop mapreduce distributed-cache

10.10.2023

Hadoop порождает несколько виртуальных машин

Когда я запускаю Hadoop с помощью скрипта bin/start-all.sh, кажется, что он запускает разные JVM для узла имени, узла данных, средства отслеживания заданий и средства отслеживания задач. Более того, когда я запускаю задание, кажется, что для...

196 просмотров

java hadoop apache jvm

13.04.2024

Как прочитать файл из Hadoop с помощью Java без командной строки

Я хотел прочитать файл из системы Hadoop, я мог бы сделать это, используя приведенный ниже код. String uri = theFilename; Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create(uri), conf); InputStream in = null; try...

4364 просмотров

hadoop

30.10.2023

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS

Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | sort | python reducer.py Однако когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не завершается успешно. mapper.py...

9402 просмотров

python amazon-web-services hadoop mapreduce elastic-map-reduce

27.04.2024

Невозможно загрузить модель предложения OpenNLP в задании Hadoop map-reduce

Я пытаюсь интегрировать OpenNLP в работу по уменьшению карты в Hadoop, начиная с некоторого базового разделения предложений. В функции карты выполняется следующий код: public AnalysisFile analyze(String content) { InputStream modelIn = null;...

1476 просмотров

hadoop mapreduce opennlp

03.10.2022

AWS Elastic Map Reduce: вывод в SimpleDB

Каков наиболее эффективный способ получить выходные данные Elastic Map Reduce в SimpleDB? Я знаю, что могу просто вывести результаты на S3, загрузить их, а скрипт проанализирует результаты и вставит их в SimpleDB. Но есть ли более...

930 просмотров

hadoop amazon-simpledb elastic-map-reduce

02.11.2023

Работа RecordReader в Hadoop

Кто-нибудь может объяснить, как на самом деле работает RecordReader? Как работают методы nextkeyvalue() , getCurrentkey() и getprogress() после запуска программы?

5789 просмотров

hadoop mapreduce

30.11.2023