Вопросы по теме 'mapreduce'

Отсортированное количество слов с использованием Hadoop MapReduce
Я очень новичок в MapReduce, и я завершил пример подсчета слов Hadoop. В этом примере он создает несортированный файл (с парами ключ-значение) с количеством слов. Так можно ли отсортировать его по количеству вхождений слов, объединив другую задачу...
20122 просмотров

MultipleOutputFormat в хаупе
Я новичок в Hadoop. Я пробую программу Wordcount. Теперь, чтобы попробовать несколько выходных файлов, я использую MultipleOutputFormat . эта ссылка помогла мне в этом....
8457 просмотров
schedule 01.03.2024

mongodb mapreduce возвращает противоречивые результаты
У меня есть очень простой тест уменьшения карты... который не работает последовательно. Короче говоря, я просто ищу повторяющиеся записи. У меня есть коллекция, в которой есть: GiftIdea - site_id - site_key site_id + site_key должны быть...
522 просмотров
schedule 13.10.2023

Добавление нескольких файлов в распределенный кеш Hadoop?
Я пытаюсь добавить несколько файлов в распределенный кеш Hadoop. На самом деле я не знаю названия файлов. Они будут называться как part-0000* . Может ли кто-нибудь сказать мне, как это сделать? Спасибо, Бала.
3310 просмотров
schedule 22.12.2023

Hadoop mysql, ограничивающий редукторы
Я использую hadoop для обновления некоторых записей в базе данных mysql... Проблема, которую я вижу, заключается в том, что в некоторых случаях для одного и того же набора ключей запускается несколько редукторов. Я видел до 2 редукторов, работающих...
316 просмотров
schedule 07.03.2024

Потоковая передача или настраиваемый Jar в Hadoop
Я выполняю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python. Я хочу знать о приросте скорости, который я получу, если реализую тот же преобразователь и редуктор на Java (или использую Pig). В частности, я...
2221 просмотров
schedule 23.03.2024

Агрегация MapReduce на основе атрибутов, содержащихся за пределами документа
Скажем, у меня есть набор «действий», каждое из которых имеет имя, стоимость и местоположение: {_id : 1 , name: 'swimming', cost: '3.40', location: 'kirkstall'} {_id : 2 , name: 'cinema', cost: '6.50', location: 'hyde park'} {_id : 3 , name:...
206 просмотров
schedule 07.11.2023

MultipleInputs с DBInputFormat в Hadoop
В моей базе данных у меня есть несколько таблиц, каждая из которых представляет собой отдельный тип объекта. У меня есть схема Avro, которую я использую в Hadoop, которая представляет собой объединение всех полей этих разных типов сущностей, а также...
1401 просмотров
schedule 04.04.2024

Hadoop DistributedCache не смог сообщить о состоянии
В задании Hadoop я сопоставляю несколько XML-файлов и фильтрую идентификатор для каждого элемента (from < id>-tags) . Поскольку я хочу ограничить задание определенным набором идентификаторов, я читаю в большом файле (около 250 миллионов строк...
293 просмотров
schedule 10.10.2023

Как минимизировать записи в хранилище данных, инициированные библиотекой mapreduce?
У меня есть 3 части этого вопроса: У меня есть приложение, в котором пользователи создают объекты, которые другие пользователи могут обновлять в течение 5 минут. Через 5 минут время ожидания объектов истекает, и они становятся недействительными....
388 просмотров

Сопоставление/Уменьшение и сортировка вложенных документов
У меня есть вопрос относительно сортировки Map/Reduce внутреннего документа в mongodb. Схема примерно следующая: { "_id" : 16, "days" : { "1" : 123, "2" : 129, "3" : 140, "4" : 56, "5" : 57, "6" : 69,...
718 просмотров
schedule 23.04.2024

Riak Sort на MapReduce
function(values) { return values.sort( function(a, b) { return b['timestamp'] - a['timestamp']; } ); } В настоящее время я выполняю приведенный выше код для фазы сокращения запроса Riak MapReduce, но он...
1162 просмотров
schedule 14.03.2024

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS
Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | sort | python reducer.py Однако когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не завершается успешно. mapper.py...
9402 просмотров

Функция уменьшения карты RavenDB
Я пытаюсь написать функцию RavenDB Map Reduce для индекса, чтобы сопоставлять информацию из группы DomainModels. Я не могу заполнить все поля результатов, но потратил на это день или около того, и мне не хватает чего-то фундаментального. Вот:...
499 просмотров
schedule 14.03.2024

Невозможно загрузить модель предложения OpenNLP в задании Hadoop map-reduce
Я пытаюсь интегрировать OpenNLP в работу по уменьшению карты в Hadoop, начиная с некоторого базового разделения предложений. В функции карты выполняется следующий код: public AnalysisFile analyze(String content) { InputStream modelIn = null;...
1476 просмотров
schedule 03.10.2022

Работа RecordReader в Hadoop
Кто-нибудь может объяснить, как на самом деле работает RecordReader? Как работают методы nextkeyvalue() , getCurrentkey() и getprogress() после запуска программы?
5789 просмотров
schedule 30.11.2023

Ошибка при массовой загрузке в hbase
Я пытаюсь Hbase - bulkLoad через программу Java MapReduce. Я запускаю свою программу в Eclipse. Но я получаю следующую ошибку: 12/06/14 20:04:28 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId= 12/06/14...
2386 просмотров
schedule 15.10.2023

На какой машине работает Редуктор Hadoop?
Если у меня есть кластер из 4 узлов, где 1 машина является именным узлом, а остальные 3 машины — узлами данных, и если я установлю количество редукторов равным 1, какой из узлов данных будет запускать редюсер?
883 просмотров
schedule 28.12.2023

Зачем объявлять классы Mapper и Reducer статическими?
Это, вероятно, свидетельствует о том, что я не понимаю Java, но мне интересно, почему в большинстве программ MapReduce классы картографа и редуктора объявлены как статические?
2658 просмотров
schedule 09.02.2024

уменьшить карту для объединения наборов данных?
У меня есть три разных решения, в которых я храню документы с document_ids (поисковая система, база данных nosql и самостоятельно разработанное приложение семантического индексирования). Я выполняю запросы ко всем различным решениям и хотел бы...
137 просмотров
schedule 09.09.2022