Вопросы по теме 'mapreduce'
Отсортированное количество слов с использованием Hadoop MapReduce
Я очень новичок в MapReduce, и я завершил пример подсчета слов Hadoop.
В этом примере он создает несортированный файл (с парами ключ-значение) с количеством слов. Так можно ли отсортировать его по количеству вхождений слов, объединив другую задачу...
20122 просмотров
schedule
30.07.2022
MultipleOutputFormat в хаупе
Я новичок в Hadoop. Я пробую программу Wordcount.
Теперь, чтобы попробовать несколько выходных файлов, я использую MultipleOutputFormat . эта ссылка помогла мне в этом....
8457 просмотров
schedule
01.03.2024
mongodb mapreduce возвращает противоречивые результаты
У меня есть очень простой тест уменьшения карты... который не работает последовательно. Короче говоря, я просто ищу повторяющиеся записи. У меня есть коллекция, в которой есть:
GiftIdea - site_id - site_key
site_id + site_key должны быть...
522 просмотров
schedule
13.10.2023
Добавление нескольких файлов в распределенный кеш Hadoop?
Я пытаюсь добавить несколько файлов в распределенный кеш Hadoop. На самом деле я не знаю названия файлов. Они будут называться как part-0000* . Может ли кто-нибудь сказать мне, как это сделать?
Спасибо, Бала.
3310 просмотров
schedule
22.12.2023
Hadoop mysql, ограничивающий редукторы
Я использую hadoop для обновления некоторых записей в базе данных mysql... Проблема, которую я вижу, заключается в том, что в некоторых случаях для одного и того же набора ключей запускается несколько редукторов. Я видел до 2 редукторов, работающих...
316 просмотров
schedule
07.03.2024
Потоковая передача или настраиваемый Jar в Hadoop
Я выполняю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python. Я хочу знать о приросте скорости, который я получу, если реализую тот же преобразователь и редуктор на Java (или использую Pig).
В частности, я...
2221 просмотров
schedule
23.03.2024
Агрегация MapReduce на основе атрибутов, содержащихся за пределами документа
Скажем, у меня есть набор «действий», каждое из которых имеет имя, стоимость и местоположение:
{_id : 1 , name: 'swimming', cost: '3.40', location: 'kirkstall'}
{_id : 2 , name: 'cinema', cost: '6.50', location: 'hyde park'}
{_id : 3 , name:...
206 просмотров
schedule
07.11.2023
MultipleInputs с DBInputFormat в Hadoop
В моей базе данных у меня есть несколько таблиц, каждая из которых представляет собой отдельный тип объекта. У меня есть схема Avro, которую я использую в Hadoop, которая представляет собой объединение всех полей этих разных типов сущностей, а также...
1401 просмотров
schedule
04.04.2024
Hadoop DistributedCache не смог сообщить о состоянии
В задании Hadoop я сопоставляю несколько XML-файлов и фильтрую идентификатор для каждого элемента (from < id>-tags) . Поскольку я хочу ограничить задание определенным набором идентификаторов, я читаю в большом файле (около 250 миллионов строк...
293 просмотров
schedule
10.10.2023
Как минимизировать записи в хранилище данных, инициированные библиотекой mapreduce?
У меня есть 3 части этого вопроса:
У меня есть приложение, в котором пользователи создают объекты, которые другие пользователи могут обновлять в течение 5 минут. Через 5 минут время ожидания объектов истекает, и они становятся недействительными....
388 просмотров
schedule
23.09.2022
Сопоставление/Уменьшение и сортировка вложенных документов
У меня есть вопрос относительно сортировки Map/Reduce внутреннего документа в mongodb. Схема примерно следующая:
{
"_id" : 16,
"days" : {
"1" : 123,
"2" : 129,
"3" : 140,
"4" : 56,
"5" : 57,
"6" : 69,...
718 просмотров
schedule
23.04.2024
Riak Sort на MapReduce
function(values) {
return values.sort(
function(a, b) {
return b['timestamp'] - a['timestamp'];
}
);
}
В настоящее время я выполняю приведенный выше код для фазы сокращения запроса Riak MapReduce, но он...
1162 просмотров
schedule
14.03.2024
Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS
Все работает нормально локально, когда я делаю следующее:
cat input | python mapper.py | sort | python reducer.py
Однако когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не завершается успешно. mapper.py...
9402 просмотров
schedule
27.04.2024
Функция уменьшения карты RavenDB
Я пытаюсь написать функцию RavenDB Map Reduce для индекса, чтобы сопоставлять информацию из группы DomainModels. Я не могу заполнить все поля результатов, но потратил на это день или около того, и мне не хватает чего-то фундаментального.
Вот:...
499 просмотров
schedule
14.03.2024
Невозможно загрузить модель предложения OpenNLP в задании Hadoop map-reduce
Я пытаюсь интегрировать OpenNLP в работу по уменьшению карты в Hadoop, начиная с некоторого базового разделения предложений. В функции карты выполняется следующий код:
public AnalysisFile analyze(String content) {
InputStream modelIn = null;...
1476 просмотров
schedule
03.10.2022
Работа RecordReader в Hadoop
Кто-нибудь может объяснить, как на самом деле работает RecordReader? Как работают методы nextkeyvalue() , getCurrentkey() и getprogress() после запуска программы?
5789 просмотров
schedule
30.11.2023
Ошибка при массовой загрузке в hbase
Я пытаюсь Hbase - bulkLoad через программу Java MapReduce. Я запускаю свою программу в Eclipse.
Но я получаю следующую ошибку:
12/06/14 20:04:28 INFO jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker, sessionId=
12/06/14...
2386 просмотров
schedule
15.10.2023
На какой машине работает Редуктор Hadoop?
Если у меня есть кластер из 4 узлов, где 1 машина является именным узлом, а остальные 3 машины — узлами данных, и если я установлю количество редукторов равным 1, какой из узлов данных будет запускать редюсер?
883 просмотров
schedule
28.12.2023
Зачем объявлять классы Mapper и Reducer статическими?
Это, вероятно, свидетельствует о том, что я не понимаю Java, но мне интересно, почему в большинстве программ MapReduce классы картографа и редуктора объявлены как статические?
2658 просмотров
schedule
09.02.2024
уменьшить карту для объединения наборов данных?
У меня есть три разных решения, в которых я храню документы с document_ids (поисковая система, база данных nosql и самостоятельно разработанное приложение семантического индексирования).
Я выполняю запросы ко всем различным решениям и хотел бы...
137 просмотров
schedule
09.09.2022