Вопросы по теме 'elastic-map-reduce'

Ошибка Broken Pipe приводит к сбою потокового задания Elastic MapReduce на AWS
Все работает нормально локально, когда я делаю следующее: cat input | python mapper.py | sort | python reducer.py Однако когда я запускаю потоковое задание MapReduce на AWS Elastic Mapreduce, задание не завершается успешно. mapper.py...
9402 просмотров

AWS Elastic Map Reduce: вывод в SimpleDB
Каков наиболее эффективный способ получить выходные данные Elastic Map Reduce в SimpleDB? Я знаю, что могу просто вывести результаты на S3, загрузить их, а скрипт проанализирует результаты и вставит их в SimpleDB. Но есть ли более...
930 просмотров

Ошибка при выполнении настроенного jar-файла WordCount в AWS EMR
Привет, я пытаюсь выполнить настроенную банку WordCount в AWs EMR. Моя банка для подсчета слов работает правильно, потому что я попытался добавить ее как шаг без аргументов задания, и она успешно работает. Моя проблема в том, что я запускаю ее с...
125 просмотров

Возможность сделать снимок кластера AWS EMR или namenode
Я новичок в сервисах AWS и пробую некоторые варианты использования. Я хочу создавать кластеры EMR по запросу с некоторыми предопределенными конфигурациями и установленными приложениями/скриптами. Я планировал сначала создать снимок существующего...
385 просмотров

Как лучше всего отслеживать ход выполнения задания AWS EMR?
У меня есть следующий код для запуска задания EMR, и он работает успешно. И я также хочу следить за состоянием работы. Я использую DescribeJobFlows API, но он говорит, что этот API устарел в соответствии с...
2029 просмотров

Не удалось выполнить HTTP-запрос: Broken Pipe с Hadoop/s3 в Amazon EMR
Я разработал собственный JAR-файл, который использую для обработки данных в Elastic MapReduce. Данные представляют собой несколько сотен тысяч файлов, поступающих с Amazon S3. JAR не делает ничего ужасного для чтения данных - он просто использует...
4248 просмотров

More_like_this запрос с фильтром
У меня есть 1702 документа, проиндексированных в эластичном поиске, в котором есть категория в качестве одного из полей, а также поле с именем SequentialId. Сначала я получил документы с категорией 1.1, которые находятся между документом 1 и...
3628 просмотров
schedule 22.07.2022

Этап потоковой передачи кластера AWS EMR: неверный запрос
Я пытаюсь настроить тривиальное задание EMR для подсчета слов в массивных текстовых файлах, хранящихся в s3://__mybucket__/input/ . Я не могу правильно добавить первый из двух обязательных шагов потоковой передачи (первый — это сопоставление ввода с...
1463 просмотров