Я выполняю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python. Я хочу знать о приросте скорости, который я получу, если реализую тот же преобразователь и редуктор на Java (или использую Pig).
В частности, я ищу опыт людей по переходу с потоковой передачи на настраиваемые развертывания jar и/или Pig, а также документы, содержащие эталонные сравнения этих вариантов. Я нашел этот вопрос, но ответы недостаточно конкретны для меня. Я ищу не сравнения между Java и Python, а сравнения между пользовательским развертыванием jar в Hadoop и потоковой передачей на основе Python.
Моя работа заключается в считывании количества NGram из набора данных NGgram в Google Книгах и вычислении совокупных показателей. Похоже, что загрузка ЦП на вычислительных узлах близка к 100%. (Я также хотел бы услышать ваше мнение о различиях между заданиями, связанными с процессором и вводом-выводом).
Спасибо!
Амач