Публикации по тегам amazon-emr [amazon-web-services, amazon-emr, emr, amazon-s3, amazon-dynamodb]

Вопросы по теме 'amazon-emr'

Возможный дубликат: Повторное использование экземпляра Amazon Elastic MapReduce Могу ли я оставить запущенный кластер EMR работающим и продолжать отправлять ему новые задания, пока я не закончу (скажем, через пару дней), а затем закрыть...

1348 просмотров

amazon-web-services amazon-emr emr

18.05.2024

использовать EMR для копирования таблиц DynamoDB в разные учетные записи

У меня есть много таблиц с информацией в одной учетной записи DynamoDB, которую я хотел бы перенести в другую учетную запись. Я вижу, что вы можете копировать таблицы в одной учетной записи с помощью EMR следующим образом:...

2703 просмотров

amazon-s3 amazon-dynamodb amazon-emr emr

11.09.2022

EMR Как объединить файлы в один?

Я разбил большой двоичный файл на куски (2 Гб) и загрузил их на Amazon S3. Теперь я хочу объединить его обратно в один файл и обработать с помощью своего пользовательского я пытался бежать elastic-mapreduce -j $JOBID -ssh \ "hadoop dfs -cat...

2723 просмотров

amazon-web-services amazon-s3 amazon-emr hadoop-streaming emr

13.10.2022

Свинья на EMR: как включить точку с запятой в аргумент регулярного выражения функции EXTRACT

Я работаю с некоторыми данными в Pig, которые включают интересующие строки, необязательно разделенные точкой с запятой и в случайном порядке, например. test=12345;foo=bar test=12345 foo=bar;test=12345 Следующий код должен извлечь значение...

930 просмотров

amazon-emr hadoop apache-pig emr

27.10.2022

Ошибка при выполнении настроенного jar-файла WordCount в AWS EMR

Привет, я пытаюсь выполнить настроенную банку WordCount в AWs EMR. Моя банка для подсчета слов работает правильно, потому что я попытался добавить ее как шаг без аргументов задания, и она успешно работает. Моя проблема в том, что я запускаю ее с...

125 просмотров

amazon-web-services amazon-emr elastic-map-reduce emr

22.03.2024

Как лучше всего отслеживать ход выполнения задания AWS EMR?

У меня есть следующий код для запуска задания EMR, и он работает успешно. И я также хочу следить за состоянием работы. Я использую DescribeJobFlows API, но он говорит, что этот API устарел в соответствии с...

2029 просмотров

java amazon-web-services amazon-emr elastic-map-reduce emr

17.08.2022

Использование драйвера JDBC для Hive на Amazon EMR в R

Amazon предоставляет драйвер JDBC для подключения к Hive. Существует пакет JDBC для R , который, похоже, должен иметь возможность использовать эти драйверы и разрешить доступ к Hive. Фактически, другие явно смогли получить доступ к Hive из R с...

1249 просмотров

r amazon-emr hive jdbc

01.05.2024

Сбой автоматического экспорта AWS DynamoDB в S3 с недействительной ролью/DataPipelineDefaultRole

Точно следуя пошаговым инструкциям на этой странице. Я пытаюсь экспортировать содержимое одной из своих таблиц DynamoDB в корзину S3. Я создаю конвейер точно в соответствии с инструкциями, но он не запускается. Кажется, у него проблемы с...

3005 просмотров

amazon-dynamodb amazon-iam amazon-emr export amazon-data-pipeline

12.10.2022

Как запустить WordCount в Amazon EMR?

Как правильно указать пути ввода и вывода в Amazon EMR? В моем кластере я нажал Add Step , затем выбрал Custom Jar и ввел местоположение jar s3://wordcountbuckett/wc.jar . Для поля ввода аргументов я указал s3://wordcountbuckett/file01 в...

342 просмотров

java amazon-web-services amazon-emr hadoop

10.10.2022

AWS EMR — получить IP-адрес главного узла из кода Java

Я хочу реализовать следующий поток из кода Java: Создайте новый экземпляр AWS EMR (с помощью AWS SDK) Подключитесь к AWS EMR с помощью Hive JDBC (требуется IP-адрес). Запустите мои запросы «SQL» в EMR Уничтожить AWS EMR (с помощью AWS SDK)...

1851 просмотров

java amazon-emr aws-sdk emr

26.02.2024

Временная таблица Spark не отображается в билайне

У меня есть искровой кластер в AWS EMR, и я пытаюсь запустить следующий код с thrift-server: ... JavaSparkContext jsc = new JavaSparkContext(SparkContext.getOrCreate()); HiveContext hiveContext = new HiveContext(jsc); JavaRDD<Person> people...

409 просмотров

java amazon-web-services apache-spark amazon-emr jdbc

03.11.2022

Spark: запуск spark-submit с правильным количеством исполнителей

Я настроил базовый кластер EMR из 3 узлов и запустил spark-submit с настройкой --executor-memory 1G и без других конфигураций. Сам сценарий представляет собой базовую задачу бенчмаркинга: from pyspark import SparkConf, SparkContext from...

303 просмотров

apache-spark amazon-emr apache-spark-sql emr

26.06.2022

Как уменьшить время пульсации подчиненных узлов в Hadoop

Я работаю над AWS EMR. Я хочу как можно скорее получить информацию об умершем узле задачи. Но в соответствии с настройкой по умолчанию в Hadoop пульс передается через каждые 10 минут. Это пара ключ-значение по умолчанию в mapred-default —...

2094 просмотров

java amazon-web-services amazon-emr hadoop mapreduce

29.08.2022

Как установить графический интерфейс на Amazon AWS EC2 или EMR с помощью Amazon AMI

Мне нужно запустить приложение, для запуска и настройки которого требуется графический интерфейс. Мне также нужно иметь возможность запускать это приложение в сервисе Amazon EC2 и сервисе EMR. Требование EMR означает, что он должен работать на Linux...

9682 просмотров

amazon-ec2 amazon-emr xfce emr

22.07.2022

FLINK: развертывание заняло более 60 секунд.

Я новичок в flink и пытаюсь развернуть свою банку на кластере EMR. Я использовал кластер из 3 узлов (1 главный и 2 подчиненных) с конфигурацией по умолчанию. Я не делал никаких изменений в конфигурации и придерживался конфигурации по умолчанию. При...

1370 просмотров

amazon-emr apache-flink

10.04.2024

Создание кластера EMR AWS Data Pipeline с помощью ShellCommandActivity

Когда я создаю AWS EMR , я могу сделать это с помощью их простого мастера на Консоль управления AWS . Когда он будет завершен, я могу протестировать его, и когда я доволен его конфигурацией, я могу просто нажать кнопку AWS CLI Export и скопировать...

359 просмотров

amazon-web-services amazon-emr amazon-data-pipeline

27.10.2022

Задание AWS EMR Spark перезапускается [AsyncEventQueue: удаление события из очереди appStatus.]

Мое задание pyspark (2 часа, обработка 20 ГБ, запись 40 МБ) перезапускает задание даже после успешного запуска (логи) и записи данных в s3. Я пробовал pyspark 2.3.0, 2.3.1 и emr-5.14.0, emr-5.16.0. Трассировка: 18/08/22 17:45:13 ERROR...

3264 просмотров

apache-spark pyspark amazon-emr

04.01.2024

AWS EMR с каталогом Glue, укажите имя каталога явно

есть ли способ явно указать Glue catalogId в конфигурации EMR? https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hive-metastore-glue.html Здесь показано, как указать использование Glue в EMR для хранилища метаданных Hive, но не...

924 просмотров

amazon-web-services amazon-emr

13.08.2022

Экспорт Sqoop в Aurora RDS очень медленный

Я пытаюсь экспортировать свои данные объемом 130 ГБ, которые находятся в 900 файлах, из S3 в Auroa/MySql RDS. У меня есть кластер из 10 узлов конфигурации 10r4.4xlarge . И Аврора горит Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM) Также, когда...

328 просмотров

mysql amazon-aurora amazon-emr sqoop hadoop2

25.09.2022

Как я могу использовать графические фреймы с pyspark в AWS EMR?

Я пытаюсь использовать пакет graphframes в pyspark в Jupyter Notebook (используя Sagemaker и sparkmagic) на AWS EMR . Я пробовал добавить параметр конфигурации при создании кластера EMR в консоли AWS: [{"classification":"spark-defaults",...

1091 просмотров

jupyter-notebook apache-spark pyspark amazon-emr graphframes

29.04.2024

Вопросы по теме 'amazon-emr'

Похожие вопросы