Поддерживает ли Spark доступ к данным с главного или рабочего узла?

Можно ли создать RDD, используя данные мастера или работника? Я знаю, что есть опция SC.textFile(), которая получает данные из локальной системы (драйвера). Точно так же мы можем использовать что-то вроде «master:file://input.txt»? потому что я получаю доступ к удаленному кластеру, а размер моих входных данных велик и я не могу войти в удаленный кластер.

Я не ищу S3 или HDFS. Пожалуйста, предложите, если есть какой-либо другой вариант.

apache-spark rdd

gsuresh92 02.10.2015 источник

comment

Какой менеджер кластера вы используете? - WoodChopper 02.10.2015

Ответы (3)

arrow_upward
0
arrow_downward

Данные в RDD всегда контролируются рабочими, независимо от того, находятся ли они в памяти или в источнике данных. Чтобы получить данные из Workers в Driver, вы можете вызвать collect() на вашем RDD.

Вы должны поместить свой файл в HDFS или файловую систему, доступную для всех узлов.

Patrick McGloin 02.10.2015

arrow_upward
0
arrow_downward

Лучший способ сделать это, как вы сказали, использовать sc.textFile. Для этого вам нужно сделать файл доступным на всех узлах кластера. Spark предоставляет простой способ сделать это с помощью опции --files для spark-submit. Просто передайте опцию, а затем путь к файлу, который вам нужно скопировать.

MawrCoffeePls 02.10.2015

arrow_upward
0
arrow_downward

Вы можете получить доступ к файлу hadoop, создав конфигурацию hadoop.

import org.apache.spark.deploy.SparkHadoopUtil
import java.io.{File, FileInputStream, FileOutputStream, InputStream}

val hadoopConfig = SparkHadoopUtil.get.conf
val fs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI(fileName), hadoopConfig)
val fsPath = new org.apache.hadoop.fs.Path(fileName)

Как только вы получите путь, вы можете копировать, удалять, перемещать или выполнять любые операции.

Arun Goudar 07.08.2018

Поддерживает ли Spark доступ к данным с главного или рабочего узла?

Ответы (3)

Похожие вопросы