Публикации по тегам rdd [apache-spark, rdd, position, scala, scala-collections]

Вопросы по теме 'rdd'

Как я могу получить позицию элемента в RDD Spark?

Я новичок в Apache Spark и знаю, что основной структурой данных является RDD. Сейчас я пишу несколько приложений, которым требуется информация о положении элементов. Например, после преобразования ArrayList в (Java)RDD для каждого целого числа в RDD...

16925 просмотров

apache-spark rdd position

21.01.2024

scala Spark получает первые слова в каждой строке массива

Я не могу найти верхнее слово в массиве int и Strings. См. Приведенный ниже массив и требуемый вывод: Считайте, что n является RDD, и предложите мне Требуемые функции для получения вывода. scala> n.take(10) res3: Array[(Int, String)] =...

2801 просмотров

apache-spark scala rdd scala-collections

04.10.2023

Spark сортирует RDD и вступает в их ряды

У меня есть RDD[(VertexId, Double)] , и я хочу отсортировать его по _._2 и соединить индекс (ранг) с этим RDD. Поэтому я могу получить элемент и его ранг на filter . В настоящее время я сортирую СДР по sortBy , но не знаю, как соединить СДР с...

3211 просмотров

apache-spark scala rdd

10.11.2022

Apache Spark (Scala) — напечатать 1 запись RDD/pairRDD

При использовании RDD я сгруппировал элементы в RDD по ключу. val pairRDD = oldRDD.map(x => (x.user, x.product)).groupByKey pairRDD имеет тип: RDD(Int, Iterable[Int])) У меня проблемы с простым доступом к определенному элементу....

2999 просмотров

apache-spark scala key-pair rdd

22.03.2024

Как задачи Spark в одном и том же исполнителе совместно используют переменные (NumberFormatException с SimpleDateFormat)?

Документы искры говорят, что По умолчанию, когда Spark выполняет функцию параллельно как набор задач на разных узлах, он отправляет копию каждой переменной, используемой в функции, для каждой задачи. Если я создам Java SimpleDateFormat и...

2592 просмотров

multithreading apache-spark rdd simpledateformat

01.10.2022

Присоединение к СДР: После объединения двух разных пар СДР значение и порядок результирующего ключа СДР изменились?

У меня есть две пары RDD, скажем RDD1 : [(1,a),(2,b),(3,c)] RDD2 : [(1,d),(2,e),(3,f)] Теперь я присоединяюсь к этим RDD, используя join RDD3 = RDD1.join(RDD2); И я отобразил элементы в RDD3 с кодом ниже...

6914 просмотров

java apache-spark join rdd

25.08.2022

Spark: групповой запрос RDD Sql

У меня есть 3 RDD, к которым мне нужно присоединиться. val event1001RDD: schemaRDD = [тип события, идентификатор, местоположение, дата1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39]...

161 просмотров

sql apache-spark hadoop apache-spark-sql rdd

27.07.2022

Получить диапазон столбцов Spark RDD

Теперь у меня в RDD более 300 столбцов, но я обнаружил, что необходимо динамически выбирать диапазон столбцов и помещать их в тип данных LabledPoints. Как новичок в Spark, мне интересно, есть ли какой-либо индексный способ выбрать диапазон столбцов в...

9131 просмотров

apache-spark scala rdd

25.10.2022

как я могу читать файлы xls и xlsx в искре с помощью java?

Я хочу читать файлы xls и xlsx (MS Excel) построчно в искре, как мы делаем это для текстовых файлов ИЛИ как? Я хочу использовать искру для повышения производительности при чтении большого файла xls, скажем, 1 ГБ, поэтому мне нужна искра для чтения...

8344 просмотров

java apache-spark hadoop rdd spark-dataframe

03.04.2024

Поддерживает ли Spark доступ к данным с главного или рабочего узла?

Можно ли создать RDD, используя данные мастера или работника? Я знаю, что есть опция SC.textFile() , которая получает данные из локальной системы (драйвера). Точно так же мы можем использовать что-то вроде « master:file://input.txt »? потому что я...

1517 просмотров

apache-spark rdd

11.10.2022

Умножение матриц в Apache Spark

Я пытаюсь выполнить умножение матриц с помощью Apache Spark и Java. У меня 2 основных вопроса: Как создать RDD, который может представлять матрицу в Apache Spark? Как перемножить два таких СДР?

19420 просмотров

java apache-spark scala rdd apache-spark-mllib

08.02.2024

получить количество общей строки из двух RDD в scala

У меня есть 2 RDD, т.е. RDD[String] и RDD[String,String] , и их содержимое следующее. RDD[String] RDD[String,String] mobile laptop,aa smartphone printer,bb desktop...

843 просмотров

apache-spark scala rdd intersection

09.11.2023

Spark: недостаточно места для кэширования красного цвета в контейнере, но все еще много общей памяти для хранения.

У меня есть кластер из 30 узлов, каждый узел имеет 32 ядра, 240 ГБ памяти (экземпляр AWS cr1.8xlarge). У меня есть следующие конфигурации: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 В...

3318 просмотров

storage apache-spark rdd memory

09.10.2022

Проблема неизменяемости Apache Spark RDD[Vector]

Я знаю, что RDD неизменяемы, и поэтому их значение нельзя изменить, но я вижу следующее поведение: Я написал реализацию для алгоритма FuzzyCMeans ( https://github.com/salexln/FinalProject_FCM ), и теперь я Я тестирую это, поэтому я запускаю...

290 просмотров

apache-spark scala rdd apache-spark-mllib

21.02.2024

Spark RDD: установить разницу

val data: RDD [(String, Array[Int])] = sc.parallelize(Seq( ("100",Array(1, 2, 3, 4, 5)), ("1000",Array(10, 11, 12, 13, 14)) )) val codes = sc.parallelize(Seq(2, 3, 12, 13)) val result = data.map {case (id,values) => (id, values.diff(codes))}...

2452 просмотров

apache-spark scala rdd

14.10.2022

Операция столбца в Spark RDD в Python

У меня есть RDD со МНОГИМИ столбцами (например, сотни), и большая часть моей работы выполняется в столбцах, например. Мне нужно создать много промежуточных переменных из разных столбцов. Каков наиболее эффективный способ сделать это? Я создаю...

874 просмотров

python apache-spark pyspark rdd

07.10.2023

Что происходит, когда вы выполняете манипуляции с данными Java в Spark за пределами RDD

Я читаю файл csv из hdfs с помощью Spark. Он входит в объект FSDataInputStream. Я не могу использовать метод textfile(), потому что он разбивает CSV-файл по переводу строки, и я читаю CSV-файл с переводом строки внутри текстовых полей. Opencsv от...

316 просмотров

csv apache-spark hadoop scala rdd

20.10.2022

Как преобразовать искровой DataFrame в RDD mllib LabeledPoints?

Я попытался применить PCA к своим данным, а затем применить RandomForest к преобразованным данным. Тем не менее, PCA.transform(data) дал мне DataFrame, но мне нужна библиотека LabeledPoints для библиотеки RandomForest. Как я могу это сделать? Мой...

13178 просмотров

apache-spark scala rdd apache-spark-mllib pca

25.10.2022

искра RDD сортировка по двум значениям

У меня есть RDD из (name:String, popularity:Int, rank:Int) . Я хочу отсортировать это по rank , а если rank совпадает, то по popularity . Я делаю это двумя преобразованиями. var result = myRDD .sortBy(_._2, ascending = false)...

19629 просмотров

apache-spark sorting scala rdd

24.11.2023

Не найден класс Java, соответствующий Product with Serializable with Base

Я написал two case class , который расширяет базу abstract class . У меня есть два списка каждого класса ( listA и listB ). Когда я хочу объединить эти два списка, я не могу преобразовать окончательный список в набор данных Apache Spark 1.6.1....

4547 просмотров

java apache-spark scala rdd apache-spark-dataset

20.11.2023

Вопросы по теме 'rdd'

Похожие вопросы