Вопросы по теме 'rdd'

Как я могу получить позицию элемента в RDD Spark?
Я новичок в Apache Spark и знаю, что основной структурой данных является RDD. Сейчас я пишу несколько приложений, которым требуется информация о положении элементов. Например, после преобразования ArrayList в (Java)RDD для каждого целого числа в RDD...
16925 просмотров
schedule 21.01.2024

scala Spark получает первые слова в каждой строке массива
Я не могу найти верхнее слово в массиве int и Strings. См. Приведенный ниже массив и требуемый вывод: Считайте, что n является RDD, и предложите мне Требуемые функции для получения вывода. scala> n.take(10) res3: Array[(Int, String)] =...
2801 просмотров
schedule 04.10.2023

Spark сортирует RDD и вступает в их ряды
У меня есть RDD[(VertexId, Double)] , и я хочу отсортировать его по _._2 и соединить индекс (ранг) с этим RDD. Поэтому я могу получить элемент и его ранг на filter . В настоящее время я сортирую СДР по sortBy , но не знаю, как соединить СДР с...
3211 просмотров
schedule 10.11.2022

Apache Spark (Scala) — напечатать 1 запись RDD/pairRDD
При использовании RDD я сгруппировал элементы в RDD по ключу. val pairRDD = oldRDD.map(x => (x.user, x.product)).groupByKey pairRDD имеет тип: RDD(Int, Iterable[Int])) У меня проблемы с простым доступом к определенному элементу....
2999 просмотров
schedule 22.03.2024

Как задачи Spark в одном и том же исполнителе совместно используют переменные (NumberFormatException с SimpleDateFormat)?
Документы искры говорят, что По умолчанию, когда Spark выполняет функцию параллельно как набор задач на разных узлах, он отправляет копию каждой переменной, используемой в функции, для каждой задачи. Если я создам Java SimpleDateFormat и...
2592 просмотров

Присоединение к СДР: После объединения двух разных пар СДР значение и порядок результирующего ключа СДР изменились?
У меня есть две пары RDD, скажем RDD1 : [(1,a),(2,b),(3,c)] RDD2 : [(1,d),(2,e),(3,f)] Теперь я присоединяюсь к этим RDD, используя join RDD3 = RDD1.join(RDD2); И я отобразил элементы в RDD3 с кодом ниже...
6914 просмотров
schedule 25.08.2022

Spark: групповой запрос RDD Sql
У меня есть 3 RDD, к которым мне нужно присоединиться. val event1001RDD: schemaRDD = [тип события, идентификатор, местоположение, дата1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39]...
161 просмотров

Получить диапазон столбцов Spark RDD
Теперь у меня в RDD более 300 столбцов, но я обнаружил, что необходимо динамически выбирать диапазон столбцов и помещать их в тип данных LabledPoints. Как новичок в Spark, мне интересно, есть ли какой-либо индексный способ выбрать диапазон столбцов в...
9131 просмотров
schedule 25.10.2022

как я могу читать файлы xls и xlsx в искре с помощью java?
Я хочу читать файлы xls и xlsx (MS Excel) построчно в искре, как мы делаем это для текстовых файлов ИЛИ как? Я хочу использовать искру для повышения производительности при чтении большого файла xls, скажем, 1 ГБ, поэтому мне нужна искра для чтения...
8344 просмотров

Поддерживает ли Spark доступ к данным с главного или рабочего узла?
Можно ли создать RDD, используя данные мастера или работника? Я знаю, что есть опция SC.textFile() , которая получает данные из локальной системы (драйвера). Точно так же мы можем использовать что-то вроде « master:file://input.txt »? потому что я...
1517 просмотров
schedule 11.10.2022

Умножение матриц в Apache Spark
Я пытаюсь выполнить умножение матриц с помощью Apache Spark и Java. У меня 2 основных вопроса: Как создать RDD, который может представлять матрицу в Apache Spark? Как перемножить два таких СДР?
19420 просмотров

получить количество общей строки из двух RDD в scala
У меня есть 2 RDD, т.е. RDD[String] и RDD[String,String] , и их содержимое следующее. RDD[String] RDD[String,String] mobile laptop,aa smartphone printer,bb desktop...
843 просмотров
schedule 09.11.2023

Spark: недостаточно места для кэширования красного цвета в контейнере, но все еще много общей памяти для хранения.
У меня есть кластер из 30 узлов, каждый узел имеет 32 ядра, 240 ГБ памяти (экземпляр AWS cr1.8xlarge). У меня есть следующие конфигурации: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 В...
3318 просмотров
schedule 09.10.2022

Проблема неизменяемости Apache Spark RDD[Vector]
Я знаю, что RDD неизменяемы, и поэтому их значение нельзя изменить, но я вижу следующее поведение: Я написал реализацию для алгоритма FuzzyCMeans ( https://github.com/salexln/FinalProject_FCM ), и теперь я Я тестирую это, поэтому я запускаю...
290 просмотров

Spark RDD: установить разницу
val data: RDD [(String, Array[Int])] = sc.parallelize(Seq( ("100",Array(1, 2, 3, 4, 5)), ("1000",Array(10, 11, 12, 13, 14)) )) val codes = sc.parallelize(Seq(2, 3, 12, 13)) val result = data.map {case (id,values) => (id, values.diff(codes))}...
2452 просмотров
schedule 14.10.2022

Операция столбца в Spark RDD в Python
У меня есть RDD со МНОГИМИ столбцами (например, сотни), и большая часть моей работы выполняется в столбцах, например. Мне нужно создать много промежуточных переменных из разных столбцов. Каков наиболее эффективный способ сделать это? Я создаю...
874 просмотров
schedule 07.10.2023

Что происходит, когда вы выполняете манипуляции с данными Java в Spark за пределами RDD
Я читаю файл csv из hdfs с помощью Spark. Он входит в объект FSDataInputStream. Я не могу использовать метод textfile(), потому что он разбивает CSV-файл по переводу строки, и я читаю CSV-файл с переводом строки внутри текстовых полей. Opencsv от...
316 просмотров
schedule 20.10.2022

Как преобразовать искровой DataFrame в RDD mllib LabeledPoints?
Я попытался применить PCA к своим данным, а затем применить RandomForest к преобразованным данным. Тем не менее, PCA.transform(data) дал мне DataFrame, но мне нужна библиотека LabeledPoints для библиотеки RandomForest. Как я могу это сделать? Мой...
13178 просмотров

искра RDD сортировка по двум значениям
У меня есть RDD из (name:String, popularity:Int, rank:Int) . Я хочу отсортировать это по rank , а если rank совпадает, то по popularity . Я делаю это двумя преобразованиями. var result = myRDD .sortBy(_._2, ascending = false)...
19629 просмотров
schedule 24.11.2023

Не найден класс Java, соответствующий Product with Serializable with Base
Я написал two case class , который расширяет базу abstract class . У меня есть два списка каждого класса ( listA и listB ). Когда я хочу объединить эти два списка, я не могу преобразовать окончательный список в набор данных Apache Spark 1.6.1....
4547 просмотров