Вопросы по теме 'rdd'
Как я могу получить позицию элемента в RDD Spark?
Я новичок в Apache Spark и знаю, что основной структурой данных является RDD. Сейчас я пишу несколько приложений, которым требуется информация о положении элементов. Например, после преобразования ArrayList в (Java)RDD для каждого целого числа в RDD...
16925 просмотров
schedule
21.01.2024
scala Spark получает первые слова в каждой строке массива
Я не могу найти верхнее слово в массиве int и Strings.
См. Приведенный ниже массив и требуемый вывод: Считайте, что n является RDD, и предложите мне Требуемые функции для получения вывода.
scala> n.take(10)
res3: Array[(Int, String)] =...
2801 просмотров
schedule
04.10.2023
Spark сортирует RDD и вступает в их ряды
У меня есть RDD[(VertexId, Double)] , и я хочу отсортировать его по _._2 и соединить индекс (ранг) с этим RDD. Поэтому я могу получить элемент и его ранг на filter .
В настоящее время я сортирую СДР по sortBy , но не знаю, как соединить СДР с...
3211 просмотров
schedule
10.11.2022
Apache Spark (Scala) — напечатать 1 запись RDD/pairRDD
При использовании RDD я сгруппировал элементы в RDD по ключу.
val pairRDD = oldRDD.map(x => (x.user, x.product)).groupByKey
pairRDD имеет тип: RDD(Int, Iterable[Int]))
У меня проблемы с простым доступом к определенному элементу....
2999 просмотров
schedule
22.03.2024
Как задачи Spark в одном и том же исполнителе совместно используют переменные (NumberFormatException с SimpleDateFormat)?
Документы искры говорят, что
По умолчанию, когда Spark выполняет функцию параллельно как набор задач на разных узлах, он отправляет копию каждой переменной, используемой в функции, для каждой задачи.
Если я создам Java SimpleDateFormat и...
2592 просмотров
schedule
01.10.2022
Присоединение к СДР: После объединения двух разных пар СДР значение и порядок результирующего ключа СДР изменились?
У меня есть две пары RDD, скажем
RDD1 : [(1,a),(2,b),(3,c)]
RDD2 : [(1,d),(2,e),(3,f)]
Теперь я присоединяюсь к этим RDD, используя join
RDD3 = RDD1.join(RDD2);
И я отобразил элементы в RDD3 с кодом ниже...
6914 просмотров
schedule
25.08.2022
Spark: групповой запрос RDD Sql
У меня есть 3 RDD, к которым мне нужно присоединиться.
val event1001RDD: schemaRDD = [тип события, идентификатор, местоположение, дата1]
[1001,4929102,LOC01,2015-01-20 10:44:39]
[1001,4929103,LOC02,2015-01-20 10:44:39]...
161 просмотров
schedule
27.07.2022
Получить диапазон столбцов Spark RDD
Теперь у меня в RDD более 300 столбцов, но я обнаружил, что необходимо динамически выбирать диапазон столбцов и помещать их в тип данных LabledPoints. Как новичок в Spark, мне интересно, есть ли какой-либо индексный способ выбрать диапазон столбцов в...
9131 просмотров
schedule
25.10.2022
как я могу читать файлы xls и xlsx в искре с помощью java?
Я хочу читать файлы xls и xlsx (MS Excel) построчно в искре, как мы делаем это для текстовых файлов ИЛИ как?
Я хочу использовать искру для повышения производительности при чтении большого файла xls, скажем, 1 ГБ, поэтому мне нужна искра для чтения...
8344 просмотров
schedule
03.04.2024
Поддерживает ли Spark доступ к данным с главного или рабочего узла?
Можно ли создать RDD, используя данные мастера или работника? Я знаю, что есть опция SC.textFile() , которая получает данные из локальной системы (драйвера). Точно так же мы можем использовать что-то вроде « master:file://input.txt »? потому что я...
1517 просмотров
schedule
11.10.2022
Умножение матриц в Apache Spark
Я пытаюсь выполнить умножение матриц с помощью Apache Spark и Java.
У меня 2 основных вопроса:
Как создать RDD, который может представлять матрицу в Apache Spark?
Как перемножить два таких СДР?
19420 просмотров
schedule
08.02.2024
получить количество общей строки из двух RDD в scala
У меня есть 2 RDD, т.е. RDD[String] и RDD[String,String] , и их содержимое следующее.
RDD[String] RDD[String,String]
mobile laptop,aa
smartphone printer,bb
desktop...
843 просмотров
schedule
09.11.2023
Spark: недостаточно места для кэширования красного цвета в контейнере, но все еще много общей памяти для хранения.
У меня есть кластер из 30 узлов, каждый узел имеет 32 ядра, 240 ГБ памяти (экземпляр AWS cr1.8xlarge). У меня есть следующие конфигурации:
--driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90
В...
3318 просмотров
schedule
09.10.2022
Проблема неизменяемости Apache Spark RDD[Vector]
Я знаю, что RDD неизменяемы, и поэтому их значение нельзя изменить, но я вижу следующее поведение:
Я написал реализацию для алгоритма FuzzyCMeans ( https://github.com/salexln/FinalProject_FCM ), и теперь я Я тестирую это, поэтому я запускаю...
290 просмотров
schedule
21.02.2024
Spark RDD: установить разницу
val data: RDD [(String, Array[Int])] = sc.parallelize(Seq(
("100",Array(1, 2, 3, 4, 5)), ("1000",Array(10, 11, 12, 13, 14))
))
val codes = sc.parallelize(Seq(2, 3, 12, 13))
val result = data.map {case (id,values) => (id, values.diff(codes))}...
2452 просмотров
schedule
14.10.2022
Операция столбца в Spark RDD в Python
У меня есть RDD со МНОГИМИ столбцами (например, сотни), и большая часть моей работы выполняется в столбцах, например. Мне нужно создать много промежуточных переменных из разных столбцов.
Каков наиболее эффективный способ сделать это?
Я создаю...
874 просмотров
schedule
07.10.2023
Что происходит, когда вы выполняете манипуляции с данными Java в Spark за пределами RDD
Я читаю файл csv из hdfs с помощью Spark. Он входит в объект FSDataInputStream. Я не могу использовать метод textfile(), потому что он разбивает CSV-файл по переводу строки, и я читаю CSV-файл с переводом строки внутри текстовых полей. Opencsv от...
316 просмотров
schedule
20.10.2022
Как преобразовать искровой DataFrame в RDD mllib LabeledPoints?
Я попытался применить PCA к своим данным, а затем применить RandomForest к преобразованным данным. Тем не менее, PCA.transform(data) дал мне DataFrame, но мне нужна библиотека LabeledPoints для библиотеки RandomForest. Как я могу это сделать? Мой...
13178 просмотров
schedule
25.10.2022
искра RDD сортировка по двум значениям
У меня есть RDD из (name:String, popularity:Int, rank:Int) . Я хочу отсортировать это по rank , а если rank совпадает, то по popularity . Я делаю это двумя преобразованиями.
var result = myRDD
.sortBy(_._2, ascending = false)...
19629 просмотров
schedule
24.11.2023
Не найден класс Java, соответствующий Product with Serializable with Base
Я написал two case class , который расширяет базу abstract class . У меня есть два списка каждого класса ( listA и listB ). Когда я хочу объединить эти два списка, я не могу преобразовать окончательный список в набор данных Apache Spark 1.6.1....
4547 просмотров
schedule
20.11.2023