Публикации по тегам spark-dataframe [java, apache-spark, hadoop, rdd, spark-dataframe]

Вопросы по теме 'spark-dataframe'

как я могу читать файлы xls и xlsx в искре с помощью java?

Я хочу читать файлы xls и xlsx (MS Excel) построчно в искре, как мы делаем это для текстовых файлов ИЛИ как? Я хочу использовать искру для повышения производительности при чтении большого файла xls, скажем, 1 ГБ, поэтому мне нужна искра для чтения...

8344 просмотров

03.04.2024

Сводная нечисловая таблица в Spark Scala

Можно ли составить сводную таблицу с нечисловыми значениями в Spark Scala? Я рассмотрел следующие два вопроса о стеке. Как повернуть DataFrame? Список в инструкции Case-When в Spark SQL Следуя шагам в вопросе «Список в случае - когда», я...

867 просмотров

apache-spark scala pivot-table spark-dataframe

04.05.2024

подключение к искровым фреймам данных в таблице

Мы пытаемся генерировать отчеты в виде таблицы с помощью искрового подключения SQL, но я обнаружил, что в конечном итоге мы подключаемся к мета-хранилищу улья. Если это так, то каковы преимущества этого нового искрового SQL-соединения. Есть ли...

326 просмотров

apache-spark tableau-api hive spark-dataframe

03.10.2023

импортировать в Spark - как использовать оператор импорта java для импорта нескольких классов?

Я хочу импортировать весь java.io.* в spark-shell, и он не находит участника. Как импортировать пакеты? мне нужно импортировать каждый класс?

488 просмотров

java import apache-spark scala spark-dataframe

01.11.2023

Pyspark: прямое заполнение последним наблюдением для DataFrame

Используя Spark 1.5.1, Я пытался переадресовать заполнение нулевых значений последним известным наблюдением для одного столбца моего DataFrame. Можно начать с нулевого значения, и в этом случае я бы в обратном направлении заполнил это...

14585 просмотров

apache-spark pyspark apache-spark-sql spark-dataframe

10.11.2022

Как собрать искровой фрейм данных на каждом узле-исполнителе?

Мое приложение читает большой файл паркета и выполняет некоторые извлечения данных, чтобы получить небольшой объект искрового фрейма данных. Все содержимое этого фрейма данных должно присутствовать на каждом узле-исполнителе для следующей фазы...

1077 просмотров

spark-dataframe

20.04.2024

Как сохранить файл в формате Feather \ хранилище из Spark?

Можно ли экспортировать фрейм данных из Apache Spark в перо ( https://github.com/wesm/feather ) файл?

2373 просмотров

pandas apache-spark dataframe feather spark-dataframe

24.09.2022

Как запустить приложение Spark в качестве демона

У меня есть основной вопрос о запуске приложения spark. У меня есть клиент Java, который отправит мне запрос на данные запроса, которые находятся в HDFS. Запрос, который я получаю, представляет собой REST API через HTTP, и мне нужно...

1763 просмотров

apache-spark apache-spark-sql spark-dataframe

19.05.2024

Как прочитать файл фиксированной длины в Spark с помощью DataFrame API и SCALA

У меня есть файл фиксированной длины (пример показан ниже), и я хочу прочитать этот файл с помощью DataFrames API в Spark, используя SCALA (не python или java). Используя API DataFrames, есть способы чтения текстового файла, файла json и т. д., но не...

11561 просмотров

apache-spark scala spark-dataframe

26.11.2023

Как увеличить количество разделов при чтении таблицы кустов в Spark

Итак, я пытаюсь прочитать таблицу кустов в Spark с помощью hiveContext. Задание в основном считывает данные из двух таблиц в два фрейма данных, которые впоследствии преобразуются в RDD. Затем я присоединяюсь к ним на основе общего ключа. Однако это...

316 просмотров

apache-spark hive hivecontext spark-dataframe

05.12.2023

Измените форму искрового кадра данных пар ключ-значение с ключами в качестве новых столбцов

Я новичок в Spark и Scala. Допустим, у меня есть фрейм данных из списков, которые представляют собой пары ключ-значение. Есть ли способ сопоставить переменные идентификаторов идентификаторов столбцов как новые столбцы? df.show()...

3207 просмотров

apache-spark scala spark-dataframe

10.01.2024

Обновление столбца в искровом кадре данных с помощью схемы json

У меня есть файлы json, и я пытаюсь хэшировать одно поле с помощью SHA 256. Эти файлы находятся на AWS S3. В настоящее время я использую искру с python на Apache Zeppelin. Вот моя схема json, я пытаюсь хэшировать поле «mac»; |-- Document:...

1915 просмотров

python json apache-spark hash spark-dataframe

05.09.2022

сохранение кадра данных Spark в таблице SQL с автоматическим увеличением столбца

1936 просмотров

apache-spark apache-spark-sql jdbc spark-dataframe

15.11.2023

SPARK DataFrame: выберите первые 3 строки каждой группы

Я застрял с аналогичным вариантом использования, как в SPARK DataFrame: выберите первую строку каждой группы . Разница только в том, что мне нужно выбрать первые 3 строки каждой группы. Функция agg позволяет мне выбрать верхнее значение с...

8179 просмотров

apache-spark apache-spark-sql scala spark-dataframe

06.04.2024

присоединиться к двум кадрам данных pyspark, используя предложение between, чтобы найти данные IP из диапазона IP

Я пытаюсь написать код pyspark для следующего SQL-запроса: Create table table1 as Select a.ip_address,a.ip_number,b.ip_start_int,b.ip_end_int,b.post_code_id,b.city,b.region_name,b.two_letter_country from nk_ip_address_check a join...

3043 просмотров

apache-spark pyspark join pyspark-sql spark-dataframe

02.05.2024

Итерация каждой строки фрейма данных с использованием pySpark

Мне нужно перебрать dataframe с помощью pySpark так же, как мы можем перебрать набор значений, используя цикл for. Ниже приведен код, который я написал. Проблема с этим кодом Я должен использовать сбор, который нарушает параллелизм Я не...

12743 просмотров

python pyspark dataframe iteration spark-dataframe

09.11.2023

Как выполнить некоторые операции с набором данных Spark, не влияя на структуру данных?

Я использую API искровых наборов данных для удаления почти дубликатов. Что я пытаюсь сделать, так это сгруппировать дублированные строки, чтобы оставить только одну строку из каждой группы, но со столбцом, указывающим количество строк, которые были...

242 просмотров

duplicates apache-spark scala spark-dataframe

02.02.2024

Пользовательский кодировщик Spark для фрейма данных

Я знаю о как хранить пользовательские объекты в наборе данных? но тем не менее, мне не совсем понятно, как создать этот пользовательский кодировщик, который правильно сериализует несколько полей. Вручную я создал несколько функций...

1468 просмотров

apache-spark apache-spark-sql scala encoder spark-dataframe

09.11.2023

проблема с функциями spark sql?

Я пытаюсь получить максимальную цену продукта из данных. from pyspark.sql import functions as func from pyspark.sql import Row rdd=sc.textFile("/mnt/my_s3_data/retail_db/products/").map(lambda x: x.split(',')) row_rdd=rdd.map(lambda o :...

170 просмотров

python apache-spark pyspark apache-spark-sql spark-dataframe

31.08.2022

Spark: усечено строковое представление плана, так как оно было слишком большим. Предупреждение при использовании выражения агрегации, созданного вручную

Я пытаюсь построить для каждого из моих пользователей вектор, содержащий среднее количество записей в час дня. Следовательно, вектор должен иметь 24 измерения. В моем исходном DataFrame есть столбцы userID и hour , и я начинаю с выполнения...

59581 просмотров

apache-spark spark-dataframe

21.10.2023

Вопросы по теме 'spark-dataframe'

Похожие вопросы