Вопросы по теме 'spark-dataframe'

как я могу читать файлы xls и xlsx в искре с помощью java?
Я хочу читать файлы xls и xlsx (MS Excel) построчно в искре, как мы делаем это для текстовых файлов ИЛИ как? Я хочу использовать искру для повышения производительности при чтении большого файла xls, скажем, 1 ГБ, поэтому мне нужна искра для чтения...
8344 просмотров

Сводная нечисловая таблица в Spark Scala
Можно ли составить сводную таблицу с нечисловыми значениями в Spark Scala? Я рассмотрел следующие два вопроса о стеке. Как повернуть DataFrame? Список в инструкции Case-When в Spark SQL Следуя шагам в вопросе «Список в случае - когда», я...
867 просмотров

подключение к искровым фреймам данных в таблице
Мы пытаемся генерировать отчеты в виде таблицы с помощью искрового подключения SQL, но я обнаружил, что в конечном итоге мы подключаемся к мета-хранилищу улья. Если это так, то каковы преимущества этого нового искрового SQL-соединения. Есть ли...
326 просмотров

импортировать в Spark - как использовать оператор импорта java для импорта нескольких классов?
Я хочу импортировать весь java.io.* в spark-shell, и он не находит участника. Как импортировать пакеты? мне нужно импортировать каждый класс?
488 просмотров

Pyspark: прямое заполнение последним наблюдением для DataFrame
Используя Spark 1.5.1, Я пытался переадресовать заполнение нулевых значений последним известным наблюдением для одного столбца моего DataFrame. Можно начать с нулевого значения, и в этом случае я бы в обратном направлении заполнил это...
14585 просмотров

Как собрать искровой фрейм данных на каждом узле-исполнителе?
Мое приложение читает большой файл паркета и выполняет некоторые извлечения данных, чтобы получить небольшой объект искрового фрейма данных. Все содержимое этого фрейма данных должно присутствовать на каждом узле-исполнителе для следующей фазы...
1077 просмотров
schedule 20.04.2024

Как сохранить файл в формате Feather \ хранилище из Spark?
Можно ли экспортировать фрейм данных из Apache Spark в перо ( https://github.com/wesm/feather ) файл?
2373 просмотров

Как запустить приложение Spark в качестве демона
У меня есть основной вопрос о запуске приложения spark. У меня есть клиент Java, который отправит мне запрос на данные запроса, которые находятся в HDFS. Запрос, который я получаю, представляет собой REST API через HTTP, и мне нужно...
1763 просмотров

Как прочитать файл фиксированной длины в Spark с помощью DataFrame API и SCALA
У меня есть файл фиксированной длины (пример показан ниже), и я хочу прочитать этот файл с помощью DataFrames API в Spark, используя SCALA (не python или java). Используя API DataFrames, есть способы чтения текстового файла, файла json и т. д., но не...
11561 просмотров
schedule 26.11.2023

Как увеличить количество разделов при чтении таблицы кустов в Spark
Итак, я пытаюсь прочитать таблицу кустов в Spark с помощью hiveContext. Задание в основном считывает данные из двух таблиц в два фрейма данных, которые впоследствии преобразуются в RDD. Затем я присоединяюсь к ним на основе общего ключа. Однако это...
316 просмотров

Измените форму искрового кадра данных пар ключ-значение с ключами в качестве новых столбцов
Я новичок в Spark и Scala. Допустим, у меня есть фрейм данных из списков, которые представляют собой пары ключ-значение. Есть ли способ сопоставить переменные идентификаторов идентификаторов столбцов как новые столбцы? df.show()...
3207 просмотров
schedule 10.01.2024

Обновление столбца в искровом кадре данных с помощью схемы json
У меня есть файлы json, и я пытаюсь хэшировать одно поле с помощью SHA 256. Эти файлы находятся на AWS S3. В настоящее время я использую искру с python на Apache Zeppelin. Вот моя схема json, я пытаюсь хэшировать поле «mac»; |-- Document:...
1915 просмотров

сохранение кадра данных Spark в таблице SQL с автоматическим увеличением столбца
У меня есть следующая таблица в БД +----------------+------------+------+-----+---------+----------------+ | Field | Type | Null | Key | Default | Extra |...
1936 просмотров

SPARK DataFrame: выберите первые 3 строки каждой группы
Я застрял с аналогичным вариантом использования, как в SPARK DataFrame: выберите первую строку каждой группы . Разница только в том, что мне нужно выбрать первые 3 строки каждой группы. Функция agg позволяет мне выбрать верхнее значение с...
8179 просмотров

присоединиться к двум кадрам данных pyspark, используя предложение between, чтобы найти данные IP из диапазона IP
Я пытаюсь написать код pyspark для следующего SQL-запроса: Create table table1 as Select a.ip_address,a.ip_number,b.ip_start_int,b.ip_end_int,b.post_code_id,b.city,b.region_name,b.two_letter_country from nk_ip_address_check a join...
3043 просмотров

Итерация каждой строки фрейма данных с использованием pySpark
Мне нужно перебрать dataframe с помощью pySpark так же, как мы можем перебрать набор значений, используя цикл for. Ниже приведен код, который я написал. Проблема с этим кодом Я должен использовать сбор, который нарушает параллелизм Я не...
12743 просмотров

Как выполнить некоторые операции с набором данных Spark, не влияя на структуру данных?
Я использую API искровых наборов данных для удаления почти дубликатов. Что я пытаюсь сделать, так это сгруппировать дублированные строки, чтобы оставить только одну строку из каждой группы, но со столбцом, указывающим количество строк, которые были...
242 просмотров

Пользовательский кодировщик Spark для фрейма данных
Я знаю о как хранить пользовательские объекты в наборе данных? но тем не менее, мне не совсем понятно, как создать этот пользовательский кодировщик, который правильно сериализует несколько полей. Вручную я создал несколько функций...
1468 просмотров

проблема с функциями spark sql?
Я пытаюсь получить максимальную цену продукта из данных. from pyspark.sql import functions as func from pyspark.sql import Row rdd=sc.textFile("/mnt/my_s3_data/retail_db/products/").map(lambda x: x.split(',')) row_rdd=rdd.map(lambda o :...
170 просмотров

Spark: усечено строковое представление плана, так как оно было слишком большим. Предупреждение при использовании выражения агрегации, созданного вручную
Я пытаюсь построить для каждого из моих пользователей вектор, содержащий среднее количество записей в час дня. Следовательно, вектор должен иметь 24 измерения. В моем исходном DataFrame есть столбцы userID и hour , и я начинаю с выполнения...
59581 просмотров
schedule 21.10.2023