Вопросы по теме 'pyspark-sql'

Как сохранить таблицу в pyspark sql?
Я хочу сохранить результирующую таблицу в CSV, текстовый файл или аналогичный файл, чтобы иметь возможность выполнять визуализацию с помощью RStudio. Я использую pyspark.sql для выполнения некоторых запросов в настройке Hadoop. Я хочу сохранить...
1116 просмотров
schedule 02.06.2024

присоединиться к двум кадрам данных pyspark, используя предложение between, чтобы найти данные IP из диапазона IP
Я пытаюсь написать код pyspark для следующего SQL-запроса: Create table table1 as Select a.ip_address,a.ip_number,b.ip_start_int,b.ip_end_int,b.post_code_id,b.city,b.region_name,b.two_letter_country from nk_ip_address_check a join...
3043 просмотров

Найти все нули с помощью SQL-запроса поверх кадра данных pyspark
У меня есть кадр данных StructField со смешанной схемой ( DoubleType , StringType , LongType и т. д.). Я хочу «перебрать» все столбцы, чтобы вернуть сводную статистику. Например: set_min = df.select([ fn.min(self.df[c]).alias(c)...
681 просмотров
schedule 15.12.2023

Расчет PySpark еженедельных вхождений
Я пытаюсь вычислить количество еженедельных вхождений слова. То есть, является ли каждое слово более частым на этой неделе, чем на предыдущей неделе. Для этого я как бы застрял. Я сделал следующее: m = sc.parallelize(["oded,12-12-2018",...
31 просмотров
schedule 08.05.2024

Использование Python reduce() для объединения нескольких PySpark DataFrames
Кто-нибудь знает, почему использование Python3 functools.reduce() приведет к снижению производительности при объединении нескольких PySpark DataFrames, чем просто итеративное объединение одних и тех же DataFrames с использованием цикла for ? В...
2662 просмотров

Pyspark: фильтровать кадр данных по регулярному выражению с форматированием строки?
Я прочитал несколько сообщений об использовании оператора «нравится» для фильтрации кадра данных искры по условию содержания строки/выражения, но мне было интересно, является ли следующая «наилучшей практикой» использование% s в желаемом состоянии как...
45756 просмотров

Установка соединения с Drill с помощью pyspark
Я пытаюсь извлечь данные из базы данных MapR в фрейм данных, используя сверло для подключения в оболочке pyspark. Вот что я делаю в своей оболочке pyspark: `dataframe_mysql = sqlContext.read.format("jdbc").option("url",...
587 просмотров

pyspark dataframe отбрасывает повторяющиеся значения с более старой меткой времени
У меня есть фреймворк pyspark, в котором есть столбцы starttime и stoptime с дополнительными столбцами, значения которых обновляются |startime |stoptime |hour |minute |sec |sip |dip |sport|dport|proto|pkt |byt |...
1735 просмотров
schedule 15.12.2023

Pyspark Неподдерживаемый класс литерала java.util.ArrayList
Я использую python3 в Spark (2.2.0). Я хочу применить свой UDF к указанному списку строк. df = ['Apps A','Chrome', 'BBM', 'Apps B', 'Skype'] def calc_app(app, app_list): browser_list = ['Chrome', 'Firefox', 'Opera'] chat_list =...
10379 просмотров

Как выполнять udfs для нескольких столбцов динамически
У меня есть 30 столбцов, таких как DPF_1,DPF_2,DPF_3......DPF_30, к которым мне нужно применить кадры данных. Все 30 столбцов имеют тип данных String . Мое требование состоит в том, чтобы преобразовать все значения «Na», присутствующие в этих 30...
789 просмотров

Установите схему в pyspark dataframe read.csv с нулевыми элементами
У меня есть набор данных (пример), который при импорте с df = spark.read.csv(filename, header=True, inferSchema=True) df.show() назначит столбец с «NA» как stringType(), где я хотел бы, чтобы он был IntegerType() (или ByteType())....
18952 просмотров

ошибка pyspark: недостаточно значений для распаковки (ожидалось 3, получено 2)
У меня есть следующие данные my_data=["Sentence1",['a','b','c'],"Sentence2",['d','e'],"Sentence3",['f']] и хотите преобразовать входные данные в фрейм данных, используя pyspark 2.2 как --------------------------------- | ID | Sentence |...
1110 просмотров
schedule 13.12.2023

Группа PysparkBy Pivot Transformation
Мне трудно сформулировать следующую манипуляцию с данными Pyspark. По сути, я пытаюсь сгруппировать по категориям, а затем развернуть/разбить подкатегории и добавить новые столбцы. Я пробовал несколько способов, но они очень медленные и...
2373 просмотров

Как извлечь информацию из столбца json_like из фрейма данных pyspark?
Я выполняю анализ с помощью фрейма данных pyspark . Там один столбец назывался: json_data . Это выглядит так: Затем я попытался преобразовать его в формат типа словаря, используя следующий код: from pyspark.sql.functions import...
179 просмотров

Dataframe Join Left Behavior
Мне нужно объединить два кадра данных вместе, чтобы добавить данные столбца, если они есть, и они ведут себя не так, как я ожидал. ДФА: # +---+-----+-----+ # | id|d_var|d_val| # +---+-----+-----+ # |a01| 112| null| # |a01| 113| 0| # |a02|...
237 просмотров

Подсчет количества нулей в кадре данных pyspark по строкам
Итак, я хочу посчитать количество нулей в кадре данных по строкам. Обратите внимание, что существует более 50 столбцов, я знаю, что могу сделать для этого оператор case / when, но я бы предпочел более аккуратное решение. Например, подмножество:...
3285 просмотров

Присоединяйтесь к фрейму данных со столбцом из другого на основе общего столбца.
У меня есть два кадра данных pyspark: | A | B | C | | 21 | 999 | 1000| | 22 | 786 | 1978| | 23 | 345 | 1563| и | A | D | E | | 21 | aaa | a12 | | 22 | bbb | b43 | | 23 | ccc | h67 | Желаемый результат: | A |...
1371 просмотров
schedule 20.04.2024

Сумма последних значений PySpark по идентификатору в окне таймсерий
У меня есть этот DataFrame в PySpark: [Row(id='487', value=35185, time=datetime.datetime(2018, 7, 23, 14, 4, 22, 6095), timestamp=1532354662), Row(id='489', value=35285, time=datetime.datetime(2018, 7, 23, 14, 4, 22, 15215),...
72 просмотров

как добавить столбец с вложенными элементами в фрейм данных из других столбцов (withColumn)
У меня есть фреймворк PySpark, который выглядит как C C1 C2 C3 1 2 3 4 Я хочу добавить еще один вложенный столбец, который сделает этот столбец фрейма данных json или объектом, я даже не уверен в правильной формулировке того, что это такое....
352 просмотров
schedule 06.10.2023

PySpark SQL TRY_CAST?
У меня есть данные в Dataframe, все столбцы в виде строк. Теперь некоторые данные в столбце числовые, поэтому я могу преобразовать их в float. Другие строки на самом деле содержат строки, которые я не хочу преобразовывать. Так что я искал что-то...
1946 просмотров
schedule 16.06.2024