Публикации по тегам pyspark-sql

Вопросы по теме 'pyspark-sql'

Я хочу сохранить результирующую таблицу в CSV, текстовый файл или аналогичный файл, чтобы иметь возможность выполнять визуализацию с помощью RStudio. Я использую pyspark.sql для выполнения некоторых запросов в настройке Hadoop. Я хочу сохранить...

1116 просмотров

02.06.2024

присоединиться к двум кадрам данных pyspark, используя предложение between, чтобы найти данные IP из диапазона IP

Я пытаюсь написать код pyspark для следующего SQL-запроса: Create table table1 as Select a.ip_address,a.ip_number,b.ip_start_int,b.ip_end_int,b.post_code_id,b.city,b.region_name,b.two_letter_country from nk_ip_address_check a join...

3043 просмотров

apache-spark pyspark join pyspark-sql spark-dataframe

02.05.2024

Найти все нули с помощью SQL-запроса поверх кадра данных pyspark

У меня есть кадр данных StructField со смешанной схемой ( DoubleType , StringType , LongType и т. д.). Я хочу «перебрать» все столбцы, чтобы вернуть сводную статистику. Например: set_min = df.select([ fn.min(self.df[c]).alias(c)...

681 просмотров

python-3.x pyspark pyspark-sql

15.12.2023

Расчет PySpark еженедельных вхождений

Я пытаюсь вычислить количество еженедельных вхождений слова. То есть, является ли каждое слово более частым на этой неделе, чем на предыдущей неделе. Для этого я как бы застрял. Я сделал следующее: m = sc.parallelize(["oded,12-12-2018",...

31 просмотров

pyspark pyspark-sql

08.05.2024

Использование Python reduce() для объединения нескольких PySpark DataFrames

Кто-нибудь знает, почему использование Python3 functools.reduce() приведет к снижению производительности при объединении нескольких PySpark DataFrames, чем просто итеративное объединение одних и тех же DataFrames с использованием цикла for ? В...

2662 просмотров

python-3.x python pyspark pyspark-sql spark-dataframe

14.11.2023

Pyspark: фильтровать кадр данных по регулярному выражению с форматированием строки?

Я прочитал несколько сообщений об использовании оператора «нравится» для фильтрации кадра данных искры по условию содержания строки/выражения, но мне было интересно, является ли следующая «наилучшей практикой» использование% s в желаемом состоянии как...

45756 просмотров

regex pyspark apache-spark-sql pyspark-sql spark-dataframe

26.11.2023

Установка соединения с Drill с помощью pyspark

Я пытаюсь извлечь данные из базы данных MapR в фрейм данных, используя сверло для подключения в оболочке pyspark. Вот что я делаю в своей оболочке pyspark: `dataframe_mysql = sqlContext.read.format("jdbc").option("url",...

587 просмотров

apache-spark pyspark pyspark-sql apache-drill mapr

05.11.2023

pyspark dataframe отбрасывает повторяющиеся значения с более старой меткой времени

У меня есть фреймворк pyspark, в котором есть столбцы starttime и stoptime с дополнительными столбцами, значения которых обновляются |startime |stoptime |hour |minute |sec |sip |dip |sport|dport|proto|pkt |byt |...

1735 просмотров

pyspark pyspark-sql spark-dataframe

15.12.2023

Pyspark Неподдерживаемый класс литерала java.util.ArrayList

Я использую python3 в Spark (2.2.0). Я хочу применить свой UDF к указанному списку строк. df = ['Apps A','Chrome', 'BBM', 'Apps B', 'Skype'] def calc_app(app, app_list): browser_list = ['Chrome', 'Firefox', 'Opera'] chat_list =...

10379 просмотров

python-3.x apache-spark pyspark pyspark-sql spark-dataframe

29.05.2024

Как выполнять udfs для нескольких столбцов динамически

У меня есть 30 столбцов, таких как DPF_1,DPF_2,DPF_3......DPF_30, к которым мне нужно применить кадры данных. Все 30 столбцов имеют тип данных String . Мое требование состоит в том, чтобы преобразовать все значения «Na», присутствующие в этих 30...

789 просмотров

apache-spark pyspark apache-spark-sql scala pyspark-sql

13.02.2024

Установите схему в pyspark dataframe read.csv с нулевыми элементами

У меня есть набор данных (пример), который при импорте с df = spark.read.csv(filename, header=True, inferSchema=True) df.show() назначит столбец с «NA» как stringType(), где я хотел бы, чтобы он был IntegerType() (или ByteType())....

18952 просмотров

python-3.x pyspark pyspark-sql spark-dataframe

21.08.2022

ошибка pyspark: недостаточно значений для распаковки (ожидалось 3, получено 2)

У меня есть следующие данные my_data=["Sentence1",['a','b','c'],"Sentence2",['d','e'],"Sentence3",['f']] и хотите преобразовать входные данные в фрейм данных, используя pyspark 2.2 как --------------------------------- | ID | Sentence |...

1110 просмотров

python apache-spark pyspark pyspark-sql

13.12.2023

Группа PysparkBy Pivot Transformation

Мне трудно сформулировать следующую манипуляцию с данными Pyspark. По сути, я пытаюсь сгруппировать по категориям, а затем развернуть/разбить подкатегории и добавить новые столбцы. Я пробовал несколько способов, но они очень медленные и...

2373 просмотров

pyspark pivot pyspark-sql spark-dataframe

04.05.2024

Как извлечь информацию из столбца json_like из фрейма данных pyspark?

Я выполняю анализ с помощью фрейма данных pyspark . Там один столбец назывался: json_data . Это выглядит так: Затем я попытался преобразовать его в формат типа словаря, используя следующий код: from pyspark.sql.functions import...

179 просмотров

apache-spark pyspark pyspark-sql spark-dataframe

09.10.2023

Dataframe Join Left Behavior

Мне нужно объединить два кадра данных вместе, чтобы добавить данные столбца, если они есть, и они ведут себя не так, как я ожидал. ДФА: # +---+-----+-----+ # | id|d_var|d_val| # +---+-----+-----+ # |a01| 112| null| # |a01| 113| 0| # |a02|...

237 просмотров

apache-spark pyspark dataframe pyspark-sql

08.10.2023

Подсчет количества нулей в кадре данных pyspark по строкам

Итак, я хочу посчитать количество нулей в кадре данных по строкам. Обратите внимание, что существует более 50 столбцов, я знаю, что могу сделать для этого оператор case / when, но я бы предпочел более аккуратное решение. Например, подмножество:...

3285 просмотров

pyspark dataframe apache-spark-sql pyspark-sql

06.04.2024

Присоединяйтесь к фрейму данных со столбцом из другого на основе общего столбца.

У меня есть два кадра данных pyspark: | A | B | C | | 21 | 999 | 1000| | 22 | 786 | 1978| | 23 | 345 | 1563| и | A | D | E | | 21 | aaa | a12 | | 22 | bbb | b43 | | 23 | ccc | h67 | Желаемый результат: | A |...

1371 просмотров

python apache-spark pyspark pyspark-sql

20.04.2024

Сумма последних значений PySpark по идентификатору в окне таймсерий

У меня есть этот DataFrame в PySpark: [Row(id='487', value=35185, time=datetime.datetime(2018, 7, 23, 14, 4, 22, 6095), timestamp=1532354662), Row(id='489', value=35285, time=datetime.datetime(2018, 7, 23, 14, 4, 22, 15215),...

72 просмотров

python apache-spark pyspark apache-spark-sql pyspark-sql

14.02.2024

как добавить столбец с вложенными элементами в фрейм данных из других столбцов (withColumn)

У меня есть фреймворк PySpark, который выглядит как C C1 C2 C3 1 2 3 4 Я хочу добавить еще один вложенный столбец, который сделает этот столбец фрейма данных json или объектом, я даже не уверен в правильной формулировке того, что это такое....

352 просмотров

apache-spark pyspark pyspark-sql

06.10.2023

PySpark SQL TRY_CAST?

У меня есть данные в Dataframe, все столбцы в виде строк. Теперь некоторые данные в столбце числовые, поэтому я могу преобразовать их в float. Другие строки на самом деле содержат строки, которые я не хочу преобразовывать. Так что я искал что-то...

1946 просмотров

apache-spark pyspark pyspark-sql

16.06.2024

Вопросы по теме 'pyspark-sql'

Похожие вопросы