Вопросы по теме 'pyspark-sql'
Как сохранить таблицу в pyspark sql?
Я хочу сохранить результирующую таблицу в CSV, текстовый файл или аналогичный файл, чтобы иметь возможность выполнять визуализацию с помощью RStudio.
Я использую pyspark.sql для выполнения некоторых запросов в настройке Hadoop. Я хочу сохранить...
1116 просмотров
schedule
02.06.2024
присоединиться к двум кадрам данных pyspark, используя предложение between, чтобы найти данные IP из диапазона IP
Я пытаюсь написать код pyspark для следующего SQL-запроса:
Create table table1 as
Select a.ip_address,a.ip_number,b.ip_start_int,b.ip_end_int,b.post_code_id,b.city,b.region_name,b.two_letter_country
from nk_ip_address_check a
join...
3043 просмотров
schedule
02.05.2024
Найти все нули с помощью SQL-запроса поверх кадра данных pyspark
У меня есть кадр данных StructField со смешанной схемой ( DoubleType , StringType , LongType и т. д.).
Я хочу «перебрать» все столбцы, чтобы вернуть сводную статистику. Например:
set_min = df.select([
fn.min(self.df[c]).alias(c)...
681 просмотров
schedule
15.12.2023
Расчет PySpark еженедельных вхождений
Я пытаюсь вычислить количество еженедельных вхождений слова. То есть, является ли каждое слово более частым на этой неделе, чем на предыдущей неделе. Для этого я как бы застрял. Я сделал следующее:
m = sc.parallelize(["oded,12-12-2018",...
31 просмотров
schedule
08.05.2024
Использование Python reduce() для объединения нескольких PySpark DataFrames
Кто-нибудь знает, почему использование Python3 functools.reduce() приведет к снижению производительности при объединении нескольких PySpark DataFrames, чем просто итеративное объединение одних и тех же DataFrames с использованием цикла for ? В...
2662 просмотров
schedule
14.11.2023
Pyspark: фильтровать кадр данных по регулярному выражению с форматированием строки?
Я прочитал несколько сообщений об использовании оператора «нравится» для фильтрации кадра данных искры по условию содержания строки/выражения, но мне было интересно, является ли следующая «наилучшей практикой» использование% s в желаемом состоянии как...
45756 просмотров
schedule
26.11.2023
Установка соединения с Drill с помощью pyspark
Я пытаюсь извлечь данные из базы данных MapR в фрейм данных, используя сверло для подключения в оболочке pyspark.
Вот что я делаю в своей оболочке pyspark:
`dataframe_mysql = sqlContext.read.format("jdbc").option("url",...
587 просмотров
schedule
05.11.2023
pyspark dataframe отбрасывает повторяющиеся значения с более старой меткой времени
У меня есть фреймворк pyspark, в котором есть столбцы starttime и stoptime с дополнительными столбцами, значения которых обновляются
|startime |stoptime |hour |minute |sec |sip |dip |sport|dport|proto|pkt |byt |...
1735 просмотров
schedule
15.12.2023
Pyspark Неподдерживаемый класс литерала java.util.ArrayList
Я использую python3 в Spark (2.2.0). Я хочу применить свой UDF к указанному списку строк.
df = ['Apps A','Chrome', 'BBM', 'Apps B', 'Skype']
def calc_app(app, app_list):
browser_list = ['Chrome', 'Firefox', 'Opera']
chat_list =...
10379 просмотров
schedule
29.05.2024
Как выполнять udfs для нескольких столбцов динамически
У меня есть 30 столбцов, таких как DPF_1,DPF_2,DPF_3......DPF_30, к которым мне нужно применить кадры данных. Все 30 столбцов имеют тип данных String . Мое требование состоит в том, чтобы преобразовать все значения «Na», присутствующие в этих 30...
789 просмотров
schedule
13.02.2024
Установите схему в pyspark dataframe read.csv с нулевыми элементами
У меня есть набор данных (пример), который при импорте с
df = spark.read.csv(filename, header=True, inferSchema=True)
df.show()
назначит столбец с «NA» как stringType(), где я хотел бы, чтобы он был IntegerType() (или ByteType())....
18952 просмотров
schedule
21.08.2022
ошибка pyspark: недостаточно значений для распаковки (ожидалось 3, получено 2)
У меня есть следующие данные
my_data=["Sentence1",['a','b','c'],"Sentence2",['d','e'],"Sentence3",['f']]
и хотите преобразовать входные данные в фрейм данных, используя pyspark 2.2 как
---------------------------------
| ID | Sentence |...
1110 просмотров
schedule
13.12.2023
Группа PysparkBy Pivot Transformation
Мне трудно сформулировать следующую манипуляцию с данными Pyspark.
По сути, я пытаюсь сгруппировать по категориям, а затем развернуть/разбить подкатегории и добавить новые столбцы.
Я пробовал несколько способов, но они очень медленные и...
2373 просмотров
schedule
04.05.2024
Как извлечь информацию из столбца json_like из фрейма данных pyspark?
Я выполняю анализ с помощью фрейма данных pyspark .
Там один столбец назывался: json_data . Это выглядит так:
Затем я попытался преобразовать его в формат типа словаря, используя следующий код:
from pyspark.sql.functions import...
179 просмотров
schedule
09.10.2023
Dataframe Join Left Behavior
Мне нужно объединить два кадра данных вместе, чтобы добавить данные столбца, если они есть, и они ведут себя не так, как я ожидал.
ДФА:
# +---+-----+-----+
# | id|d_var|d_val|
# +---+-----+-----+
# |a01| 112| null|
# |a01| 113| 0|
# |a02|...
237 просмотров
schedule
08.10.2023
Подсчет количества нулей в кадре данных pyspark по строкам
Итак, я хочу посчитать количество нулей в кадре данных по строкам.
Обратите внимание, что существует более 50 столбцов, я знаю, что могу сделать для этого оператор case / when, но я бы предпочел более аккуратное решение.
Например, подмножество:...
3285 просмотров
schedule
06.04.2024
Присоединяйтесь к фрейму данных со столбцом из другого на основе общего столбца.
У меня есть два кадра данных pyspark:
| A | B | C |
| 21 | 999 | 1000|
| 22 | 786 | 1978|
| 23 | 345 | 1563|
и
| A | D | E |
| 21 | aaa | a12 |
| 22 | bbb | b43 |
| 23 | ccc | h67 |
Желаемый результат:
| A |...
1371 просмотров
schedule
20.04.2024
Сумма последних значений PySpark по идентификатору в окне таймсерий
У меня есть этот DataFrame в PySpark:
[Row(id='487', value=35185, time=datetime.datetime(2018, 7, 23, 14, 4, 22, 6095), timestamp=1532354662),
Row(id='489', value=35285, time=datetime.datetime(2018, 7, 23, 14, 4, 22, 15215),...
72 просмотров
schedule
14.02.2024
как добавить столбец с вложенными элементами в фрейм данных из других столбцов (withColumn)
У меня есть фреймворк PySpark, который выглядит как
C C1 C2 C3
1 2 3 4
Я хочу добавить еще один вложенный столбец, который сделает этот столбец фрейма данных json или объектом, я даже не уверен в правильной формулировке того, что это такое....
352 просмотров
schedule
06.10.2023
PySpark SQL TRY_CAST?
У меня есть данные в Dataframe, все столбцы в виде строк. Теперь некоторые данные в столбце числовые, поэтому я могу преобразовать их в float. Другие строки на самом деле содержат строки, которые я не хочу преобразовывать.
Так что я искал что-то...
1946 просмотров
schedule
16.06.2024