У меня есть фреймворк PySpark, который выглядит как
C C1 C2 C3
1 2 3 4
Я хочу добавить еще один вложенный столбец, который сделает этот столбец фрейма данных json или объектом, я даже не уверен в правильной формулировке того, что это такое. Он будет брать информацию из других столбцов той же строки
C C1 C2 C3 V
1 2 3 4 {"C:1", "C1:2", "C2:3", "C3:4"}
Я пробовал Как добавить вложенный столбец в DataFrame но я не знаю, каков правильный синтаксис в PySpark, в отличие от этого вопроса, который представляет собой Scala, и это решение выглядит так, что оно будет работать только для 1 строки, мне нужно сделать это для сотен миллионов строк.
Я пробовал df2 = df.withColumn("V", struct("V.*", col("C1").as('C1'))), но это дает загадочную синтаксическую ошибку.
Изменить: я бы не сказал, что этот вопрос является дубликатом строки преобразования pyspark в json с нулями, потому что решение, которое было опубликовано здесь пользователем и которое решило мою проблему, не публикуется там.
Как я могу сделать этот вложенный столбец V из остальных столбцов в той же строке?
as- ключевое слово в Python. Используйтеalias-col("C1").alias('C1')- person 10465355   schedule 30.11.2018