Как сохранить таблицу в pyspark sql?

Я хочу сохранить результирующую таблицу в CSV, текстовый файл или аналогичный файл, чтобы иметь возможность выполнять визуализацию с помощью RStudio.

Я использую pyspark.sql для выполнения некоторых запросов в настройке Hadoop. Я хочу сохранить свой результат в hadoop, а затем скопировать результат на свой локальный диск.

myTable = sqlContext.sql("SOME QUERIES")
myTable.show() # Show my result
myTable.registerTempTable("myTable") # Save as table
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop

Это возвращает следующее:
AttributeError: объект «DataFrame» не имеет атрибута «saveAsTextFile».

Вот как я обычно это делаю, когда использую только pyspark, то есть не pyspark.sql.

И затем я копирую на локальный диск с помощью

hdfs dfs –copyToLocal SEARCH PATH

Может кто-нибудь помочь мне?

TKN 09.12.2016 источник

Ответы (1)

arrow_upward
1
arrow_downward

Вы можете использовать DataFrameWriter с одним из поддерживаемых форматов. Например для JSON:

myTable.write.json(path)

Community 10.12.2016

comment

Благодарю вас! Работайте как надо :) Любая идея получить его как csv вместо этого? Я попробовал myTable.write.csv(путь), но это не сработало. Я использую искру 1.6. - TKN; 12.12.2016

Как сохранить таблицу в pyspark sql?

Ответы (1)

Похожие вопросы