Вопросы по теме 'apache-spark-sql'

Код Spark 1.2 SQL не работает с кодом Spark 1.3 SQL
До сих пор я использовал этот build.sbt в локальном каталоге пакетов. name := "spark27_02" version := "1.0" scalaVersion := "2.10.4" sbtVersion := "0.13.7" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.1"...
3694 просмотров
schedule 20.01.2024

отменить запрос из оператора Spark SQL JDBC
мы хотим использовать statement.cancel для отмены выполнения Моя проблема: я использую statement.cancel , но веб-интерфейс показывает, что запрос все еще выполняется есть ли способ отменить текущий запрос
1127 просмотров
schedule 22.04.2024

объединение строк / столбцов из фреймов данных Spark с помощью математической операции
У меня есть два фрейма данных искры (A и B) с соответствующими размерами a x m и b x m, содержащие значения с плавающей запятой. Кроме того, каждый фрейм данных имеет столбец «ID», который является строковым идентификатором. A и B имеют одинаковый...
2547 просмотров

Spark: групповой запрос RDD Sql
У меня есть 3 RDD, к которым мне нужно присоединиться. val event1001RDD: schemaRDD = [тип события, идентификатор, местоположение, дата1] [1001,4929102,LOC01,2015-01-20 10:44:39] [1001,4929103,LOC02,2015-01-20 10:44:39]...
161 просмотров

Spark-запрос выполняется очень медленно
у меня есть кластер на AWS с 2 рабами и 1 мастером. Все экземпляры имеют тип m1.large. Я запускаю искру версии 1.4. Я сравниваю производительность искры с данными 4 м, поступающими от красного смещения. Я запустил один запрос через оболочку...
9886 просмотров
schedule 05.11.2022

inferSchema в пакете spark-csv
Когда CSV читается как фрейм данных в Spark, все столбцы читаются как строка. Есть ли способ узнать фактический тип столбца? У меня есть следующий файл csv Name,Department,years_of_experience,DOB Sam,Software,5,1990-10-10 Alex,Data...
40469 просмотров

Ошибки SparkSQL при использовании функции SQL DATE
В Spark я пытаюсь выполнить SQL-запросы к временной таблице, полученной из фрейма данных, который я создал вручную, прочитав файл csv и преобразовав столбцы в правильный тип данных. В частности, я говорю о таблице LINEITEM из [спецификации TPC-H]...
7575 просмотров
schedule 02.05.2024

Как использовать оконные функции в PySpark с помощью DataFrames?
Пытаюсь понять, как использовать оконные функции в PySpark. Вот пример того, что я хотел бы сделать, просто подсчитайте, сколько раз у пользователя было «событие» (в данном случае «dt» — это смоделированная временная метка). from...
10513 просмотров

Столбец доступа к массиву в Spark
Фрейм данных Spark содержит столбец типа Array [Double]. Он генерирует исключение ClassCastException, когда я пытаюсь вернуть его в функции map (). Следующий код Scala создает исключение. case class Dummy( x:Array[Double] ) val df =...
9250 просмотров

Ошибки из-за большого количества разделов в хранилище метаданных Hive
Я использую Apache spark-sql для запроса данных из базы данных. Я знаю, что Spark по умолчанию использует одно и то же хранилище метаданных улья. Я разделил входные данные на основе идентификатора столбца, который имеет более 300 тысяч различных...
62 просмотров

Итеративно меняйте типы столбцов Искать фреймы данных
У меня есть список имен столбцов в Scala, например var cols = List("col1", "col2", "col3","col4") Также у меня есть фрейм данных с этими столбцами, но все в строке. Теперь я хотел бы привести столбцы фрейма данных, перебирая список или...
1645 просмотров

Развернуть список объектов JSON в DataFrame
У меня есть данные JSON в следующем формате: { "date": 100 "userId": 1 "data": [ { "timeStamp": 101, "reading": 1 }, { "timeStamp": 102, "reading": 2...
10388 просмотров

Почему SparkContext самопроизвольно закрывается и как его перезапустить из Zeppelin?
Я работаю в Zeppelin, пишу запросы spark-sql, и иногда я внезапно начинаю получать эту ошибку (после того, как не изменил код): Cannot call methods on a stopped SparkContext. Затем вывод говорит дальше: The currently active SparkContext...
19256 просмотров

Сбой присоединения Spark Задание Spark всегда завершается сбоем для присоединения (CDH 5.5.2, Spark 1.5.0)
Мы сталкиваемся с частыми ошибками с автономным кластером spark с нашим недавно установленным кластером CDH 5.5.2. У нас есть 7 рабочих узлов, каждый из которых имеет 16 ГБ памяти. Но почти все соединения терпят неудачу. Я удостоверился, что...
474 просмотров
schedule 10.10.2023

Spark: запуск spark-submit с правильным количеством исполнителей
Я настроил базовый кластер EMR из 3 узлов и запустил spark-submit с настройкой --executor-memory 1G и без других конфигураций. Сам сценарий представляет собой базовую задачу бенчмаркинга: from pyspark import SparkConf, SparkContext from...
303 просмотров

PySpark 1.5 Groupby Sum для нового столбца в Dataframe
Я пытаюсь создать новый столбец («newaggCol») в фрейме данных Spark, используя groupBy и sum (с PySpark 1.5). Мои числовые столбцы были преобразованы в Long или Double. Столбцы, используемые для формирования groupBy, - это String и Timestamp. Мой...
4947 просмотров

Pyspark: прямое заполнение последним наблюдением для DataFrame
Используя Spark 1.5.1, Я пытался переадресовать заполнение нулевых значений последним известным наблюдением для одного столбца моего DataFrame. Можно начать с нулевого значения, и в этом случае я бы в обратном направлении заполнил это...
14585 просмотров

Разделение сложных строк данных на простые строки в Pyspark
У меня есть этот код: from pyspark import SparkContext from pyspark.sql import SQLContext, Row sc = SparkContext() sqlContext = SQLContext(sc) documents = sqlContext.createDataFrame([ Row(id=1, title=[Row(value=u'cars', max_dist=1000)]),...
3865 просмотров

Как работать с нулевыми значениями в функции искрового сокращенияByKey?
У меня есть искра DataFrame (df), которая выглядит так: +----------+--------+----------+--------+ | c1| c2| c3| c4| +----------+--------+----------+--------+...
2220 просмотров
schedule 19.08.2022

как проверить различия в строках, принадлежащих двум кадрам данных
У меня есть два кадра данных, которые представляют два разных периода времени для одних и тех же людей. Я хотел бы понять для каждой строки, были ли какие-либо изменения в столбце 5 (фиксированный) двух кадров данных. До:...
1119 просмотров