Вопросы по теме 'spark-structured-streaming'

Структурированная потоковая передача Spark занимает слишком много времени для вычисления агрегированного запроса
Я запускаю простую программу Spark Structured Streaming (V 2.2.0), которая считывает небольшой объем данных из Kafka и выполняет по ним некоторый агрегированный запрос (с режимом вывода «обновление»). Однако моя программа надолго зависает после...
1347 просмотров

Запуск более чем потоковой работы искры в Google dataproc
Как запустить более одного задания потоковой передачи искры в кластере dataproc? Я создал несколько очередей с помощью capacity-scheduler.xml , но теперь мне потребуется 12 очередей, если я хочу запустить 12 различных потоковых приложений. Есть идеи?
186 просмотров

Как выполнить агрегирование с отслеживанием состояния с помощью flatMapGroupsWithState?
Я получаю следующее сообщение об ошибке при применении flatMapGroupsWithState . Исключение в потоке "main" org.apache.spark.sql.AnalysisException: flatMapGroupsWithState в режиме обновления не поддерживается с агрегацией в потоковом DataFrame...
2711 просмотров

Структурированная потоковая передача Spark обрабатывает каждую строку на разных рабочих узлах, как только она поступает.
Использование структурированной потоковой передачи spark 2.3 и kafka в качестве входного потока. Мой кластер построен из мастера и 3 рабочих. (мастер работает на одной из рабочих машин) Моя тема кафки имеет 3 раздела по количеству рабочих. Я...
475 просмотров

Агрегации Spark Structured Streaming
Когда у меня есть несколько этапов агрегации, каждый этап использует вывод последнего этапа в качестве входных данных, я знаю, что он еще не поддерживается до искры 2.3.2, как вы работаете?
321 просмотров

Какова цель ForeachWriter в структурированной потоковой передаче Spark?
Может ли кто-нибудь объяснить, для чего нужен писатель foreach для структурированной потоковой передачи искры? Поскольку мы получаем все исходные данные в виде dataFrame, я не использую foreachwriter.
1681 просмотров

Обнаружение ошибки NoClassDefFoundError при интеграции Kafka-Spark Structured Streaming через PySpark
я использую Версия Spark: 3.0.0-preview2 Версия Scala: 2.12 Версия JAVA: 1.8 Версия Kafka Broker: 2.2.0 Я настроил два JARS ( spark-sql-kafka-0-10_2.12-3.0.0-preview2.jar и kafka-clients-2.2.0.jar ) в файле...
1524 просмотров

Получение исключения. Операции вывода не зарегистрированы, поэтому из Spark Streaming нечего выполнять.
package com.scala.sparkStreaming import org.apache.spark._ import org.apache.spark.streaming._ object Demo1 { def main(assdf:Array[String]){ val sc=new SparkContext("local","Stream") val stream=new StreamingContext(sc,Seconds(2))...
123 просмотров

Как выбрать объект класса Case в качестве DataFrame в Kafka-Spark Structured Streaming
У меня есть класс случая: case class clickStream(userid:String, adId :String, timestamp:String) экземпляр которого я хочу отправить с KafkaProducer как: val record = new ProducerRecord[String,clickStream]( "clicktream",...
231 просмотров

Присоединение к потоку и статическому фрейму данных в pyspark с полным режимом
У меня есть два кадра данных, один из которых передается с использованием структурированной потоковой передачи искры, а статический, который я создал. И я пытаюсь присоединиться к ним. Но всеми способами, которые я пробовал, я получаю эту ошибку:...
720 просмотров

Как рассчитываются ввод и скорость обработки для задания структурированной потоковой передачи Spark?
Я пытаюсь понять точное значение скорости ввода и скорости обработки для задания структурированной потоковой передачи в Spark 3.1.1 с использованием простого источника «скорости», который генерирует 100 строк каждую секунду. Пользовательский...
12 просмотров