Вопросы по теме 'spark-structured-streaming'
Структурированная потоковая передача Spark занимает слишком много времени для вычисления агрегированного запроса
Я запускаю простую программу Spark Structured Streaming (V 2.2.0), которая считывает небольшой объем данных из Kafka и выполняет по ним некоторый агрегированный запрос (с режимом вывода «обновление»). Однако моя программа надолго зависает после...
1347 просмотров
schedule
22.01.2024
Запуск более чем потоковой работы искры в Google dataproc
Как запустить более одного задания потоковой передачи искры в кластере dataproc? Я создал несколько очередей с помощью capacity-scheduler.xml , но теперь мне потребуется 12 очередей, если я хочу запустить 12 различных потоковых приложений. Есть идеи?
186 просмотров
schedule
20.02.2024
Как выполнить агрегирование с отслеживанием состояния с помощью flatMapGroupsWithState?
Я получаю следующее сообщение об ошибке при применении flatMapGroupsWithState .
Исключение в потоке "main" org.apache.spark.sql.AnalysisException: flatMapGroupsWithState в режиме обновления не поддерживается с агрегацией в потоковом DataFrame...
2711 просмотров
schedule
17.11.2022
Структурированная потоковая передача Spark обрабатывает каждую строку на разных рабочих узлах, как только она поступает.
Использование структурированной потоковой передачи spark 2.3 и kafka в качестве входного потока. Мой кластер построен из мастера и 3 рабочих. (мастер работает на одной из рабочих машин) Моя тема кафки имеет 3 раздела по количеству рабочих. Я...
475 просмотров
schedule
11.11.2023
Агрегации Spark Structured Streaming
Когда у меня есть несколько этапов агрегации, каждый этап использует вывод последнего этапа в качестве входных данных, я знаю, что он еще не поддерживается до искры 2.3.2, как вы работаете?
321 просмотров
schedule
28.10.2022
Какова цель ForeachWriter в структурированной потоковой передаче Spark?
Может ли кто-нибудь объяснить, для чего нужен писатель foreach для структурированной потоковой передачи искры?
Поскольку мы получаем все исходные данные в виде dataFrame, я не использую foreachwriter.
1681 просмотров
schedule
09.11.2023
Обнаружение ошибки NoClassDefFoundError при интеграции Kafka-Spark Structured Streaming через PySpark
я использую
Версия Spark: 3.0.0-preview2
Версия Scala: 2.12
Версия JAVA: 1.8
Версия Kafka Broker: 2.2.0
Я настроил два JARS ( spark-sql-kafka-0-10_2.12-3.0.0-preview2.jar и kafka-clients-2.2.0.jar ) в файле...
1524 просмотров
schedule
23.11.2023
Получение исключения. Операции вывода не зарегистрированы, поэтому из Spark Streaming нечего выполнять.
package com.scala.sparkStreaming
import org.apache.spark._
import org.apache.spark.streaming._
object Demo1 {
def main(assdf:Array[String]){
val sc=new SparkContext("local","Stream")
val stream=new StreamingContext(sc,Seconds(2))...
123 просмотров
schedule
11.11.2022
Как выбрать объект класса Case в качестве DataFrame в Kafka-Spark Structured Streaming
У меня есть класс случая:
case class clickStream(userid:String, adId :String, timestamp:String)
экземпляр которого я хочу отправить с KafkaProducer как:
val record = new ProducerRecord[String,clickStream](
"clicktream",...
231 просмотров
schedule
31.07.2022
Присоединение к потоку и статическому фрейму данных в pyspark с полным режимом
У меня есть два кадра данных, один из которых передается с использованием структурированной потоковой передачи искры, а статический, который я создал. И я пытаюсь присоединиться к ним.
Но всеми способами, которые я пробовал, я получаю эту ошибку:...
720 просмотров
schedule
27.10.2022
Как рассчитываются ввод и скорость обработки для задания структурированной потоковой передачи Spark?
Я пытаюсь понять точное значение скорости ввода и скорости обработки для задания структурированной потоковой передачи в Spark 3.1.1 с использованием простого источника «скорости», который генерирует 100 строк каждую секунду. Пользовательский...
12 просмотров
schedule
14.05.2024