Вопросы по теме 'google-cloud-dataflow'

Тип машины для заданий облачного потока данных Google
Я заметил, что есть опция, которая позволяет указать тип машины. Каковы критерии, которые я должен использовать, чтобы решить, следует ли переопределить тип машины по умолчанию? В некоторых экспериментах я видел, что пропускная способность лучше с...
1662 просмотров
schedule 20.07.2022

Максимальное количество одновременных заданий в облачном потоке данных
Есть ли ограничение на количество одновременных заданий потока данных (не ядер)? Я пытался отправить ~ 40 небольших заданий для параллельного выполнения, но начал получать ошибку 429 превышен предел скорости после 7 заданий. Спасибо, G
724 просмотров
schedule 11.03.2024

Задание Cloud Dataflow прошло успешно, но ресурсы после этого не были снесены/уничтожены
Сегодня мы выполнили нашу работу CDF, и она прошла успешно. Идентификатор: 2015-03-12_16_45_27-1664852687091388734 Однако, когда задание было завершено, его виртуальные машины/экземпляры не были удалены, как обычно. Мне пришлось вручную...
55 просмотров
schedule 05.10.2022

Преобразование потока данных GroupByKey разбивает входные строки
Я запускаю задание потока данных для чтения данных из файлов, хранящихся в GCS, каждая запись имеет «тип события», моя цель — разделить данные по «типу события» и записать каждый вывод в таблицу bq, теперь я использую фильтр для этого, однако я хотел...
522 просмотров
schedule 29.10.2022

Графики потока данных больше не обновляются правильно
Мы только что заметили, что граф заданий в консоли разработчика больше не показывает боковые входы как успешно прочитанные/загруженные, а количество «прочитанных записей» теперь отображается как «0». Раньше они отображались зеленым цветом и имели...
51 просмотров
schedule 28.08.2022

Передача в поток данных из хранилища данных?
Можно ли использовать хранилище данных в качестве входных данных для потоковой передачи? Т.е. Каждый раз, когда объект сохраняется в хранилище данных, он передает его в проект потока данных?
557 просмотров

Загрузите вложения из Outlook и сохраните их в Google Cloud Storage с помощью Google Cloud Dataflow.
Я написал код Java, используя Java Mail API, который загружает вложения из указанного почтового ящика. Я хочу сохранить эти вложения в какой-либо корзине в Google Cloud Storage. Как это сделать с помощью Google Cloud Dataflow?
155 просмотров

Пример затмения потока данных генерирует ошибку rateLimitExceeded
Следуя инструкциям из раздела «Разработка конвейеров потоков данных с помощью подключаемого модуля Cloud Dataflow для Eclipse»... Когда я запускаю код, сгенерированный плагином, я получаю эту ошибку WARNING: There were problems getting current...
65 просмотров
schedule 11.12.2023

Проверьте, не запускается ли окно водяным знаком, проходящим через него
Если у меня есть такое окно: .apply(Window .<String>into(Sessions .withGapDuration(Duration.standardSeconds(10))) .triggering(AfterWatermark .pastEndOfWindow()...
504 просмотров
schedule 15.05.2024

Что произойдет, если я вручную удалю одну из виртуальных машин, созданных Dataflow?
Я вижу экземпляры GCE, созданные Dataflow для моей работы, в консоли GCE. Что произойдет, если я их удалю?
205 просмотров
schedule 05.10.2023

Поддерживает ли поток данных настраиваемые триггеры или обновление задержек триггеров?
TL:ДР; Можно ли создать собственный триггер, который срабатывает только в том случае, если установлен какой-либо флаг? Можно ли развернуть задание с триггером с огромной задержкой, когда мы знаем, что происходит большое событие данных, а затем...
173 просмотров
schedule 01.09.2022

временные файлы остаются в GCS после успешного выполнения задания Dataflow
Моя команда выполняет несколько ежечасных / ежедневных заданий Dataflow, которые в основном читают и записывают в GCS (при этом у нас есть десятки повторяющихся заданий Dataflow, запланированных для выполнения в течение дня). Некоторые задания читают...
734 просмотров
schedule 17.09.2022

Сохранение в хранилище данных Google из потока данных Google
Я пытаюсь сохранить в хранилище данных Google из задания потока данных Google, это дает мне эту ошибку Мой код внутри DoFN Datastore datastore= DatastoreOptions.getDefaultInstance().getService(); TrackingRequest rq =...
853 просмотров

Подключиться к CloudSql из потока данных Google
При подключении к CloudSql из задания потока данных Google public String cnstr = "jdbc:google:mysql://xxx:zzz:yyy/dbname?user=root&amp;password=****"; Connection conn = DriverManager.getConnection(cnstr); PreparedStatement st =...
1111 просмотров

Цены на Bigtable / BigQuery, когда вставки зависят от запросов
У меня есть простое экспериментальное приложение, написанное на традиционном SQL. Мне нужно масштабировать его до гораздо большего размера (потенциально триллионы строк, несколько терабайт или, возможно, петабайты). Я пытаюсь придумать модель...
225 просмотров

java.io.IOException: ВНУТРЕННИЕ исключения вызвали сбой конвейера
У меня есть пакетное задание потока данных, в журналах которого есть несколько экземпляров java.lang.RuntimeException: unexpected . Копнув глубже, я увидел несколько явных исключений: java.io.IOException: INTERNAL: Detected non-monotonic...
294 просмотров
schedule 04.11.2022

Сохранение в эластичный поиск из задания потоковой передачи данных Google Dataflow
Я сохраняю данные в BigQuery с помощью задания потоковой передачи данных Google. Я хочу вставить эти данные в эластичный поиск для быстрого доступа. Является ли хорошей практикой вызывать logstach из потока данных через http?
1417 просмотров
schedule 04.11.2023

Изображение для экземпляров Google Cloud Dataflow
Когда я запускаю задание Dataflow, он берет мой небольшой пакет (setup.py или requirements.txt) и загружает его для запуска на экземплярах Dataflow. Но что на самом деле выполняется в экземпляре Dataflow? Недавно я получил трассировку стека:...
715 просмотров
schedule 02.08.2022

PCollection‹Entity› в PCollection‹TableRows›
Я пытаюсь использовать Dataflow для запроса всех моих типов в хранилище данных и записи их в сегментированные по дате разделы в BigQuery. Чтение легко с DatastoreIO.read() и дает мне PCollection<Entity> . BigQuery ожидает...
176 просмотров

Инициализация внешних сервисных подключений в Beam
Я пишу конвейер потоковой передачи данных. В одном из преобразований DoFn я хочу получить доступ к внешнему сервису — в данном случае это Datastore. Есть ли наилучшая практика для такого шага инициализации? Я не хочу создавать объект подключения...
888 просмотров