Вопросы по теме 'google-cloud-dataflow'
Тип машины для заданий облачного потока данных Google
Я заметил, что есть опция, которая позволяет указать тип машины. Каковы критерии, которые я должен использовать, чтобы решить, следует ли переопределить тип машины по умолчанию?
В некоторых экспериментах я видел, что пропускная способность лучше с...
1662 просмотров
schedule
20.07.2022
Максимальное количество одновременных заданий в облачном потоке данных
Есть ли ограничение на количество одновременных заданий потока данных (не ядер)? Я пытался отправить ~ 40 небольших заданий для параллельного выполнения, но начал получать ошибку 429 превышен предел скорости после 7 заданий.
Спасибо, G
724 просмотров
schedule
11.03.2024
Задание Cloud Dataflow прошло успешно, но ресурсы после этого не были снесены/уничтожены
Сегодня мы выполнили нашу работу CDF, и она прошла успешно. Идентификатор:
2015-03-12_16_45_27-1664852687091388734
Однако, когда задание было завершено, его виртуальные машины/экземпляры не были удалены, как обычно. Мне пришлось вручную...
55 просмотров
schedule
05.10.2022
Преобразование потока данных GroupByKey разбивает входные строки
Я запускаю задание потока данных для чтения данных из файлов, хранящихся в GCS, каждая запись имеет «тип события», моя цель — разделить данные по «типу события» и записать каждый вывод в таблицу bq, теперь я использую фильтр для этого, однако я хотел...
522 просмотров
schedule
29.10.2022
Графики потока данных больше не обновляются правильно
Мы только что заметили, что граф заданий в консоли разработчика больше не показывает боковые входы как успешно прочитанные/загруженные, а количество «прочитанных записей» теперь отображается как «0». Раньше они отображались зеленым цветом и имели...
51 просмотров
schedule
28.08.2022
Передача в поток данных из хранилища данных?
Можно ли использовать хранилище данных в качестве входных данных для потоковой передачи? Т.е. Каждый раз, когда объект сохраняется в хранилище данных, он передает его в проект потока данных?
557 просмотров
schedule
18.12.2023
Загрузите вложения из Outlook и сохраните их в Google Cloud Storage с помощью Google Cloud Dataflow.
Я написал код Java, используя Java Mail API, который загружает вложения из указанного почтового ящика. Я хочу сохранить эти вложения в какой-либо корзине в Google Cloud Storage. Как это сделать с помощью Google Cloud Dataflow?
155 просмотров
schedule
04.10.2022
Пример затмения потока данных генерирует ошибку rateLimitExceeded
Следуя инструкциям из раздела «Разработка конвейеров потоков данных с помощью подключаемого модуля Cloud Dataflow для Eclipse»...
Когда я запускаю код, сгенерированный плагином, я получаю эту ошибку
WARNING: There were problems getting current...
65 просмотров
schedule
11.12.2023
Проверьте, не запускается ли окно водяным знаком, проходящим через него
Если у меня есть такое окно:
.apply(Window
.<String>into(Sessions
.withGapDuration(Duration.standardSeconds(10)))
.triggering(AfterWatermark
.pastEndOfWindow()...
504 просмотров
schedule
15.05.2024
Что произойдет, если я вручную удалю одну из виртуальных машин, созданных Dataflow?
Я вижу экземпляры GCE, созданные Dataflow для моей работы, в консоли GCE. Что произойдет, если я их удалю?
205 просмотров
schedule
05.10.2023
Поддерживает ли поток данных настраиваемые триггеры или обновление задержек триггеров?
TL:ДР; Можно ли создать собственный триггер, который срабатывает только в том случае, если установлен какой-либо флаг? Можно ли развернуть задание с триггером с огромной задержкой, когда мы знаем, что происходит большое событие данных, а затем...
173 просмотров
schedule
01.09.2022
временные файлы остаются в GCS после успешного выполнения задания Dataflow
Моя команда выполняет несколько ежечасных / ежедневных заданий Dataflow, которые в основном читают и записывают в GCS (при этом у нас есть десятки повторяющихся заданий Dataflow, запланированных для выполнения в течение дня). Некоторые задания читают...
734 просмотров
schedule
17.09.2022
Сохранение в хранилище данных Google из потока данных Google
Я пытаюсь сохранить в хранилище данных Google из задания потока данных Google, это дает мне эту ошибку
Мой код внутри DoFN
Datastore datastore= DatastoreOptions.getDefaultInstance().getService();
TrackingRequest rq =...
853 просмотров
schedule
31.10.2023
Подключиться к CloudSql из потока данных Google
При подключении к CloudSql из задания потока данных Google
public String cnstr = "jdbc:google:mysql://xxx:zzz:yyy/dbname?user=root&password=****";
Connection conn = DriverManager.getConnection(cnstr);
PreparedStatement st =...
1111 просмотров
schedule
02.03.2024
Цены на Bigtable / BigQuery, когда вставки зависят от запросов
У меня есть простое экспериментальное приложение, написанное на традиционном SQL. Мне нужно масштабировать его до гораздо большего размера (потенциально триллионы строк, несколько терабайт или, возможно, петабайты). Я пытаюсь придумать модель...
225 просмотров
schedule
14.12.2023
java.io.IOException: ВНУТРЕННИЕ исключения вызвали сбой конвейера
У меня есть пакетное задание потока данных, в журналах которого есть несколько экземпляров java.lang.RuntimeException: unexpected .
Копнув глубже, я увидел несколько явных исключений:
java.io.IOException: INTERNAL: Detected non-monotonic...
294 просмотров
schedule
04.11.2022
Сохранение в эластичный поиск из задания потоковой передачи данных Google Dataflow
Я сохраняю данные в BigQuery с помощью задания потоковой передачи данных Google.
Я хочу вставить эти данные в эластичный поиск для быстрого доступа.
Является ли хорошей практикой вызывать logstach из потока данных через http?
1417 просмотров
schedule
04.11.2023
Изображение для экземпляров Google Cloud Dataflow
Когда я запускаю задание Dataflow, он берет мой небольшой пакет (setup.py или requirements.txt) и загружает его для запуска на экземплярах Dataflow.
Но что на самом деле выполняется в экземпляре Dataflow? Недавно я получил трассировку стека:...
715 просмотров
schedule
02.08.2022
PCollection‹Entity› в PCollection‹TableRows›
Я пытаюсь использовать Dataflow для запроса всех моих типов в хранилище данных и записи их в сегментированные по дате разделы в BigQuery. Чтение легко с DatastoreIO.read() и дает мне PCollection<Entity> .
BigQuery ожидает...
176 просмотров
schedule
16.12.2023
Инициализация внешних сервисных подключений в Beam
Я пишу конвейер потоковой передачи данных. В одном из преобразований DoFn я хочу получить доступ к внешнему сервису — в данном случае это Datastore.
Есть ли наилучшая практика для такого шага инициализации? Я не хочу создавать объект подключения...
888 просмотров
schedule
23.02.2024