У вас есть несколько облачных решений, и теперь вы думаете, как получить ваши данные для аналитики. В конце концов, данные — это новая нефть, а разлитая повсюду нефть — это не совсем то, что нужно бизнесу. Эта статья поможет вам понять различные стратегии переноса данных из облачного стека и, в частности, из коммерческого облака SAP, а также использование других сервисов для эффективного использования этих данных.
Прежде всего, давайте разберемся, зачем вам эти данные вне коммерции. На это лучше всего отвечает стратегия данных.
Стратегия данных
Это может включать в себя определение нескольких вещей:
- Принципы данных
- Определите возможности
- Владение данными (какое приложение является хозяином данных какого рода) Оцените качество имеющихся данных.
- Роли и обязанности
- Перемещение данных и интеграция. Влияет на технологические принципы (принципы интеграции косвенно и по отношению друг к другу)
- Организационные возможности и зрелость для реализации и поддержания этой стратегии.
- Дорожная карта аналитики. (План действий для вашей стратегии данных (Fruition))
«Не увлекайтесь 360 (сотрудник, клиент, продукт и т. д.). Он имеет убывающую доходность и низкую рентабельность инвестиций. Пусть ваша стратегия данных определяет ваши потребности в данных. Сделайте свою стратегию работы с данными целенаправленной».
Как только мы закончим с предварительными условиями и подойдем к вышеуказанным шагам. давайте перейдем к следующему этапу, посвященному архитектуре и решению, которые могут быть реализованы в любом корпоративном облаке, особенно если в вашем облачном ландшафте есть коммерческое облако.
Строительные блоки архитектуры аналитики
Перемещение данных между системами не может основываться на обычной интеграции и требует специальной обработки из-за объема, скорости и частоты, с которыми данные перемещаются между системами. Также может быть несколько производителей и подписчиков на эти данные (в разных вариантах) или аналитические результаты, полученные из этих данных.

Конвейер данных
Основу для перемещения данных на предприятии обычно называют конвейером данных. У этого есть разные способы интеграции с целевыми системами в зависимости от возможностей системы, объема, скорости, частоты и т. д., а также от доступности этих данных в целевой системе для удовлетворения ваших потребностей, будь то очереди сообщений, потоковая передача, конечные точки отдыха, мыло , по расписанию (опрос), в режиме реального времени, на основе файлов, чтение изменений в базах данных и т. д.
Конвейеры данных также усовершенствовали ETL «на лету» с определением схемы и управлением версиями. Различные типы объектов поддерживаются для перемещения данных из двоичного кода в обычный текст. Avro обычно является одним из хорошо известных форматов для перемещения данных.
Обычно это не один продукт, а комбинация нескольких услуг и решений, объединенных для достижения желаемой цели.
Хорошими примерами являются SAP Datahub, комбинация GCP Cloud Dataflow, Cloud Functions и GCP Cloud DataStream, Azure Eventhub с Azure Event Grid и функциями и т. д., с открытым исходным кодом, это может быть Kafka, apache beam, Nifi и т. д.
Озеро данных
Озера данных, как следует из названия, — это озера ваших данных. Все нужные данные о вашем ландшафте поступают в это озеро для использования в различных целях. Для этого не существует предопределенной (записываемой) схемы, и это можно назвать неструктурированным хранилищем. Хотя определенно есть схема чтения для создания представлений по всем данным и запуска отчетов. Озера данных и хранилища данных также можно объединять. Озеро данных — это большое хранилище всех данных и различных хранилищ для конкретных нужд.
Озеро данных также можно использовать напрямую с помощью передовых новых решений, которые могут обеспечить оркестрацию данных и производительность.
Хранилище данных
Это место, где вы будете хранить свои данные в структурированном виде для конкретных нужд. Для достижения ваших целей может быть несколько хранилищ данных. В случае, если у вас есть много хранилищ данных, есть три возможных пути вперед:
- Пересмотрите и проверьте соответствие вашей стратегии данных.
- Пересмотрите моделирование хранилища данных
- Переход к озерам данных.
Уровень производительности и оркестровки
Учитывая объем данных, распределенных по нескольким хранилищам или хранящихся в озере данных, имеет смысл иметь уровень оркестрации, достаточно мощный для работы с большими объемами данных, а также для своевременного предоставления результатов. Существуют разные решения, предназначенные для таких случаев использования, хотя все они имеют общий принцип проектирования рабочих узлов, узлов менеджера и уменьшения карты. Несколько распространенных примеров: Ignite, spark, Databricks и т. д.
Решение для аналитики и отчетности
Аналитические решения тоже бывают разных вкусов. В SAP у нас есть SAP Analytics Cloud, часть BTP, а за пределами SAP есть такие продукты, как PowerBI, Tableau и т. д. Эти решения могут иметь свои собственные источники данных или подключаться к другим источникам данных для создания отчетов. Облако SAP Analytics содержит отраслевые модели, которые можно дополнительно улучшить с помощью пользовательских моделей, и является мощным инструментом прогнозной аналитики.
Потоковая аналитика
Streaming Analytics — это аналитика «на лету», т. е. по данным в движении. Обычно это комбинация данных в состоянии покоя и данных в движении. Примеры: данные телеметрии, такие как транзакции для выяснения. Например, мошенничество, безопасность, обнаружение проблем, данные потока коммерческих кликов и т. д. Streaming Analytics опирается на потоковые конвейеры, которые работают с такими инструментами. Kafka — хороший пример в open source, Pub/Sub, DataFlow, Event Hub и т. д.
Машинное обучение
Машинное обучение, как следует из названия, использует и развертывает модели ML в вашем потоке данных или сохраненных данных для обучения и предоставления результатов. Это фактические выходы, которые можно подключить в дальнейшем в ваших приложениях. Модели ML, однажды созданные и развернутые в виде файлов рассола в ландшафте, вызываются соответствующими данными в конвейере, что приводит к дополнению данных или созданию новых данных, которые снова могут быть добавлены в конвейер. Эти модели можно переобучить на заданной частоте ваших данных, что улучшит их прогностическую силу.
Как подключить данные из Commerce Cloud к вашей аналитической среде?
Облако SAP Commerce — это ведущее в мире решение SaaS для коммерции, предлагаемое SAP. Благодаря своим расширенным возможностям конфигурации он открывает бесконечные возможности для коммерции в различных отраслях и областях. Он также хорошо подходит для любого предприятия, которое ищет решение для коммерции, поскольку поставляется в комплекте с множеством возможностей интеграции.
Теперь мы поймем, как мы можем подключить решение SAP Commerce к настройке аналитики, чтобы его данные можно было использовать в аналитических целях для принятия решений.
Сначала давайте разберемся, что доступно из коробки для интеграции в SAP Commerce:

Как легко увидеть, существуют решения для запланированной интеграции, а также интеграции в реальном времени с использованием веб-перехватчиков. Во-вторых, модель данных для экспорта может быть определена «на лету», а коммерческие решения помогают определить сопоставление ч/б его внутренних моделей данных с указанными вами экспортируемыми моделями (DTO).
Какие еще есть решения, созданные командой SAP CX для расширения этих возможностей, такие как решение SAP Commerce DB Sync, которое повторяет любые изменения в вашем коммерческом решении по расписанию.
Давайте продолжим и посмотрим типичное решение.

Мы можем подключить модель машинного обучения и ее развертывание с помощью пользовательских расширений BTP. BTP расшифровывается как Платформа бизнес-технологий, и одним из ее многочисленных вариантов использования является предоставление клиентам и партнерам SAP возможности расширять свои корпоративные предложения с помощью настраиваемых решений, не беспокоясь о неудобствах, связанных с единым входом в систему, мониторингом, масштабируемостью, безопасностью и т. д.
Давайте разберемся, как это решение будет работать.
Облако SAP Commerce поставляется в комплекте с мастером БД и набором реплик. Решение для синхронизации с базой данных используется для репликации данных вне коммерческого использования по расписанию из набора реплик. так что это не повлияет на ваши транзакции в реальном времени.
Все, что происходит в реальном времени, передается в конвейер с помощью WebHooks (он же API Engine).
Решение использует Sap Datahub для конвейера данных, но также можно использовать некоторые другие решения, упомянутые в предыдущем разделе.
SAP Datasphere — это хранилище данных SAP на уровне BTP. Учитывая, что это пример решения, мы не использовали озеро данных, но решение может использовать различные решения озера данных, а также озеро данных Azure, хранилище BLOB-объектов Azure, S3, хранилище GCP и т. д.
Типичные вопросы (FAQ)
Когда я должен определить свою стратегию данных?
Стратегия данных определяется на ранних этапах (обычно в основе) вашего проекта и должна согласовываться со стратегией корпоративных данных. Как и в случае любой работы на предприятии, стратегию необходимо пересматривать снова и снова в рамках управления предприятием, и она со временем совершенствуется.
Каковы отказоустойчивые механизмы при перемещении коммерческих данных?
Как видно, есть два способа публикации данных для аналитики: первый — запланированный, а второй — в режиме реального времени (потоковая передача). Обычно потоковая передача основана на событии, и как только событие запускается и отбрасывается в линиях разлома, обычно событие теряется, это можно сделать надежным с помощью механизма повторных попыток, но тогда оно теряет свою цель потоковой передачи, поскольку какое-то новое событие могло быть запущено после что.
Запланированная синхронизация БД является надежной, и если данные не могут быть опубликованы в одном цикле, они будут повторены в следующем. Существуют детальные элементы управления для настройки этого.
Приятно видеть, что вы прошлись по этому полному блогу. Делитесь своими комментариями и лайками, если вы нашли этот блог актуальным.
Есть вопрос ? Напишите нам в комментариях удар.