В этой статье я объясню концепции озер данных в манере рассказывания историй. Сама по себе история — вымысел, но она представляет концепцию озер данных.

Когда-то менеджер попросил аналитика данных предоставить анализ и ценную информацию по конкретной интересующей области, аналитик данных сказал: «Пожалуйста, сначала предоставьте мне данные». Менеджер сказал ему: «Не волнуйтесь, мы живем в эпоху больших данных, доступно огромное количество данных». Аналитик данных спросил: «Где я могу найти эти данные?» менеджер ответил: «У нас есть много разных источников данных и набор систем управления данными с разнородными схемами, языками запросов и API».

Аналитик спросил «эти источники информации связаны/хранятся в одном месте?» менеджер ответил: «нет, данные разделены без или только со слабыми взаимосвязями, и, к сожалению, они похожи на информационные бункеры». Аналитик данных был разочарован и сказал: «Я могу дать ценную информацию только о сочетании и интеграции доступных данных». Хотя менеджер тоже был расстроен, он услышал голос из соседнего офиса, и это был голос Джеймса Диксона, он сказал: «У меня есть решение, я придумал идею создания большого репозиторий данных, в котором хранятся необработанные данные из разных источников с разным содержимым и форматами, и я назвал свою идею озером данных. Он продолжил: «Ваш аналитик данных может запросить и изучить данные и предоставить компании ценную информацию».

Менеджер спросил команду разработчиков больших данных: «Будет ли создание озера данных дорогостоящим/медленным процессом?». Команда ответила: «На самом деле мы могли бы загрузить данные в озеро в их исходном формате, не прибегая к дорогостоящим задачам преобразования или интеграции». JSON, электронные таблицы, XML или реляционный формат?». Команда ответила «точно». Члены разных команд начали задавать вопросы: «Какие данные могут обрабатывать озера данных?», «Нужно ли нам выполнять преобразования данных перед их добавлением в озеро?», «Нужно ли нам предоставлять схему при приеме данные в озеро?» кто-то ответил: «Озера данных созданы для обработки больших объемов данных (большие данные) и быстро поступающих объемов данных (быстрые данные), и нет, вам не нужно выполнять преобразования, вы можете хранить их в исходном формате, и вам не нужно определять схему при загрузке данных в озеро, поэтому вы можете сказать, что многие первоначальные затраты устранены, структура данных может быть определена на этапе время его использования, и это называется схема при чтении, а также называется поздним связыванием». Кто-то крикнул из конца зала"потрясающе, это полная гибкость".

Через некоторое время, когда все были счастливы и положительно отзывались об озерах данных, в компании стали слышны перешептывания других членов команды, которые высказывали свое мнение против идей, вокруг которых были построены озера данных, некоторые члены команды говорили следующее: «Данные без схемы бесполезны», «Я хочу иметь возможность применять модели машинного обучения к данным в озере, а пакеты статистики или машинного обучения ожидают, что данные будут в определенных форматах», «Анализ данных, которые не находятся в определенного формата, может потребоваться дополнительное время и усилия, связанные с преобразованием его в соответствующий формат, поэтому мы не экономим время здесь», — говорили другие, — «Я чувствую, что будет много потенциальных рисков и проблем, связанных с дублированием данных, избыточностью данных, и противоречивые данные, поскольку данные поступают из нескольких разрозненных источников данных (нет качества данных)». У некоторых членов команды были другие проблемы, и они говорили, что «без каких-либо метаданных, связанных с данными в озере, это в конечном итоге будет больше похоже на болото данных, чем на озеро». Они также спросили: «Есть ли способ отслеживать происхождение результатов других аналитиков или пользователей, которые ранее нашли ценность в использовании тех же данных в озере?». «Управляется ли безопасность и контроль доступа?», «Как обрабатываются конфиденциальные данные?»… и т. д.

Вскоре эти участники начали искать ответы на свои сомнения и вопросы и обнаружили, что исследователи работают над созданием управляемых или курируемых озер данных, которые пытаются решить основные проблемы, связанные с озерами данных. Значительное количество исследований, связанных с озерами данных, сосредоточено на том, как повысить качество озер данных, управлять метаданными, обнаруживать конфиденциальную информацию, обеспечивать безопасность и т. д.

В следующем посте я попытаюсь обобщить некоторые результаты исследований о том, как решить проблемы, связанные с озерами данных.