Публикации по теме 'data-warehouse'


Шпаргалка по базовому сертификату Snowflake SnowPro
Недавно я прошел Сертификат Snowflake SnowPro Core Cert и хотел бы порекомендовать этот сертификат всем, кто не знаком со Snowflake. До этого экзамена у меня было около 8 месяцев опыта работы со Snowflake, но больше я занимался повседневными операционными задачами и меньше знал о конфигурации/планировании платформы. Вдохновленный одним из самых популярных материалов для СМИ — Руководство по подготовке к сертификации Snowflake’s SnowPro от Jeno Yamma , я решил составить собственную..

Серия блогов Greenplum для Data Science, часть 3: Масштабируемое машинное обучение в базе данных и НЛП с…
Этот блог представляет собой третью часть серии Greenplum for End-to-End Data Science & ML . В этой статье мы демонстрируем объединение возможностей MPP Greenplum Data Warehouse с богатой экосистемой Python, чтобы значительно ускорить процесс разработки сквозной модели машинного обучения / NLP. На рисунке ниже показан столь необходимый сдвиг парадигмы при обучении и выводе моделей машинного обучения на реальных больших наборах данных. Машинное обучение в клиенте требует..

Всесторонний профиль современного дата-инженера
Всесторонний профиль современного дата-инженера Необходимые навыки и структура команды для эффективной обработки данных С появлением области больших данных многие элементы современного стека данных стали обязанностью дата-инженеров. Каковы эти элементы и как вы должны построить свою команду данных? Краткая история Термин «инженер данных» был введен крупными технологическими компаниями в начале 2010-х годов, когда данные стали «большими данными». Этот термин использовался для..

Хранилища данных 2-го и 3-го поколений
В настоящее время организации собирают чрезмерное количество данных от своих пользователей, и им требуется конкретный метод для хранения, маркировки, классификации и анализа данных, чтобы сделать их значимыми и полезными для бизнеса. Хранилища данных, созданные для обработки данных и составления отчетов, лежат в основе систем бизнес-аналитики. Проще говоря, хранилище данных — это процесс хранения и обработки данных из многих источников для получения информации о бизнесе. Что касается..

Уроки построения хранилища данных с высокой воспроизводимостью
Конвейер хранилища данных: основные концепции и дорожная карта Уроки построения хранилища данных с высокой воспроизводимостью Как мы улучшили воспроизводимость и удобство обслуживания нашего хранилища данных Воспроизводимость и ремонтопригодность часто упускаются из виду при построении конвейеров хранилища данных. Вы можете столкнуться с рядом проблем, если упустите эти характеристики. Например, если повторная обработка прошлых данных - задача не из легких. Или, если..

Насколько важны проекты ETL и моделирование данных для проектирования хранилища данных?
Работая с большими наборами данных, я обнаружил, что проектировать системы ETL очень легко, когда эти наборы данных предназначены для клиента. Однако при работе с наборами данных с клиентами B2B наборы данных настолько разнообразны, что мне практически невозможно воспринимать все запросы (типы), которые могут понадобиться аналитикам. Поэтому я начал читать книгу Кимбалла и Росс о создании хранилища данных. Это дало мне свежий и новый взгляд на вещи, проявив сочувствие к аналитикам..

Эволюция современного хранилища данных
Существует множество определений хранилища данных . Я взял случайное определение из Интернета. Это соответствует общему пониманию в индустрии управления данными того, что такое хранилище данных, а что нет. Это тоже неправильно. «Хранилище данных - это технология, которая объединяет структурированные данные из одного или нескольких источников, чтобы их можно было сравнивать и анализировать для большей бизнес-аналитики». Если вы смотрите на это определение и думаете: «Мне это..