Публикации по теме 'data-warehouse'
Шпаргалка по базовому сертификату Snowflake SnowPro
Недавно я прошел Сертификат Snowflake SnowPro Core Cert и хотел бы порекомендовать этот сертификат всем, кто не знаком со Snowflake. До этого экзамена у меня было около 8 месяцев опыта работы со Snowflake, но больше я занимался повседневными операционными задачами и меньше знал о конфигурации/планировании платформы.
Вдохновленный одним из самых популярных материалов для СМИ — Руководство по подготовке к сертификации Snowflake’s SnowPro от Jeno Yamma , я решил составить собственную..
Серия блогов Greenplum для Data Science, часть 3: Масштабируемое машинное обучение в базе данных и НЛП с…
Этот блог представляет собой третью часть серии Greenplum for End-to-End Data Science & ML . В этой статье мы демонстрируем объединение возможностей MPP Greenplum Data Warehouse с богатой экосистемой Python, чтобы значительно ускорить процесс разработки сквозной модели машинного обучения / NLP.
На рисунке ниже показан столь необходимый сдвиг парадигмы при обучении и выводе моделей машинного обучения на реальных больших наборах данных.
Машинное обучение в клиенте требует..
Всесторонний профиль современного дата-инженера
Всесторонний профиль современного дата-инженера
Необходимые навыки и структура команды для эффективной обработки данных
С появлением области больших данных многие элементы современного стека данных стали обязанностью дата-инженеров. Каковы эти элементы и как вы должны построить свою команду данных?
Краткая история
Термин «инженер данных» был введен крупными технологическими компаниями в начале 2010-х годов, когда данные стали «большими данными». Этот термин использовался для..
Хранилища данных 2-го и 3-го поколений
В настоящее время организации собирают чрезмерное количество данных от своих пользователей, и им требуется конкретный метод для хранения, маркировки, классификации и анализа данных, чтобы сделать их значимыми и полезными для бизнеса. Хранилища данных, созданные для обработки данных и составления отчетов, лежат в основе систем бизнес-аналитики. Проще говоря, хранилище данных — это процесс хранения и обработки данных из многих источников для получения информации о бизнесе.
Что касается..
Уроки построения хранилища данных с высокой воспроизводимостью
Конвейер хранилища данных: основные концепции и дорожная карта
Уроки построения хранилища данных с высокой воспроизводимостью
Как мы улучшили воспроизводимость и удобство обслуживания нашего хранилища данных
Воспроизводимость и ремонтопригодность часто упускаются из виду при построении конвейеров хранилища данных.
Вы можете столкнуться с рядом проблем, если упустите эти характеристики. Например, если повторная обработка прошлых данных - задача не из легких. Или, если..
Насколько важны проекты ETL и моделирование данных для проектирования хранилища данных?
Работая с большими наборами данных, я обнаружил, что проектировать системы ETL очень легко, когда эти наборы данных предназначены для клиента. Однако при работе с наборами данных с клиентами B2B наборы данных настолько разнообразны, что мне практически невозможно воспринимать все запросы (типы), которые могут понадобиться аналитикам. Поэтому я начал читать книгу Кимбалла и Росс о создании хранилища данных. Это дало мне свежий и новый взгляд на вещи, проявив сочувствие к аналитикам..
Эволюция современного хранилища данных
Существует множество определений хранилища данных . Я взял случайное определение из Интернета. Это соответствует общему пониманию в индустрии управления данными того, что такое хранилище данных, а что нет.
Это тоже неправильно.
«Хранилище данных - это технология, которая объединяет структурированные данные из одного или нескольких источников, чтобы их можно было сравнивать и анализировать для большей бизнес-аналитики».
Если вы смотрите на это определение и думаете: «Мне это..