Публикации по теме 'data-engineering'


Инжиниринг данных с Python: чтение и запись файлов
Одной из самых основных задач в области обработки данных является перемещение данных из текстового файла в базу данных. В этой статье мы будем читать и записывать данные из нескольких различных текстовых форматов, таких как CSV и JSON. мы рассмотрим следующие основные темы: Чтение и запись файлов в Python Обработка файлов в Airflow Процессоры NiFi для обработки файлов Чтение и запись данных в базы данных в Python Базы данных в Airflow Процессоры баз данных в NiFi Запись и..

Как запустить воздушный поток
Мои личные заметки из книги «Конвейеры данных с Apache Airflow» Баса Харенслака и Джулиана де Руйтера — глава 2, часть 2 Введение Эта серия постов предназначена для того, чтобы обобщить мои выводы из книги Баса Харенслака и Джулиана де Руйтера. Если вы…

Паркетная пилка — это все, что вам нужно
Прекратите использовать CSV и перейдите на Parquet Вы специалист по данным, использующий файлы CSV для хранения своих данных? Что, если я скажу вам, что есть лучший способ? Вы когда-нибудь слышали о формате файлов Parquet с открытым исходным кодом? Можете ли вы представить себе зажигалка 🦋 быстрее 🏎️ дешевле 💸 формат файла для сохранения ваших наборов данных? Прочитайте эту статью, чтобы вам больше не нужно было фантазировать. Проблема Не пойми меня неправильно. Я..

Как загрузить данные из текстового файла в Pandas
Загрузка данных, хранящихся в текстовых файлах, в pandas DataFrames с помощью Python Pandas был де-факто пакетом Python, который позволяет пользователям выполнять преобразование и анализ данных в памяти. Во многих случаях эти данные изначально хранятся во внешних источниках, таких как текстовые файлы. Благодаря мощному API pandas позволяет пользователям загружать данные из таких источников различными способами. В сегодняшней статье мы покажем, как использовать некоторые из этих..

Загрузка данных из SQL в BigQuery — самый простой способ!
Существует множество способов переноса данных из базы данных SQL в BigQuery, но я обнаружил, что самый простой способ — использовать «dlt», что означает инструмент загрузки данных. Этот инструмент чрезвычайно упрощает процесс загрузки данных в BigQuery. Все, что вам нужно сделать, это ввести свои учетные данные, выбрать столы, и вы получите идеально приготовленное основное блюдо, которое можно подать на стол. Ниже приведены некоторые основные шаги по загрузке данных из базы данных..

Изучение 13 типов источников данных 2023 г.
От реляционных баз данных к парсингу веб-страниц Источники данных относятся к различным местам или платформам, на которых данные могут храниться и извлекаться. Существует несколько типов источников данных, каждый из которых имеет свои особенности и варианты использования. Вот некоторые распространенные типы источников данных: Реляционные базы данных: Характеристики: Структурированное хранение данных в таблицах с предопределенными схемами. Поддержка SQL-запросов и транзакций...

Мой опыт обучения в Prodapt
Продапт | Чейз экстраординарный | Ускорение подключения Я вступил в первый день своей корпоративной жизни, я был немного взволнован и в то же время немного нервничал, но одна вещь, которая придала мне уверенности, заключалась в том, что я подготовил свой разум, сказав «Это моя первая работа, это как пустая книга, и я ее автор». В начале дня у меня было беспокойство и напряжение, но в тот же день я обнаружил, что до сих пор это был хороший день. Я нашел коллег очень дружелюбными..