Вопросы по теме 'aws-glue'

AWS Glue Crawler добавляет таблицы для каждого раздела?
У меня есть несколько тысяч файлов в ведре S3 в таком виде: ├── bucket │ ├── somedata │ │   ├── year=2016 │ │   ├── year=2017 │ │   │   ├── month=11 │ │   | │   ├── sometype-2017-11-01.parquet │ | | | ├──...
6688 просмотров
schedule 26.11.2023

Шаблон AWS Glue Grok, отметка времени в миллисекундах
Мне нужно определить шаблон grok в AWS Glue Classifie, чтобы зафиксировать datestamp с миллисекундами в столбце datetime файла (который преобразуется в string с помощью AWS Glue Crawler. Я использовал DATESTAMP_EVENTLOG , предопределенный в AWS...
4751 просмотров

Python список праздников США между диапазоном
Мне нужно получить список праздников в заданном диапазоне, т.е. если дата начала 12.10.2016, а дата окончания 01.10.2017, то я должен получить 25.12.2017, 1/1/2017 . Я могу сделать это с помощью Pandas, но в моем случае у меня есть ограничение,...
1849 просмотров

Ошибка клея AWS | Невозможно прочитать таблицы клея из конечных точек разработчика с помощью искры
Я не могу получить доступ к таблицам AWS Glue, даже если мне предоставлены все необходимые разрешения IAM. Я даже не могу перечислить все базы данных. Вот код. import sys from awsglue.transforms import * from awsglue.utils import...
1026 просмотров
schedule 08.11.2022

HIVE_INVALID_METADATA в Amazon Athena
Как обойти следующую ошибку в Amazon Athena? HIVE_INVALID_METADATA: com.facebook.presto.hive.DataCatalogException: Error:: ожидается на позиции 8 в 'struct ‹x-amz-request-id: string, action: string, label: string, category: string, when:...
5115 просмотров

AWS Glue Crawler - одиночная запись CSV
У меня есть куча файлов, хранящихся в S3 в формате CSV (без заголовка), но во многих случаях только одна запись на файл. Например: "6ad0638e-e7d3-4c33-8271-5b3972c6155f",1532653200000 Когда я запускаю краулер, он создает для каждой таблицы,...
3834 просмотров
schedule 09.10.2022

aws клей JDBC соединение
Кажется, что AWS Glue «Добавить соединение» может добавлять только соединения, относящиеся только к одной базе данных. Мне нужно подключить все базы данных с сервера MS SQL. Можно ли охватить несколько баз данных в одном Aws Glue «Добавить...
2410 просмотров
schedule 30.08.2022

Пользовательский классификатор grok AWS Glue не работает
У меня есть структурированный текстовый файл с разделителями, с двумя столбцами, с двоеточиями в качестве разделителей, в S3, который выглядит так: [email protected]:abc [email protected]:def У меня есть собственный классификатор с этим выражением...
764 просмотров
schedule 05.12.2023

Задание AWS Glue ETL запускается для пакетов событий S3
У меня есть ведро S3, в которое сбрасывается много файлов (1000 записей / мин). Я хочу запустить задание Glue ETL для пакетов этих сброшенных файлов. Я рассмотрел использование Firehose для агрегирования пакетов событий, но для этого требуется...
526 просмотров
schedule 16.01.2024

Почему input_file_name () пуст для источников каталога S3 в pyspark?
Я пытаюсь получить имя входного файла (или путь) для каждого файла, загруженного через каталог данных S3 в AWS Glue. Я прочитал в нескольких местах, которые input_file_name() должны предоставлять эту информацию (хотя с оговоркой, что это...
3435 просмотров

Как исправить модуль «pg8000» не имеет атрибута «подключиться» в задании AWS Glue
Я пытаюсь настроить ежедневное задание AWS Glue, которое загружает данные в базу данных RDS PostgreSQL. Но мне нужно обрезать свои таблицы перед загрузкой в ​​них данных, поскольку эти задания работают со всем набором данных. Для этого я реализую...
1001 просмотров

Бессерверный Amazon S3 Data Lake AWS
Я пытаюсь создать бессерверное озеро данных с Amazon Simple Storage Service (Amazon S3) в качестве основного хранилища данных. Полученные данные попадают в корзину Amazon S3, которую мы называем необработанной зоной. Чтобы сделать эти данные...
287 просмотров
schedule 09.11.2022

Как сгладить массив во вложенном json в aws glue с помощью pyspark?
Я пытаюсь сгладить файл JSON, чтобы загрузить его в PostgreSQL и все это в AWS Glue. Я использую PySpark. С помощью краулера я просматриваю S3 JSON и создаю таблицу. Затем я использую сценарий ETL Glue, чтобы: прочитайте просканированную...
4384 просмотров
schedule 01.05.2024

Расположение таблицы Hive в S3 без косой черты
У меня есть журналы доступа к S3, которые сбрасываются в корзину в том, что, по-видимому, является недружественной структурой Hive (Glue Data Catalog). По сути, им дается префикс, заканчивающийся косой чертой, затем имя каждого файла начинается со...
207 просмотров
schedule 28.08.2022

Выходные данные регистратора в блокноте AWS Sagemaker Jupyter
Я хотел бы видеть пользовательские журналы, которые я создаю в блокноте AWS Sagemaker JupyterLab (в котором используется конечная точка разработки Glue). Я хочу видеть их как результат ячейки ноутбука. Я пробовал с: import logging logger =...
1421 просмотров

Сканирование S3 с помощью Glue, добавление файлов, которые нужно игнорировать, и сохранение их данных Athena?
У меня есть коллекция файлов S3, которые соответствуют этому формату: date=10001 abc.json bcd.json cdf.json date=10002 ... date=20001 ... Эти файлы сканируются Glue для создания таблицы в Athena (с указанием даты раздела)....
419 просмотров

Задание склейки AwS читает 0 файлов при запуске с таблицей, созданной вручную
Я хочу запустить задание склеивания, чтобы выполнить процесс ETL для многих файлов csv из s3 в Postgres DB. Новые файлы записываются в корзину с исходным кодом s3 каждый день. Когда я запускаю поисковый робот для этих файлов, чтобы сгенерировать...
578 просмотров
schedule 17.09.2022

В Dataframe, как удалить столбец из строки на основе условия?
Я хочу удалить столбец из строк, когда значение столбца равно нулю в этой строке. Я не хочу удалять столбец из Dataframe. Я хочу удалить столбец из этой конкретной строки (строк), только если значение столбца равно нулю. Я использую Пайспарк.
18 просмотров
schedule 24.03.2024

Доступ к сложным типам в AWS Athena
Я использовал Glue для создания таблиц для Афины. У меня есть несколько вложенных значений массива / структуры (сложные типы), к которым у меня проблемы с доступом через запрос. У меня есть две таблицы, одна из которых называется sample_parquet....
988 просмотров

AppSync с интеграцией Glue
Я хотел проверить, работал ли кто-нибудь или видел ли какой-либо сценарий, в котором AWS AppSync интегрирован с AWS Glue Data Catalog? Мы пытаемся создать graphql API с помощью AWS AppSync, а нашим источником данных является каталог данных в AWS...
147 просмотров