Публикации по теме 'apache-pig'


Образовательный ландшафтный проект
Использование инструментов больших данных для прогнозирования вероятности поступления в университеты учащихся средних школ Египта Оглавление Я. Введение в бизнес-задачу II. Обзор набора данных III. Предварительная обработка данных с помощью Pandas IV. Исследовательский анализ данных с использованием Plotly, Power BI и Apache Pig В. Классификация с помощью Pyspark VI. Рекомендации VII. Заключение и будущая работа VIII. Ссылки Я. Введение в..

Вопросы по теме 'apache-pig'

Можно ли обнаруживать и обрабатывать конфликты строк между сгруппированными значениями при группировании в Hadoop Pig?
Предполагая, что у меня есть строки данных, подобные следующим, которые показывают имена пользователей и их любимые фрукты: Alice\tApple Bob\tApple Charlie\tGuava Alice\tOrange Я хотел бы создать запрос свиньи, который показывает любимый...
181 просмотров
schedule 27.10.2022

Какой тип разделителя я должен использовать в Pig Latin для обработки журнала Apache?
Если так выглядит мой журнал Apache, какой разделитель следует использовать в PigLatin для разделения данных. [Mon Jul 02 10:04:18 2012] [error] [client x.x.x.x] File does not exist: /home/ec2- user/xxxxxxxxxx/xxxxxxxxx, referer:...
382 просмотров
schedule 29.06.2022

ошибка загрузки файла свиньи
Я пытаюсь запустить эту команду над средой свиньи. grunt> A = LOAD inp; Но я получаю эту ошибку в файлах журнала: Pig Stack Trace: ОШИБКА 1200: несоответствующий ввод "inp", ожидающий QUOTEDSTRING Не удалось разобрать:...
9768 просмотров
schedule 19.08.2022

Как получить схему ввода в функции exec в Pig UDF
Интересно, как я могу получить схему ввода в функции exec(), когда я создаю UDF в Piglatin. Я могу получить схему из функции outputSchema(), но похоже, что результат не может быть использован бэкэнд-функциями. Любые подсказки будут высоко оценены!
814 просмотров
schedule 10.10.2023

Разбор строки пути для поиска всех предков с использованием Hive
Учитывая входной файл, содержащий пути и некоторые другие столбцы: \aa\bb\cc ... \aa\bb\cc\dd\ee ... \xx\yy\zz ... Я ищу способ в HiveQL взорвать пути в отдельный список, включая все пути предков. Для примера выше...
141 просмотров
schedule 28.10.2022

Предупреждение при выполнении команды в PIG
Я новичок в концепции PIG. Теперь у меня есть файл, смонтированный на HDFS. Пока я загружаю файл, используя A = ЗАГРУЗИТЬ 'user/vishal/output/part-00000' ИСПОЛЬЗОВАНИЕ PigStorage(' ') как (имя, вхождение) это происходит правильно, но...
3164 просмотров
schedule 26.11.2023

Свинья на EMR: как включить точку с запятой в аргумент регулярного выражения функции EXTRACT
Я работаю с некоторыми данными в Pig, которые включают интересующие строки, необязательно разделенные точкой с запятой и в случайном порядке, например. test=12345;foo=bar test=12345 foo=bar;test=12345 Следующий код должен извлечь значение...
930 просмотров
schedule 27.10.2022

Использовать значения параметров в Pig foreach
Можно ли использовать значения параметров в генерации Pig foreach? Может быть, что-то вроде этого: *%default TODAYS_DATE `date +%Y/%m/%d`; A = строки foreach генерируют строку2, id, $TODAYS_DATE как строку2, id, сегодня;* Или мне...
328 просмотров
schedule 11.04.2024

Как выполнить операцию UPDATE WHERE на латыни свиньи с использованием переменных из двух псевдонимов с неизвестным количеством записей?
Я новичок в Свинье. Вот некоторый псевдокод того, что я пытаюсь выполнить: FOREACH split_records { UPDATE updated_volume SET open=updated_volume.open*split_records.multiply_by/split_records.divide_by,...
634 просмотров
schedule 30.12.2023

загрузка данных на основе условий в APACHE PIG
Постановка задачи. Я хочу проверить, является ли значение столбца в отношении xyz четным, затем загрузить первые 10 полей (1-10) файла abc, а если нет, то загрузить еще 10 (11-20). Отношение XYZ 123 Отношение АВС а б в г д е з з и к л м н о п к...
98 просмотров
schedule 08.05.2024

При использовании CassandraStorage() в Pig невозможно преобразовать NonSpillableDataBag в DefaultDataBag.
Мой код свиньи имеет строку СОХРАНИТЕ FOO В "cassandra://..." с помощью CassandraStorage(); Мои данные отформатированы как значение, за которым следует пакет кортежей (CassandraStorage жаловался на формат, пока я этого не сделал). Теперь,...
202 просмотров
schedule 22.02.2024

использование MultiStorage для хранения записей в отдельных файлах
Я пытаюсь сохранить набор таких записей: 2342514224232 | some text here whatever 2342514224234| some more text here whatever .... в отдельные файлы в выходной папке, например: выход / 2342514224232 выход / 2342514224234 значение idstr...
3353 просмотров
schedule 11.09.2022

объединить каждое поле в свинье?
В настоящее время я пытаюсь создать конкатенирующую строку для каждой группы. Эта строка должна быть конкатенацией всех вхождений поля. На данный момент мой код выглядит так: grouped = GROUP a by group_field; b = FOREACH grouped {...
2623 просмотров
schedule 24.08.2022

СВИНЬЯ: придайте значение твитам
Моя цель — оценивать твиты на Pig Latin. У меня есть 3 списка слов для использования в качестве словаря (положительные слова, отрицательные слова и нерелевантные слова). Я бы оценил список твитов с помощью этого словаря. Я должен анализировать...
370 просмотров
schedule 25.07.2022

Установка узла данных Hortonworks: исключение в secureMain
Пытаюсь установить одноузловой кластер Hortonworks Hadoop. Я могу запустить namenode и вторичный namenode, но datanode не работает со следующей ошибкой. Как решить эту проблему? 2014-04-04 18:22:49,975 FATAL datanode.DataNode...
2723 просмотров

Использование JsonLoader() от Pig с Json из твитов
У меня проблемы с параметрами функции JsonLoader для Pig. Объект объекта Json довольно большой, и часть, которая вызывает у меня проблему, - это все, что находится в поле «сущности». Если я уберу это, я смогу заставить JsonLoader() работать...
630 просмотров
schedule 09.08.2022

Как указать ToDate во время определения схемы?
Я загружаю свои файлы и генерирую для них даты в два этапа: A = LOAD 'foo.txt' USING PigStorage('\\u001') AS ( bar:chararray ,baz:int ); B = FOREACH A GENERATE ToDate(bar, 'yyyy-MM-dd HH:mm:ss') AS bar ,baz ; Как я могу...
44 просмотров
schedule 15.08.2022

Используя Hue - Pig Editor, как я могу передать param_file скрипту pig?
Мы можем передавать параметры с помощью Hue - Pig Editor. Но как я могу передать файл параметров в скрипт свиньи, используя Hue. Из оболочки grunt мы используем следующую команду для загрузки файла параметров. $pig -param_file...
979 просмотров
schedule 30.01.2024

Нужна помощь специалиста в сценарии Hadoop Hive Pig.
Я все еще изучаю Hadoop и столкнулся с конкретной ситуацией: у меня есть две таблицы, первая таблица A в mySQL со столбцами: электронная почта и адрес, а вторая таблица B внутри HDFS со столбцами: идентификатор, электронная почта и адрес. Мне нужно...
283 просмотров
schedule 08.07.2022

Как давать уравнения в Apache pig
Я пытаюсь получить значение из этого уравнения --counted gives the total row count in a file samplecount = counted*(10/100); Как сэмплировать данные в соответствии с этим --Load data examples = LOAD...
96 просмотров
schedule 31.12.2023