Публикации по теме 'apache-pig'
Образовательный ландшафтный проект
Использование инструментов больших данных для прогнозирования вероятности поступления в университеты учащихся средних школ Египта
Оглавление
Я. Введение в бизнес-задачу
II. Обзор набора данных
III. Предварительная обработка данных с помощью Pandas
IV. Исследовательский анализ данных с использованием Plotly, Power BI и Apache Pig
В. Классификация с помощью Pyspark
VI. Рекомендации
VII. Заключение и будущая работа
VIII. Ссылки
Я. Введение в..
Вопросы по теме 'apache-pig'
Можно ли обнаруживать и обрабатывать конфликты строк между сгруппированными значениями при группировании в Hadoop Pig?
Предполагая, что у меня есть строки данных, подобные следующим, которые показывают имена пользователей и их любимые фрукты:
Alice\tApple
Bob\tApple
Charlie\tGuava
Alice\tOrange
Я хотел бы создать запрос свиньи, который показывает любимый...
181 просмотров
schedule
27.10.2022
Какой тип разделителя я должен использовать в Pig Latin для обработки журнала Apache?
Если так выглядит мой журнал Apache, какой разделитель следует использовать в PigLatin для разделения данных.
[Mon Jul 02 10:04:18 2012] [error] [client x.x.x.x] File does not exist: /home/ec2- user/xxxxxxxxxx/xxxxxxxxx, referer:...
382 просмотров
schedule
29.06.2022
ошибка загрузки файла свиньи
Я пытаюсь запустить эту команду над средой свиньи.
grunt> A = LOAD inp;
Но я получаю эту ошибку в файлах журнала: Pig Stack Trace:
ОШИБКА 1200: несоответствующий ввод "inp", ожидающий QUOTEDSTRING
Не удалось разобрать:...
9768 просмотров
schedule
19.08.2022
Как получить схему ввода в функции exec в Pig UDF
Интересно, как я могу получить схему ввода в функции exec(), когда я создаю UDF в Piglatin. Я могу получить схему из функции outputSchema(), но похоже, что результат не может быть использован бэкэнд-функциями.
Любые подсказки будут высоко оценены!
814 просмотров
schedule
10.10.2023
Разбор строки пути для поиска всех предков с использованием Hive
Учитывая входной файл, содержащий пути и некоторые другие столбцы:
\aa\bb\cc ...
\aa\bb\cc\dd\ee ...
\xx\yy\zz ...
Я ищу способ в HiveQL взорвать пути в отдельный список, включая все пути предков. Для примера выше...
141 просмотров
schedule
28.10.2022
Предупреждение при выполнении команды в PIG
Я новичок в концепции PIG. Теперь у меня есть файл, смонтированный на HDFS. Пока я загружаю файл, используя
A = ЗАГРУЗИТЬ 'user/vishal/output/part-00000' ИСПОЛЬЗОВАНИЕ PigStorage(' ') как (имя, вхождение)
это происходит правильно, но...
3164 просмотров
schedule
26.11.2023
Свинья на EMR: как включить точку с запятой в аргумент регулярного выражения функции EXTRACT
Я работаю с некоторыми данными в Pig, которые включают интересующие строки, необязательно разделенные точкой с запятой и в случайном порядке, например.
test=12345;foo=bar
test=12345
foo=bar;test=12345
Следующий код должен извлечь значение...
930 просмотров
schedule
27.10.2022
Использовать значения параметров в Pig foreach
Можно ли использовать значения параметров в генерации Pig foreach?
Может быть, что-то вроде этого:
*%default TODAYS_DATE `date +%Y/%m/%d`;
A = строки foreach генерируют строку2, id, $TODAYS_DATE как строку2, id, сегодня;*
Или мне...
328 просмотров
schedule
11.04.2024
Как выполнить операцию UPDATE WHERE на латыни свиньи с использованием переменных из двух псевдонимов с неизвестным количеством записей?
Я новичок в Свинье. Вот некоторый псевдокод того, что я пытаюсь выполнить:
FOREACH split_records {
UPDATE updated_volume SET
open=updated_volume.open*split_records.multiply_by/split_records.divide_by,...
634 просмотров
schedule
30.12.2023
загрузка данных на основе условий в APACHE PIG
Постановка задачи. Я хочу проверить, является ли значение столбца в отношении xyz четным, затем загрузить первые 10 полей (1-10) файла abc, а если нет, то загрузить еще 10 (11-20).
Отношение XYZ 123
Отношение АВС а б в г д е з з и к л м н о п к...
98 просмотров
schedule
08.05.2024
При использовании CassandraStorage() в Pig невозможно преобразовать NonSpillableDataBag в DefaultDataBag.
Мой код свиньи имеет строку
СОХРАНИТЕ FOO В "cassandra://..." с помощью CassandraStorage();
Мои данные отформатированы как значение, за которым следует пакет кортежей (CassandraStorage жаловался на формат, пока я этого не сделал). Теперь,...
202 просмотров
schedule
22.02.2024
использование MultiStorage для хранения записей в отдельных файлах
Я пытаюсь сохранить набор таких записей:
2342514224232 | some text here whatever
2342514224234| some more text here whatever
.... в отдельные файлы в выходной папке, например:
выход / 2342514224232 выход / 2342514224234
значение idstr...
3353 просмотров
schedule
11.09.2022
объединить каждое поле в свинье?
В настоящее время я пытаюсь создать конкатенирующую строку для каждой группы. Эта строка должна быть конкатенацией всех вхождений поля.
На данный момент мой код выглядит так:
grouped = GROUP a by group_field;
b = FOREACH grouped {...
2623 просмотров
schedule
24.08.2022
СВИНЬЯ: придайте значение твитам
Моя цель — оценивать твиты на Pig Latin. У меня есть 3 списка слов для использования в качестве словаря (положительные слова, отрицательные слова и нерелевантные слова). Я бы оценил список твитов с помощью этого словаря. Я должен анализировать...
370 просмотров
schedule
25.07.2022
Установка узла данных Hortonworks: исключение в secureMain
Пытаюсь установить одноузловой кластер Hortonworks Hadoop. Я могу запустить namenode и вторичный namenode, но datanode не работает со следующей ошибкой. Как решить эту проблему?
2014-04-04 18:22:49,975 FATAL datanode.DataNode...
2723 просмотров
schedule
29.04.2024
Использование JsonLoader() от Pig с Json из твитов
У меня проблемы с параметрами функции JsonLoader для Pig. Объект объекта Json довольно большой, и часть, которая вызывает у меня проблему, - это все, что находится в поле «сущности». Если я уберу это, я смогу заставить JsonLoader() работать...
630 просмотров
schedule
09.08.2022
Как указать ToDate во время определения схемы?
Я загружаю свои файлы и генерирую для них даты в два этапа:
A = LOAD 'foo.txt' USING PigStorage('\\u001') AS (
bar:chararray
,baz:int
);
B = FOREACH A GENERATE
ToDate(bar, 'yyyy-MM-dd HH:mm:ss') AS bar
,baz
;
Как я могу...
44 просмотров
schedule
15.08.2022
Используя Hue - Pig Editor, как я могу передать param_file скрипту pig?
Мы можем передавать параметры с помощью Hue - Pig Editor. Но как я могу передать файл параметров в скрипт свиньи, используя Hue.
Из оболочки grunt мы используем следующую команду для загрузки файла параметров.
$pig -param_file...
979 просмотров
schedule
30.01.2024
Нужна помощь специалиста в сценарии Hadoop Hive Pig.
Я все еще изучаю Hadoop и столкнулся с конкретной ситуацией: у меня есть две таблицы, первая таблица A в mySQL со столбцами: электронная почта и адрес, а вторая таблица B внутри HDFS со столбцами: идентификатор, электронная почта и адрес. Мне нужно...
283 просмотров
schedule
08.07.2022
Как давать уравнения в Apache pig
Я пытаюсь получить значение из этого уравнения
--counted gives the total row count in a file
samplecount = counted*(10/100);
Как сэмплировать данные в соответствии с этим
--Load data
examples = LOAD...
96 просмотров
schedule
31.12.2023