Публикации по теме 'hdfs'


Первый шаг к разработке приложений
Привет Читатель! Прежде всего, я хотел бы представиться. Я Абхинав Ананд , 2-й курс бакалавриата технических наук, выпускник программы CSE в St.Mary’s Group of Institution, Хайдарабад. Каждый человек испытывает типичное чувство «я не знаю, что делаю», когда начинает новую работу. Это вполне естественно, так как вы находитесь в совершенно новой среде, состоящей из реализации знаний в реальном времени, а не процентилей оценок. Определенно будут моменты, которые бросят вам вызов и даже..

Вопросы по теме 'hdfs'

В Hive локальный путь загрузки данных перезаписывает существующие данные или добавляется?
Я надеюсь запустить импорт в Hive на cron и надеялся просто использовать "загрузить данные локально inpath '/ tmp / data / x' в таблицу X" в таблицу будет достаточно. Будут ли последующие команды перезаписывать то, что уже находится в таблице?...
19299 просмотров
schedule 11.09.2022

На какой машине работает Редуктор Hadoop?
Если у меня есть кластер из 4 узлов, где 1 машина является именным узлом, а остальные 3 машины — узлами данных, и если я установлю количество редукторов равным 1, какой из узлов данных будет запускать редюсер?
883 просмотров
schedule 28.12.2023

копирование каталога из локальной системы в код Java hdfs
У меня возникла проблема с копированием каталога из моей локальной системы в HDFS с использованием кода Java. Я могу перемещать отдельные файлы, но не могу найти способ переместить весь каталог с подпапками и файлами. Может ли кто-нибудь помочь мне...
26174 просмотров
schedule 20.07.2022

Предупреждение при выполнении команды в PIG
Я новичок в концепции PIG. Теперь у меня есть файл, смонтированный на HDFS. Пока я загружаю файл, используя A = ЗАГРУЗИТЬ 'user/vishal/output/part-00000' ИСПОЛЬЗОВАНИЕ PigStorage(' ') как (имя, вхождение) это происходит правильно, но...
3164 просмотров
schedule 26.11.2023

Hadoop: работают ли Mappers параллельно, когда мы используем NLineInputFormat?
Если да, то как HDFS разбивает входной файл на N строк для чтения каждым картографом? Я верю, что это невозможно! Когда сплиттеру требуется смещение или байты для разделения, можно разделить без обработки всего входного файла. Но когда важно...
1408 просмотров
schedule 07.11.2022

Hadoop установлен - проблема с рутом
Я установил Hadoop 1.2.1 из Apache для учетной записи пользователя в Ubuntu, но не для root . Когда я отдаю команды, я добавляю sudo . Проблема в том, что когда я запускаю Hadoop с помощью « sudo bin/start-all.sh » из домашнего каталога Hadoop,...
164 просмотров
schedule 20.12.2023

Hadoop, как мне создать inputsplit, который охватывает несколько блоков
Я решил написать простой пользовательский FileInputFormat, чтобы проверить свое понимание inputSplits и т. д. И это упражнение оставило меня с серьезным вопросом. Контекст Допустим, у меня есть очень большой файл, который хранится в HDFS в N...
228 просмотров
schedule 01.01.2024

Как создать файл в hdfs, объединив два файла в hadoop
Я хочу создать таблицу в улье, объединяющую столбцы двух таблиц. Итак, я хочу создать один файл в hdfs, включив столбцы обоих файлов. file1: a b c are the 3 columns file2: x y z are the 3 columns i want to create a file3: a b c x y...
220 просмотров
schedule 09.10.2023

DataStax Enterprise с HDFS и Spark без Cassandra
Можно ли работать с DSE, HDFS, Spark, но без Cassandra? Я пытаюсь заменить CFS (файловая система Cassandra) на HDFS (Hadoop в DSE) dse hadoop fs -help нужна кассандра. Cassandra занимает много памяти, я надеюсь, что только с HDFS мы...
229 просмотров
schedule 05.10.2022

Сохранение строки в HDFS создает перевод строки для каждого символа
У меня есть простой текстовый файл, который я читаю из своей локальной системы и загружаю в HDFS. У меня есть код Spark/Scala, который считывает файл, преобразует файл в строку, а затем я использую функцию saveAsTextFile, чтобы указать свой путь...
343 просмотров
schedule 09.09.2022

Ошибка Hadoop - в соединении отказано?
Я получил следующую ошибку в кластере Hadoop. У меня была работа, и она была длинной и не могла закончиться. Затем всякий раз, когда я пытаюсь получить доступ к Hdfs, я получаю: «Вызов с li417-43.members.linode.com/174.79.191.40 на...
2497 просмотров
schedule 22.07.2022

hdfs fsck отображает неправильный коэффициент репликации
Я только начал использовать Hadoop и экспериментировал с ним. Я немного погуглил и обнаружил, что мне нужно изменить свойства в hdfs-site.xml, чтобы изменить коэффициент репликации по умолчанию... вот что я сделал, и, честно говоря, это работает как...
389 просмотров
schedule 08.03.2024

Как преобразовать файл последовательности hadoop в формат json?
Как следует из названия, я ищу какой-нибудь инструмент, который преобразует существующие данные из файла последовательности hadoop в формат json. Мой первоначальный поиск в Google показал только результаты, связанные с jaql, которые я отчаянно...
1031 просмотров
schedule 19.10.2023

объединение вывода Spark в один файл
Я понимаю, что мой вопрос похож на Объединить выходные файлы после фазы сокращения , однако Я думаю, что это может быть по-другому, потому что я использую Spark только на локальной машине, а не на распределенной файловой системе. У меня Spark...
2388 просмотров
schedule 12.11.2022

Задержка для набора данных в Oozie Coordinator
Нужна работа, которая выполняется в зависимости от наличия наборов данных, созданных в разделах Hive. Я заставил это работать, но теперь я хочу, чтобы все мои каналы запускались в номинальное время, но один всегда запускался с задержкой на день....
277 просмотров
schedule 10.02.2024

Исключение Hadoop в потоке main java.io.FileNotFoundException: hadoop-mapreduce-client-core-2.6.0.jar, хотя этот файл существует
Я работаю с hadoop-2.6.0 и hbase-0.98.9. Во время выполнения задания hadoop выдается исключение java.io.FileNotFoundException, хотя этот файл существует и также существует в пути к классам, но все равно ищет его в пути hdfs://. В чем может быть...
1313 просмотров
schedule 09.05.2024

можно ли хранить данные mongodb на hdfs
В моем проекте я бросаю вызов методу хранения данных. Во-первых, в моем проекте есть потоковые данные в формате JSON, и наиболее подходящей БД является MongoDB. Мне нужно анализировать данные с помощью Hadoop или Spark. Итак, мой конфликт...
933 просмотров

Загрузка данных с помощью Apache-Spark на AWS
Я использую Apache-Spark на Amazon Web Service (AWS) -EC2 для загрузки и обработки данных. Я создал один главный и два подчиненных узла. На главном узле у меня есть каталог data , содержащий все файлы данных в формате csv для обработки. Теперь,...
788 просмотров

Есть ли ограничение на количество символов в аргументах командной строки в команде отправки искры?
Я также хочу знать, есть ли какие-либо специальные символы, которые мы не можем использовать в качестве аргументов для команды отправки искры? Я также хочу знать, можем ли мы передать всю вложенную строку Json в аргумент в команде отправки искры?...
852 просмотров
schedule 16.10.2022

Резервное копирование Hadoop для установки нового кластера, передовой опыт
Я создаю новый кластер Hadoop (расширяю количество узлов и увеличиваю емкость существующих узлов), и мне нужно создать резервную копию всех существующих данных. Прямо сейчас я просто таргю все и отправляю на другой сервер. Есть ли более разумный...
62 просмотров
schedule 04.01.2024