Добавление нескольких файлов в распределенный кеш Hadoop?

Я пытаюсь добавить несколько файлов в распределенный кеш Hadoop. На самом деле я не знаю названия файлов. Они будут называться как part-0000*. Может ли кто-нибудь сказать мне, как это сделать?

Спасибо, Бала.


person Boolean    schedule 03.09.2010    source источник


Ответы (3)


Вы можете использовать команду hadoop -put или -copyFromLocal:

hadoop fs -copyFromLocal /home/hadoop/outgoing/* /your/hadoop/dir
person Matthew Hegarty    schedule 03.09.2010
comment
Вы можете либо написать bash-скрипты и вызвать их из Java, либо посмотреть на Java API HDFS — см. Программное использование HDFS — developer.yahoo.com/hadoop/tutorial/module2.html - person Matthew Hegarty; 06.09.2010

Я решил эту проблему, хотя, возможно, немного поздно:

FileSystem fs = directoryPath.getFileSystem(getConf());
FileStatus[] fileStatus = fs.listStatus(directoryPath);
for (FileStatus status : fileStatus) {
    DistributedCache.addFileToClassPath(status.getPath(), conf);
}

Это то, что вы хотели сделать?

person Breakinen    schedule 21.02.2012

Ничто не мешает вам программно получить список файлов, если они все находятся в одном каталоге, и добавить их по одному, верно? Или ваш случай другой?

person Dmytro Molkov    schedule 04.09.2010