В Hive локальный путь загрузки данных перезаписывает существующие данные или добавляется?

Я надеюсь запустить импорт в Hive на cron и надеялся просто использовать

"загрузить данные локально inpath '/ tmp / data / x' в таблицу X" в таблицу будет достаточно.

Будут ли последующие команды перезаписывать то, что уже находится в таблице? или добавит?


person CMaury    schedule 04.04.2011    source источник


Ответы (2)


Этот сайт http://wiki.apache.org/hadoop/Hive/LanguageManual является вашим друг, когда имеешь дело с Ульем. :)

Страница, посвященная загрузке данных в Hive, называется http://wiki.apache.org/hadoop/Hive/LanguageManual/DML На этой странице указано, что

если используется ключевое слово OVERWRITE, то содержимое целевой таблицы (или раздела) будет удалено и заменено файлами, на которые указывает путь к файлу. В противном случае файлы, на которые указывает путь к файлу, будут добавлены в таблицу. Обратите внимание: если в целевой таблице (или разделе) уже есть файл, имя которого совпадает с любым из имен файлов, содержащихся в пути к файлу, то существующий файл будет заменен новым файлом.

В вашем случае вы не используете ключевое слово OVERWRITE, поэтому файлы будут добавлены в таблицу. (Если это не одни и те же файлы, в этом случае они будут перезаписаны)

person QuinnG    schedule 05.04.2011
comment
Предполагая, что у меня есть ежедневно создаваемые файлы, например. 20130808.csv и необходимо повторно импортировать данные за этот день. Тогда все, что мне нужно сделать, это снова импортировать тот же файл с тем же именем файла 20130808.csv, и обновленная версия будет добавлена ​​в таблицу? Или мне нужно самому удалять строки каким-то запросом? - person webDEVILopers; 08.08.2013
comment
Просто чтобы обновить, если вы, ребята, снова и снова используете одну и ту же загрузку файла, которая будет снова и снова добавляться в таблицу, это не значит, что вы получите переопределение файла, вы собираетесь использовать то же самое для следующей загрузки. просто остерегайтесь этого. - person Indrajeet Gour; 13.12.2017

Если используется ключевое слово OVERWRITE, то содержимое целевой таблицы (или раздела) будет удалено и заменено файлами, на которые указывает путь к файлу; в противном случае файлы, на которые указывает путь к файлу, будут добавлены в таблицу.

person Haimei    schedule 15.07.2014