Запросы Hive, создающие неуправляемые промежуточные каталоги

Мы используем дистрибутив HDP Hadoop v2.3.2, мы имеем дело с внешними таблицами Hive, и они ежедневно запрашиваются.

Через несколько дней после запуска процесса каталоги данных содержат множество промежуточных каталогов в формате: .hive-staging_hive_date-time_ Создано много промежуточных каталогов, каждый промежуточный каталог соответствует запросу, запущенному в Hive. стол.

Что я могу сделать, чтобы избежать накопления этих промежуточных каталогов в моих каталогах данных?


person Anup    schedule 03.02.2016    source источник


Ответы (1)


Ответ, который я разместил на https://stackoverflow.com/a/35583367/14186, может помочь вам здесь. Вы можете настроить Hive, чтобы сделать эти промежуточные каталоги в другом месте (обычно они создаются как подкаталог конечного каталога назначения)

В примере из этого ответа я поместил их в каталоги под /tmp, и у нас есть задание cron, которое мы запускаем каждый день, чтобы удалить все оставшиеся промежуточные каталоги старше 1 недели, чтобы поддерживать порядок на случай, если улей не удалить их.

person Hercynium    schedule 23.02.2016