В моей базе данных у меня есть несколько таблиц, каждая из которых представляет собой отдельный тип объекта. У меня есть схема Avro, которую я использую в Hadoop, которая представляет собой объединение всех полей этих разных типов сущностей, а также имеет поле типа сущности.
Что я хотел бы сделать, так это настроить DBInputFormat с DBWritable для каждого типа сущности, который сопоставляет тип сущности с комбинированным типом Avro. Затем дайте каждому DBInputFormat что-то вроде MultipleInputs, чтобы я мог создать составной формат ввода. Затем составной формат ввода можно было бы передать моему заданию по уменьшению карты, чтобы все данные из всех таблиц могли обрабатываться одновременно одним и тем же классом картографа.
Данные постоянно добавляются в эти таблицы базы данных, поэтому мне нужно настроить DBInputFormat для каждого типа объекта/таблицы базы данных, чтобы получать только новые данные и правильно выполнять разделение.
В основном мне нужна функциональность DBInputFormat или DataDrivenDBInputFormat, а также возможность сделать их составными, подобными тому, что вы можете сделать с путями и MultipleInputs.