При записи файла метаданных ThriftParquetWriter фактически создает два файла: _metadata и _common_metadata.
В чем разница между этими двумя файлами? У них другой размер файла, поэтому должна быть разница
Спасибо
При записи файла метаданных ThriftParquetWriter фактически создает два файла: _metadata и _common_metadata.
В чем разница между этими двумя файлами? У них другой размер файла, поэтому должна быть разница
Спасибо
При просмотре исходного кода на https://github.com/apache/parquet-mr/blob/master/parquet-hadoop/src/main/java/org/apache/parquet/hadoop/ParquetFileWriter.java мне кажется, что:
_common_metadata
содержит объединенные схемы для файлов паркета в этом каталоге
_metadata
будет содержать только схему последнего записанного файла паркета в этом каталоге.
Похоже, что это не так. Я вижу _common_metadata только в иерархических наборах (где есть столбцы, закодированные как имена каталогов). _Common_metadata содержит схему для всей таблицы, включая эти иерархические столбцы, а _metadata содержит схему, используемую для файлов частей (без иерархических столбцов), а также включает статистику столбцов для каждого файла (минимальное, максимальное и т. Д.) Для всех файлов, с их полными относительными именами пути.