Я новичок в Hadoop, и моя текущая сложность программы ограничена сложностью количества слов. Я пытаюсь понять фундаментальную архитектуру Hadoop, чтобы лучше разрабатывать свои решения.
Один из важных вопросов, который у меня возникает, заключается в том, как Hadoop обрабатывает большие пары значений ключа на границах блоков? Предположим, у меня есть пара ключ-значение размером 10 МБ (например, если значение представляет собой целый файл размером 10 МБ), и предположим, что я использую файл последовательности. Как Hadoop справляется с этим на границах своих блоков? Разделяет ли он разделение на две части и сохраняет его в двух разных блоках, или он понимает, что пара ключ-значение очень велика, и, следовательно, вместо разделения он просто создает новый блок для всей пары ключ-значение?