Spark: недостаточно места для кэширования красного цвета в контейнере, но все еще много общей памяти для хранения.

У меня есть кластер из 30 узлов, каждый узел имеет 32 ядра, 240 ГБ памяти (экземпляр AWS cr1.8xlarge). У меня есть следующие конфигурации:

--driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90 

В системе отслеживания заданий я вижу, что у меня все еще много общего объема памяти для хранения, но в одном из контейнеров я получил следующее сообщение о том, что объем хранилища = 28,3 ГБ. Мне вот интересно, откуда эти 28,3 Гб? Моя memoryFraction для хранения 0,45

И как решить эту проблему Недостаточно места для кэширования rdd? Должен ли я сделать больше разделов или изменить параллелизм по умолчанию ... так как у меня все еще много неиспользуемой общей памяти. Спасибо!

15/12/05 22:39:36 WARN storage.MemoryStore: Not enough space to cache rdd_31_310 in memory! (computed 1326.6 MB so far)
15/12/05 22:39:36 INFO storage.MemoryStore: Memory use = 9.6 GB (blocks) + 18.1 GB (scratch space shared across 4 tasks(s)) = 27.7 GB. Storage limit = 28.3 GB.
15/12/05 22:39:36 WARN storage.MemoryStore: Not enough space to cache rdd_31_136 in memory! (computed 1835.8 MB so far)
15/12/05 22:39:36 INFO storage.MemoryStore: Memory use = 9.6 GB (blocks) + 18.1 GB (scratch space shared across 5 tasks(s)) = 27.7 GB. Storage limit = 28.3 GB.
15/12/05 22:39:36 INFO executor.Executor: Finished task 136.0 in stage 12.0 (TID 85168). 1272 bytes result sent to driver

person Edamame    schedule 06.12.2015    source источник
comment
Только часть из 70 ГБ памяти может использоваться для хранения RDD. См. stackoverflow.com/questions/ 26562033/   -  person Glennie Helles Sindholt    schedule 06.12.2015
comment
Спасибо! Так искра поставит задачу другому исполнителю, если у текущего исполнителя недостаточно памяти? Или просто не получится?   -  person Edamame    schedule 06.12.2015
comment
Что ж, поскольку ни у одного из ваших исполнителей не будет более ~ 28 ГБ памяти, и по крайней мере для одной из задач требуется больше, я предполагаю, что ваша работа в конечном итоге завершится неудачно или, возможно, будет повторяться вечно. Я предлагаю вам попытаться переразбить ваш rdd на несколько разделов, чтобы задание успешно завершилось.   -  person Glennie Helles Sindholt    schedule 06.12.2015
comment
Поможет ли мне сделать: MEMORY_AND_DISK_SER_2 вместо всех воспоминаний? Спасибо!   -  person Edamame    schedule 06.12.2015
comment
Да, это поможет.   -  person Glennie Helles Sindholt    schedule 07.12.2015