Невозможно сохранить модель, используя model.save после multi_gpu_model в Keras

После обновления до Keras 2.0.9 я использовал утилиту multi_gpu_model, но не могу сохранить свои модели или лучшие веса, используя

model.save('path')

Ошибка, которую я получаю,

TypeError: не удается замариновать объекты модуля

Я подозреваю, что есть проблема с доступом к объекту модели. Есть ли решение этой проблемы?


person GhostRider    schedule 09.11.2017    source источник


Ответы (3)


Честно говоря, самый простой подход к этому — фактически изучить параллельную модель с несколькими GPU, используя

 parallel_model.summary()

(Параллельная модель — это просто модель после применения функции multi_gpu). Это четко выделяет фактическую модель (я думаю, это предпоследний слой - я сейчас не за своим компьютером). Затем вы можете использовать имя этого слоя для сохранения модели.

 model = parallel_model.get_layer('sequential_1)

Часто его называют последовательным_1, но если вы используете опубликованную архитектуру, это может быть «googlenet» или «alexnet». Вы увидите имя слоя из сводки.

Тогда просто сохранить

 model.save()

Подход Maxims работает, но я думаю, что это перебор.

Рем: вам нужно будет скомпилировать и модель, и параллельную модель.

person GhostRider    schedule 25.01.2018
comment
Также обратите внимание, что для того, чтобы получить вывод промежуточных слоев из вашей модели, вы должны сначала развернуть модель, как объяснил GhostRider, а затем получить доступ к слоям. model.get_layer('last_dense_layer').output напр. - person Alexander; 22.01.2019

Обходной путь

Вот исправленная версия, которая не дает сбоев при сохранении:

from keras.layers import Lambda, concatenate
from keras import Model
import tensorflow as tf

def multi_gpu_model(model, gpus):
  if isinstance(gpus, (list, tuple)):
    num_gpus = len(gpus)
    target_gpu_ids = gpus
  else:
    num_gpus = gpus
    target_gpu_ids = range(num_gpus)

  def get_slice(data, i, parts):
    shape = tf.shape(data)
    batch_size = shape[:1]
    input_shape = shape[1:]
    step = batch_size // parts
    if i == num_gpus - 1:
      size = batch_size - step * i
    else:
      size = step
    size = tf.concat([size, input_shape], axis=0)
    stride = tf.concat([step, input_shape * 0], axis=0)
    start = stride * i
    return tf.slice(data, start, size)

  all_outputs = []
  for i in range(len(model.outputs)):
    all_outputs.append([])

  # Place a copy of the model on each GPU,
  # each getting a slice of the inputs.
  for i, gpu_id in enumerate(target_gpu_ids):
    with tf.device('/gpu:%d' % gpu_id):
      with tf.name_scope('replica_%d' % gpu_id):
        inputs = []
        # Retrieve a slice of the input.
        for x in model.inputs:
          input_shape = tuple(x.get_shape().as_list())[1:]
          slice_i = Lambda(get_slice,
                           output_shape=input_shape,
                           arguments={'i': i,
                                      'parts': num_gpus})(x)
          inputs.append(slice_i)

        # Apply model on slice
        # (creating a model replica on the target device).
        outputs = model(inputs)
        if not isinstance(outputs, list):
          outputs = [outputs]

        # Save the outputs for merging back together later.
        for o in range(len(outputs)):
          all_outputs[o].append(outputs[o])

  # Merge outputs on CPU.
  with tf.device('/cpu:0'):
    merged = []
    for name, outputs in zip(model.output_names, all_outputs):
      merged.append(concatenate(outputs,
                                axis=0, name=name))
    return Model(model.inputs, merged)

Вы можете использовать эту функцию multi_gpu_model, пока ошибка не будет исправлена ​​в keras. Кроме того, при загрузке модели важно предоставить объект модуля тензорного потока:

model = load_model('multi_gpu_model.h5', {'tf': tf})

Как это устроено

Проблема в строке import tensorflow в середине multi_gpu_model:

def multi_gpu_model(model, gpus):
  ...
  import tensorflow as tf
  ...

Это создает замыкание для лямбда-функции get_slice, которая включает в себя количество GPU (все в порядке) и модуль тензорного потока (не в порядке). Сохранение модели пытается сериализовать все слои, включая те, которые вызывают get_slice, и терпит неудачу именно потому, что tf находится в замыкании.

Решение состоит в том, чтобы переместить импорт из multi_gpu_model, чтобы tf стал глобальным объектом, хотя он по-прежнему необходим для работы get_slice. Это устраняет проблему сохранения, но при загрузке необходимо указать tf явно.

person Maxim    schedule 02.01.2018
comment
Спасибо @Maxim за патч. Я хочу знать, будет ли это работать, если я укажу multi_gpu_model(model, 1). - person amaresh hiremani; 28.03.2019

Это то, что нужно немного обойти, загрузив вес multi_gpu_model в обычный вес модели. например

#1, instantiate your base model on a cpu
with tf.device("/cpu:0"):
    model = create_model()

#2, put your model to multiple gpus, say 2
multi_model = multi_gpu_model(model, 2)

#3, compile both models
model.compile(loss=your_loss, optimizer=your_optimizer(lr))
multi_model.compile(loss=your_loss, optimizer=your_optimizer(lr))

#4, train the multi gpu model
# multi_model.fit() or multi_model.fit_generator()

#5, save weights
model.set_weights(multi_model.get_weights())
model.save(filepath=filepath)

`

ссылка: https://github.com/fchollet/keras/issues/8123

person Badger Titan    schedule 10.11.2017
comment
Сожалею об этом... не могли бы вы поделиться новыми ошибками, которые вы получили, или кодом, который вы используете? - person Badger Titan; 21.11.2017