Когда сочетаются традиционное компьютерное зрение и глубокое обучение.

Обесцвечивание изображения

Цель улучшения видимости цифровых изображений, снятых с естественных сцен, стала чрезвычайно необходимой во многих реальных приложениях, поэтому демутирование изображения (или удаление дымки) стало важной задачей в компьютерном зрении и обработке изображений несколько десятилетий назад.

Если вы хотите знать, насколько актуальна эта тема, я хотел бы сообщить вам, что Кайминг Хе, изобретатель различных классических теорий глубокого обучения, таких как остаточные сети, более быстрая R-CNN, объединение пространственных пирамид, сети функциональных пирамид и т. д. ., изучал эту тему во время работы над докторской диссертацией. исследовал и предложил приорный темный канал (DCP) в своей диссертации и в IEEE Transactions on Pattern Analysis and Machine Intelligence.

Существует две парадигмы алгоритмов удаления дымки: традиционные подходы и подходы, основанные на глубоком обучении. Многие традиционные подходы применяют созданные вручную графические модели с использованием чистых методов компьютерного зрения для удаления дымки (например, DCP), в то время как методы, основанные на глубоком обучении, используют сверточные нейронные сети (CNN) для решения проблем удаления дымки. Тем не менее, эти методы все еще имеют свои недостатки, и всегда есть возможности для улучшения.

В этом посте рассматривается сеть кодировщика-декодера с управляемой картой передачи (EDN-GTM) для эффективного устранения дымки на одном изображении. EDN-GTM — это новая схема, которая использует возможности как традиционных методов компьютерного зрения, так и современных алгоритмов глубокого обучения для устранения дымки на изображениях. В частности, карта передачи, рассчитанная путем принятия предварительного темного канала, используется в качестве руководства для модели CNN для выполнения удаления дымки. Полный текст статьи можно найти на arXiv (препринт) или Procedia Computer Science 204 (опубликованная статья).

Карта передачи как руководство для CNN

DCP был предложен на основе статистики уличных изображений без дымки, следовательно, он менее эффективен для сцен в помещении и может быть недействительным, когда туманное изображение содержит большие области, похожие на воздушный свет. Пример можно увидеть на приведенном выше рисунке, когда DCP пытается устранить дымку в областях настенных сцен, которые выглядят как воздушный свет и дымка, тем самым предлагая более темные выходные изображения по сравнению с изображениями наземной реальности.

Однако при переосмыслении перевернутых карт передачи, созданных DCP, их можно рассматривать как карту внимания, где более яркие области указывают на области плотной дымки, а более темные области указывают на менее туманные области (за исключением областей стены сцены). Теперь проблема в том, как найти области стены сцены?

О, CNN только что подняли руки! Обладая способностью извлекать и анализировать особенности изображения, CNN могут быть потенциальными кандидатами.

С этими вескими доказательствами карта передачи, полученная с помощью DCP, и модель CNN могут быть объединены для создания эффективной системы удаления дымки. Карта передач «подсказывает» CNN, на чем следует сосредоточиться. Из этих областей предложения CNN может узнать, на какие области следует обратить больше внимания с помощью обучения с учителем (например, области сцены на стене не сильно отличаются на входных и выходных изображениях, но туманные области различаются).

Сетевые архитектуры

На рисунке выше показана схема схемы EDN-GTM и сетевых архитектур Генератора и Дискриминатора.

Проект генератора (ЭДН-ГТМ)

U-Net, известная как одна из самых популярных и мощных сетей в области семантической сегментации и восстановления изображений, выбрана в качестве базовой сети схемы EDN-GTM. Чтобы получить проект архитектуры EDN-GTM, авторы дополнительно добавляют в сеть следующие основные модификации:

  1. Входной канал: карта передачи имеет тесную связь с информацией о глубине изображения и играет значительную роль в схеме устранения дымки, затем используется как дополнительный канал сетевого ввода (наряду с обычным RGB-изображением).
  2. Узкое место: модуль Spatial Pyramid Pooling (SPP) с возможностью выделения наиболее важных функций с помощью набора операций объединения с ядром разного размера подключается к узкому месту базовой сети (аналогично тому, как он используется в шейка детектора объектов YOLOv4).
  3. Активация: ReLU постепенно устаревает в последних моделях CNN, поэтому ReLU заменяется функцией Swish, которая, как было показано, постоянно превосходит ReLU в современных глубоких сетях.
  4. Восприимчивое поле: восприимчивое поле сети удаления дымки должно быть достаточно большим из-за разбросанного распределения дымки (или тумана) в туманном изображении, поэтому к каждому этапу свертки базовой сети добавляется еще один сверточный слой 3x3.

Дизайн дискриминатора

В качестве архитектуры дискриминатора в схеме выбрана кодирующая часть U-Net. Этот выбор конструкции дискриминатора может помочь двум сетям (генератору и дискриминатору) иметь конкурентоспособную способность извлекать и анализировать особенности входного изображения, таким образом, две сети могут «бороться» друг с другом, чтобы получить свои характеристики.

Функции потерь

EDN-GTM применяет интегральную функцию потерь, которая представляет собой взвешенную сумму состязательных потерь, потерь MSE и потерь восприятия.

Состязательная потеря

где B — размер пакета, z — размытое изображение, G — генератор, а D — дискриминатор.

Потеря MSE

где N — количество пикселей во входном (выходном) изображении, I — чистое изображение.

Потеря восприятия

где M — количество элементов в карте признаков Φ слоя Conv3_3 предварительно обученной модели VGG16.

Интегральная потеря

Интегральные потери представляют собой взвешенную сумму всех связанных функций потерь, упомянутых выше.

Результаты по тестам

Представлены экспериментальные результаты по четырем эталонным наборам данных задачи устранения дымки, включая I-HAZE, O-HAZE, Dense-HAZE и NH-HAZE. На следующих рисунках показаны типичные характеристики визуального удаления дымки при использовании различных методов. Было показано, что EDN-GTM неизменно превосходит другие современные подходы к удалению дымки с точки зрения видимости.

В приведенных ниже таблицах указаны количественные результаты EDN-GTM и других последних методов удаления дымки (красные и синие числа обозначают лучшие и вторые лучшие характеристики соответственно).

Приложение для обнаружения объектов

EDN-GTM применяется как инструмент предварительной обработки в задаче обнаружения объектов. Сравниваются характеристики обнаружения на размытых и расплывчатых изображениях. Набор данных, используемый в эксперименте, — это набор данных WAYMO. Набор данных WAYMO не предоставляет данных туманных изображений, поэтому туманные изображения синтезируются с применением метода, описанного в этом посте.

Выводы

В этом посте я кратко рассмотрел EDN-GTM, новую схему удаления дымки с одного изображения. EDN-GTM использует преимущества как чистого компьютерного зрения, так и подходов глубокого обучения, чтобы сформировать единую сеть для ультрасовременной производительности удаления тумана. EDN-GTM использует U-Net в качестве базовой сети и применяет к сети различные модификации для достижения наилучших показателей удаления тумана. Эффективность EDN-GTM была подтверждена наборами эталонных данных по удалению дымки. Полный текст статьи можно найти на arXiv (препринт) или Procedia Computer Science 204 (опубликованная статья).

Читатели могут посетить мою фан-страницу в Facebook, чтобы поделиться информацией о машинном обучении: Погружение в машинное обучение. Другие важные посты от меня также можно найти здесь:

Спасибо за потраченное время!