Очистка ваших любимых фотографий или видео с неприглядной грудой мусора, припаркованной машины или даже бывшего партнера никогда не была такой простой благодаря быстрому развитию моделей искусственного интеллекта, предназначенных для таких задач.

В поисках лучшего визуального синтеза и подходов к рисованию исследователи из Adobe Research и Стэнфордского университета предложили внутреннее обучение для метода рисования видео, вдохновленное методом Deep Image Prior (DIP) для создания одного изображения.

DIP - это тип сверточной нейронной сети (CNN) для обеспечения правдоподобной текстуры в статических изображениях и широко используется для улучшения изображений путем решения таких проблем, как уменьшение шума, сверхвысокое разрешение и рисование. Новый подход к рисованию, вдохновленный DIP, генерирует контент для недостающих областей визуальной информации (дыр), а также увеличивает информацию о движении (оптическом потоке).

Поскольку обычно не существует уникального решения для естественной замены удаленных или иным образом отсутствующих частей видео, цель рисования видео - восстановить потерянную или поврежденную визуальную информацию согласованным образом как в пространстве, так и во времени. Предыдущие методы в основном создавались вручную и основывались на патчах и часто не могли в достаточной степени захватить естественные предварительные изображения изображения, что приводило к искажениям, особенно в видеороликах со сложными движениями.

Хотя изучение априорных значений изображения из внешнего корпуса изображений через глубокую нейронную сеть может улучшить производительность рисования изображений, расширение нейронных сетей на рисование видео остается сложной задачей, потому что галлюцинированный контент в видеороликах должен быть согласован не только в собственном кадре, но и во всех соседних кадрах. . Кроме того, размеры видео обычно намного больше, чем размеры изображений, что затрудняет обучение одной модели для изучения всех эффективных априорных значений и обобщения их на все видео.

Вот тогда и пригодится DIP. В рамках DIP статистика изображений захватывается генератором сверточных изображений, а не ранее изученными возможностями, поэтому «знание» естественных изображений может быть закодировано с помощью архитектуры CNN. Это позволяет DIP учиться на внутреннем повторении визуальных паттернов в изображениях.

Поскольку для DIP не требуются предварительные данные для обучения, кроме самого изображения, алгоритм рисования видео, основанный на DIP, может быть полностью основан на внутреннем (внутри видео) обучении без каких-либо внешних визуальных данных, что упрощает обучение единого размера. все модели.

Окончательная модель DIP-Vid-Flow превзошла DIP, который напрямую применяет структуру DIP от изображений к видео, покадрово; DIP-Vid, фреймворк, обученный только с использованием потери генерации изображений; и DIP-Vid-3DCN, модифицированная сеть, использующая структуру DIP как в двухмерной, так и в трехмерной свертке и с примененными потерями при генерации изображения.

Исследователи отмечают, что недостатком их метода, как и других систем визуального синтеза, является длительное время обработки. Однако они уверены, что новый подход привлечет больше внимания исследователей к «интересному направлению внутреннего обучения» в рисовании видео.

Статья Подход внутреннего обучения к рисованию видео посвящена arXiv.

Журналист: Юань Юань | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.