Актуальные обновления (SOTA) за 21–27 ноября 2022 г.

В этомеженедельном информационном бюллетене рассказывается о работе исследователей, которые создали ультрасовременную работу, побив существующие рекорды по контрольным показателям. Они также

  • написал свою статью
  • выпустили свой код
  • выпущенные модели в большинстве случаев
  • выпущенные ноутбуки/приложения в нескольких случаях

Почти половина выпущенных лицензий на исходный код разрешает коммерческое использование только при условии указания авторства. Компании, использующие ML, частично обязаны своим существованием работе этих исследователей. Пожалуйста, подумайте о поддержке открытых исследований, отмечая/спонсируя их на Github.

Новые рекорды были установлены по следующим задачам

  • Обнаружение объектов
  • Создание изображения
  • Гармонизация изображения(отрегулируйте передний план, чтобы сделать его совместимым с фоном)
  • Кроссмодальный поиск
  • Обнаружение заметных объектов (обновление)
  • Небольшая семантическая сегментация
  • Создание видео
  • Сегментация неконтролируемого видеообъекта

Этот еженедельник представляет собой сводку ежедневных сообщений в Твиттере, отслеживающих исследователей SOTA. Ежедневные обновления SOTA также публикуются на @[email protected]альтернативе твиттера от сообщества ИИ и для него

На сегодняшний день код 27,6%(92 202) от общего числа опубликованных статей (334 005) опубликован вместе с документами (источник).

Сведения о SOTA ниже представляют собой снимки моделей SOTA на момент публикации этого информационного бюллетеня. Сведения о SOTA в ссылке, приведенной под снимками, скорее всего, будут отличаться от снимка с течением времени по мере появления новых моделей SOTA.

№1 в обнаружении объектов в наборе данных LVIS

Название модели: InternImage-H (предобучение M3I)

Примечания. В этом документе предлагается общая мультимодальная формула взаимной информации в качестве единой цели оптимизации и демонстрируется, что все существующие подходы к предварительному обучению являются частными случаями нашей структуры. Они предварительно обучают магистраль изображения с параметрами из миллиарда уровней и обеспечивают высочайшую производительность в различных тестах.

Демонстрационная страница: пока нет

Лицензия: на сегодняшний день нет

№1 в области создания изображений в наборе данных Places50

Название модели: SinDiffusion

Примечания. В этом документе предлагается SinDiffusion, модель, использующая модели диффузии с шумоподавлением для захвата внутреннего распределения пятен из одного естественного изображения. SinDiffusion улучшает качество и разнообразие сгенерированных образцов по сравнению с существующими подходами на основе GAN. Он основан на двух подходах к проектированию. Во-первых, SinDiffusion обучается с одной моделью в одном масштабе, а не с несколькими моделями с постепенным увеличением масштабов, что служило настройкой по умолчанию в предыдущей работе. Это позволяет избежать накопления ошибок, вызывающих характерные артефакты в генерируемых результатах. Во-вторых, мы определяем, что рецептивное поле диффузионной сети на уровне патчей имеет решающее значение и эффективно для сбора статистики патчей изображения, поэтому мы перепроектируем сетевую структуру диффузионной модели. Сочетание этих двух дизайнов позволяет нам создавать фотореалистичные и разнообразные изображения из одного изображения. Кроме того, SinDiffusion может применяться к различным приложениям, например, к созданию изображений с текстовым управлением и перекрашиванию изображений, благодаря присущим моделям распространения.

Демонстрационная страница: пока нет

Лицензия: Лицензия Apache-2.0

№1 по гармонизации изображений в наборе данных iHarmony4

Название модели: HDNet

Примечания. Текущие модели гармонизации изображений игнорируют локальную согласованность, а размер их модели ограничивает их способность к гармонизации на периферийных устройствах. В этой статье предлагается иерархическая динамическая сеть (HDNet) для эффективной гармонизации изображений для адаптации параметров и функций модели из локального в глобальное представление для лучшего преобразования функций. В частности, применяются локальная динамика (LD) и глобальная динамика с учетом маски (MGD). LD позволяет адаптивно изменять характеристики различных каналов и позиций и улучшать способность представления геометрического преобразования посредством изучения структурной информации. MGD изучает представления областей переднего и заднего плана и корреляции с глобальной гармонизацией.

Демонстрационная страница: пока нет

Лицензия: лицензия MIT

№1 в кросс-модальном поиске по нескольким наборам данных

Название модели: X2-VLM

Примечания. В этом документе предлагается комплексное предварительное обучение языку видения, унифицированный подход, который позволяет изучать выравнивание языка видения с множественной степенью детализации. В этой статье предложенный метод усовершенствован за счет объединения кодирования изображений и видео в одной модели и масштабирования модели с использованием крупномасштабных данных.

Демонстрационная страница: пока нет

Лицензия: на сегодняшний день нет

№1 в обнаружении существенных объектов в 8 наборах данных (обновление)

Название модели: InSPyReNet (обновление) Об этой модели сообщалось в TWC #9. Это обновление сообщает о дополнительном репозитории, сделанном автором и демонстрирующем дополнительный вариант использования.

Примечания. В этом документе предлагается модель обнаружения существенных объектов (SOD) для прогнозирования изображения с высоким разрешением (HR) без какого-либо набора данных HR. Их модель разработана как пирамидальная структура изображения карты заметности, которая позволяет объединять несколько результатов с смешиванием изображений на основе пирамиды. Для прогнозирования ЧСС они разработали метод смешивания пирамид, который синтезирует две разные пирамиды изображений из пары шкал LR и HR из одного и того же изображения, чтобы преодолеть несоответствие эффективного рецептивного поля (ERF).

Ссылки на демонстрационные страницы.

В новом репозитории демонстрируется утилита той же модели, о которой сообщалось ранее, — для наложения заметного объекта на второе входное изображение путем создания прозрачного фона заметного объекта.

Для выпуска исходной модели был создан блокнот, чтобы воспроизвести вывод на ЦП с использованием одной из их предварительно обученных моделей. Образцы показаны ниже. Время существенного обнаружения составляет ~ 3 секунды на ЦП для изображений. Для 6-секундного видео с высоким разрешением (1920 x 2080) процессору потребовалось 53 минуты.

0:00/0:051×Это 6-секундное видео с высоким разрешением 1920 × 1080. Модель выполнила обнаружение заметных объектов (показано ниже) на ЦП за 53 минуты. Видео с Pexels

Мы также выпустили приложение, построенное на основе модели SOTA InSPyReNet, которую мы рассмотрели в TWC #9. Приложение также размещено на HuggingFace. Это приложение предназначено для удаления фона с изображения. Пользователь может загрузить любое изображение и удалить фон с помощью современной модели. Это может быть удобным инструментом для удаления фона на фотографиях, которые мы делаем на телефон.

Лицензия: лицензия MIT

Первое место в семантической сегментации с небольшим количеством снимков для 2 наборов данных

Название модели: FPTrans

Примечания. Сегментация по нескольким кадрам (FSS) предназначена для выполнения семантической сегментации новых классов с учетом нескольких аннотированных вспомогательных образцов. Текущая структура FSS сильно отклонилась от структуры контролируемой сегментации: учитывая глубокие функции, методы FSS обычно используют сложный декодер для выполнения сложного попиксельного сопоставления, в то время как методы контролируемой сегментации используют простую головку линейной классификации. Из-за сложности декодера и его конвейера согласования следовать такой структуре FSS непросто. В этой статье возрождается простая структура «извлекатель признаков + заголовок линейной классификации» и предлагается новый метод преобразования признаков-прокси (FPTrans), в котором «прокси» — это вектор, представляющий семантический класс в заголовке линейной классификации. FPTrans имеет две ключевые точки для изучения отличительных признаков и репрезентативных прокси: 1) Чтобы лучше использовать ограниченные образцы поддержки, экстрактор признаков заставляет запрос взаимодействовать с функциями поддержки от нижнего до верхнего уровня, используя новую стратегию подсказок. 2) FPTrans использует несколько локальных фоновых прокси (вместо одного), потому что фон не является однородным и может содержать некоторые новые области переднего плана. Эти две ключевые точки могут быть интегрированы в магистраль преобразователя зрения с механизмом подсказок в преобразователе. Учитывая изученные функции и прокси, FPTrans напрямую сравнивает их косинусное сходство для сегментации.

Демонстрационная страница: пока нет

Лицензия: на сегодняшний день нет

№1 в создании видео по 2 наборам данных

Название модели: MoCoGAN-HD

Примечания. Синтез фотореалистичного видео остается сложной задачей, несмотря на все внимание, которое в последнее время привлекает контент, созданный искусственным интеллектом. Хотя в этой области было предпринято много попыток использования GAN и авторегрессионных моделей, визуальное качество и продолжительность сгенерированных видео далеки от удовлетворительных. Диффузионные модели (DM) представляют собой еще один класс глубоких генеративных моделей, и недавно они добились замечательных результатов в различных задачах синтеза изображений. Однако обучение моделей распространения изображений обычно требует значительных вычислительных ресурсов для достижения высокой производительности, что делает расширение моделей распространения до задач синтеза видео высокой размерности более дорогостоящим в вычислительном отношении. Чтобы облегчить эту проблему, используя ее преимущества, в этой статье представлены облегченные модели распространения видео, которые синтезируют высококачественные видео произвольной длины из чистого шума. В частности, они предлагают выполнять диффузию и шумоподавление в низкоразмерном скрытом трехмерном пространстве, что значительно превосходит предыдущие методы в пространстве трехмерных пикселей при ограниченном вычислительном бюджете. Кроме того, несмотря на обучение на десятках кадров, наши модели могут генерировать видео произвольной длины, то есть тысячи кадров, авторегрессивным способом. Наконец, дополнительно вводится условное скрытое возмущение, чтобы уменьшить ухудшение производительности при синтезе длинных видео.

Демонстрационная страница: на странице проекта созданы примеры видео.

Лицензия: лицензия MIT

№1 в сегментации неконтролируемых видеообъектов в 2 наборах данных

Название модели: ДАННЫЕ

Примечания. Сегментация видеообъектов без присмотра направлена ​​на обнаружение и сегментацию наиболее заметного объекта в видео. В последнее время двухпотоковые подходы, которые совместно используют реплики внешнего вида и реплики движения, привлекли большое внимание благодаря их мощной производительности. Однако у этих методов есть два ограничения: 1) не учитывается разрыв в предметной области между информацией о внешнем виде и движении; и 2) долговременная временная когерентность в видеопоследовательности не используется. Чтобы преодолеть эти ограничения, в этой статье предлагается модуль выравнивания домена (DAM) и модуль временной агрегации (TAM). DAM устраняет разрыв домена между двумя модальностями, заставляя значения находиться в одном диапазоне с помощью механизма взаимной корреляции. TAM фиксирует долгосрочную согласованность, извлекая и используя глобальные сигналы видео.

Демонстрационная страница:Нет на сегодняшний день

Лицензия:Нет на сегодняшний день