Еженедельный обзор arXiv #12

Приветствую, Среднее сообщество,

В этом выпуске представлены публикации, опубликованные на arXiv с 10 по 16 июня, и представлены идеи и анализ наиболее значимых исследований и тенденций.

Давайте погрузимся!

Использование моделей большого языка для понимания изображений на основе масштабируемой векторной графики

Преодоление разрыва между текстом и визуальными модальностями.

В последнее время большие языковые модели (LLM) добились значительных успехов в понимании и генерации естественного языка. Однако их потенциал в компьютерном зрении остается в значительной степени неисследованным. В этой статье мы представляем новый исследовательский подход, который позволяет LLM обрабатывать изображения с использованием формата масштабируемой векторной графики (SVG). Используя текстовые описания представлений SVG на основе XML вместо растровых изображений, мы стремимся преодолеть разрыв между визуальными и текстовыми модальностями, позволяя LLM напрямую понимать и манипулировать изображениями без необходимости использования параметризованных визуальных компонентов.

TrajectoryFormer: преобразователь трехмерного отслеживания объектов с прогнозными гипотезами траектории

Повышение надежности систем слежения за несколькими объектами (MOT) за счет допуска кратковременных сбоев моделей обнаружения объектов.

С широко используемой парадигмой отслеживания путем обнаружения, 3D MOT добился значительного прогресса в последние годы. Однако эти методы используют только блоки обнаружения текущего кадра для получения результатов сопоставления блоков траектории, что делает невозможным для трекера восстановление объектов, пропущенных детектором. В этой статье мы представляем TrajectoryFormer, новую платформу 3D MOT на основе облака точек. Чтобы восстановить пропущенный объект с помощью детектора, мы генерируем несколько гипотез траектории с гибридными блоками-кандидатами, включая блоки с временным прогнозом и блоки обнаружения текущего кадра, для ассоциации траектория-блок. Предсказанные поля могут распространять информацию о траектории объекта в текущем кадре, и, таким образом, сеть может допускать кратковременное обнаружение промаха отслеживаемых объектов. Мы объединяем функцию долгосрочного движения объекта и функцию краткосрочного появления объекта, чтобы создать встраивание функций для каждой гипотезы, что снижает вычислительные затраты для пространственно-временного кодирования.

MovieFactory: автоматическое создание фильмов из текста с использованием больших генеративных моделей языка и изображений

Генерация видео и аудио из текстового описания.

В этой статье мы представляем MovieFactory, мощный фреймворк для создания кинематографических (3072×1280), кинематографических (многосценовых) и мультимодальных (звучащих) фильмов по требованию естественных языков. Насколько нам известно, это первая полностью автоматизированная модель создания фильмов. Наш подход позволяет пользователям создавать захватывающие фильмы с плавными переходами, используя простой ввод текста, превосходя существующие методы, которые создают беззвучные видеоролики, ограниченные одной сценой скромного качества. Чтобы упростить эту отличительную функцию, мы используем ChatGPT для преобразования предоставленного пользователем текста в подробные последовательные сценарии для создания фильмов. Затем мы оживляем сценарии визуально и акустически с помощью генерации изображений и извлечения звука.

DEYOv2: функция ранжирования с жадным сопоставлением для сквозного обнаружения объектов

Улучшение преобразователей для задач обнаружения объектов за счет улучшенного сопоставления прогнозов с наземной истиной.

В этой статье представлен новый детектор объектов под названием DEYOv2, улучшенная версия модели DEYO первого поколения (DETR с YOLO). DEYOv2, как и его предшественник, DEYOv2 использует прогрессивный подход к рассуждениям для ускорения обучения модели и повышения производительности. В исследовании рассматриваются ограничения однозначного сопоставления при оптимизации и предлагаются решения для эффективного решения этой проблемы, такие как функция ранжирования и жадное сопоставление. Такой подход позволяет третьему этапу DEYOv2 максимизировать сбор информации с первого и второго этапов без использования NMS, обеспечивая сквозную оптимизацию.

Больше читать

Исправить справедливость, не нарушая точность: восстановление справедливости с учетом производительности с помощью AutoML. Поиск большей точности и достоверности табличных данных с помощью AutoML;
Адаптивное контекстуальное восприятие: как обобщать новые фоны и неоднозначные объекты. Случайные манипуляции с фоном улучшают производительность модели;
Повышение справедливости и надежности сквозного распознавания речи посредством неконтролируемой кластеризации. Извлечение вложений на уровне высказывания с использованием модели идентификатора говорящего, обученной на общедоступном наборе данных, которая затем использовалась неконтролируемым образом для создания акустических кластеров для повышения надежности моделей распознавания речи;
Скрытые предубеждения сквозных моделей вождения. Выявлены два смещения, которые повторяются почти во всех современных методах и имеют решающее значение для наблюдаемого прогресса в CARLA: (1) боковое восстановление за счет сильного индуктивного смещения в сторону следования за целевой точкой и (2) продольное усреднение мультимодальной путевой точки. прогнозы на замедление.

Спасибо, что присоединились к нам на этой неделе в дайджесте компьютерных наук arXiv. Мы надеемся, что представленные здесь идеи и тенденции помогут вам понять последние разработки в области искусственного интеллекта.

Если у вас есть какие-либо отзывы или предложения, пожалуйста, свяжитесь с нами.

Хороших выходных и увидимся в следующую пятницу. Пока.