1. SurgMAE: Маскированные автоэнкодеры для анализа длинных хирургических видео (arXiv)

Автор: Мухаммад Абдулла Джамал, Омид Мохарери.

Аннотация: Растет интерес к использованию моделей глубокого обучения для обработки длинных хирургических видеороликов, чтобы автоматически обнаруживать клинические/операционные действия и извлекать метрики, которые могут включать инструменты и приложения для повышения эффективности рабочего процесса. Однако для обучения таких моделей требуются огромные объемы размеченных данных, что является дорогостоящим и не масштабируемым. Недавно в сообществе компьютерного зрения было изучено обучение с самостоятельным наблюдением, чтобы уменьшить бремя стоимости аннотаций. Маскированные автоэнкодеры (MAE) привлекли внимание в парадигме самоконтроля для преобразователей изображения (ViT), предсказывая случайно замаскированные области с учетом видимых фрагментов изображения или видеоклипа, и показали превосходную производительность на наборах данных эталонных тестов. Однако применение МАЭ в хирургических данных остается неизученным. В этой статье мы сначала исследуем, может ли MAE изучать передаваемые представления в области хирургического видео. Мы предлагаем SurgMAE, новую архитектуру со стратегией маскирования, основанную на выборке высокоточных пространственно-временных токенов для MAE. Мы проводим эмпирическое исследование SurgMAE на двух крупномасштабных длинных наборах хирургических видеоданных и обнаруживаем, что наш метод превосходит несколько базовых показателей в режиме с низким объемом данных. Мы проводим обширные исследования абляции, чтобы показать эффективность нашего подхода, а также продемонстрировать его превосходную производительность на UCF-101, чтобы доказать его обобщаемость и в нехирургических наборах данных.

2. Расширение возможностей автоэнкодеров с маскировкой звука для восстановления звука (arXiv)

Автор: Чжи Чжун, Хао Ши, Масато Хирано, Казуки Симада, Казуя Татейши, Такаси Сибуя, Сюсукэ Такахаши, Юки Мицуфудзи.

Аннотация: Классификация и восстановление звука являются одними из основных последующих задач обработки аудиосигнала. Однако восстановление дает меньше преимуществ от предварительно обученных моделей по сравнению с подавляющим успехом предварительно обученных моделей в задачах классификации. Из-за таких несбалансированных преимуществ растет интерес к тому, как улучшить производительность предварительно обученных моделей для задач восстановления, таких как улучшение речи (SE). Предыдущие работы показали, что функции, извлекаемые предварительно обученными аудиокодировщиками, эффективны для задач SE, но эти модели, предназначенные только для кодировщиков речи, обычно требуют дополнительных декодеров, чтобы стать совместимыми с задачами SE, и включают сложные процедуры предварительной подготовки или сложное дополнение данных. Таким образом, в погоне за универсальной звуковой моделью автокодировщик аудио с маской (MAE), основой которого является автоэнкодер преобразователей зрения (ViT-AE), в этой статье расширен от классификации аудио до задач восстановления. ViT-AE естественным образом изучает сопоставление мел-к-мелу, которое совместимо с задачами восстановления во время предварительной тренировки. Среди многих задач по восстановлению SE выбран благодаря хорошо зарекомендовавшим себя метрикам оценки и тестовым данным. Мы предлагаем варианты ViT-AE для улучшения производительности SE, где вариации от мель к мель дают высокие баллы для неинтрузивных метрик, а вариант, ориентированный на STFT, эффективен для стандартных интрузивных метрик, таких как PESQ. В соответствии со сценариями могут использоваться различные вариации. Всесторонние оценки и исследования абляции показывают, что предварительное обучение MAE также полезно для задач SE и помогает ViT-AE лучше обобщать искажения вне области. Далее мы обнаружили, что крупномасштабные зашумленные данные общих источников звука, а не чистая речь, достаточно эффективны для предварительной подготовки.