Новый подход DeepMind «Самостоятельное изучение представлений изображений»

Кембриджский словарь определяет бутстрап как улучшить вашу ситуацию или стать более успешным, без помощи других или без преимуществ, которые есть у других. В то время как сила алгоритма машинного обучения во многом зависит от качества данных, которые ему передаются, алгоритм, который может выполнять работу, необходимую для самосовершенствования, должен стать еще сильнее. Группа исследователей из DeepMind и Imperial College недавно решила доказать это в области компьютерного зрения.

В обновленном документе Bootstrap Your Own Latent - A New Approach to Self-Controlled Learning исследователи публикуют исходный код и контрольную точку для своего нового подхода BYOL к обучению самоконтролируемому представлению изображений. наряду с новыми теоретическими и экспериментальными данными.

В компьютерном зрении обучение правильному представлению изображений имеет решающее значение, поскольку оно позволяет эффективно обучаться последующим задачам. Обучение представлению изображений в основном использует нейронные сети, которые были обучены создавать хорошие представления. Исследователи могут сначала обучить нейронные сети, используя очень большие наборы данных, а затем адаптировать их архитектуру к задачам, в которых данных недостаточно. Этот подход к обучению с контролируемым представлением отличается от подходов к обучению с учителем, когда для обучения модели не требуется ручная маркировка данных.

Многие успешные подходы к обучению с самоконтролем для изучения представлений используют структуру перекрестного прогнозирования, где выходные данные пары модулей точно соответствуют тому, как они меняются при изменении входных данных. Такие пары модулей, например, могут относиться к пространственно смежным частям одного и того же изображения. Эта структура позволяет нейронной сети, не имеющей предварительных знаний о третьем измерении, обнаруживать глубину. Следуя этой стратегии, современные методы сравнения SOTA обучаются путем уменьшения расстояния между представлениями различных расширенных представлений одного и того же изображения (положительные пары) и увеличения расстояния между представлениями расширенных представлений из разных изображений (отрицательные пары).

Но некоторые проблемы остаются, поскольку «методы сравнения часто требуют сравнения каждого примера с множеством других примеров, чтобы работать хорошо, что вызывает вопрос о необходимости использования отрицательных пар», - объясняют исследователи. На производительность могут влиять различные факторы, лежащие в основе процесса поиска отрицательных пар, такие как большие размеры пакетов, банки памяти или индивидуальные стратегии интеллектуального анализа данных.

Избегая отрицательных пар в обучении репрезентации под самоконтролем, BYOL вместо этого полагается на две нейронные сети - онлайн и целевые сети, - которые взаимодействуют и учатся друг у друга. На основе расширенного представления изображения исследователи обучили онлайн-сеть предсказывать целевое сетевое представление того же изображения в другом расширенном представлении. BYOL также использует сеть медленных средних значений для создания целей прогнозирования, чтобы помочь стабилизировать шаг начальной загрузки.

При оценке представлений, полученных BYOL в ImageNet и других тестах машинного зрения с использованием архитектур ResNet, BYOL достиг 74,3% точности наивысшего качества со стандартным ResNet-50 и 79,6% точности первого уровня с архитектурой ResNet-200. В настройках полууправления и передачи в ImageNet BYOL работал аналогично или лучше, чем SOTA. Более того, по сравнению с сильным контрастным методом базовой линии SimCLR, BYOL претерпел гораздо меньшее падение производительности при уменьшении размера пакета.

Поскольку BYOL полагается на дополнения, специфичные для приложений зрения, ему потребуются другие аналогично подходящие дополнения для работы с такими модальностями, как аудио, видео и текст, чтобы распространить их на другие приложения.

Документ Bootstrap Your Own Latent - новый подход к самостоятельному обучению находится на arXiv, а весь исходный код можно найти на странице проекта GitHub.

Репортер: Фаню Цай | Редактор: Майкл Саразен

Синхронизированный отчет | Обзор решений искусственного интеллекта в Китае в ответ на пандемию COVID-19 - 87 тематических исследований от 700+ поставщиков ИИ

В этом отчете предлагается взглянуть на то, как Китай использовал технологии искусственного интеллекта в борьбе с COVID-19. Он также доступен на Amazon Kindle. Наряду с этим отчетом мы также представили базу данных, охватывающую 1428 дополнительных решений искусственного интеллекта из 12 сценариев пандемии.

Нажмите здесь, чтобы найти больше отчетов от нас.

Мы знаем, что вы не хотите пропустить последние новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.

Новый подход DeepMind «Самостоятельное изучение представлений изображений»

Похожие вопросы