Об отличительных свойствах универсальных возмущений … Объяснение

В этом сообщении блога мы рассмотрим новую статью под названием «Об отличительных свойствах универсальных возмущений» Парка, Сунг Мина и др. [1]. Документ связан с другими работами той же группы: «Состязательные примеры — это не ошибки, это особенности» [2] и «На пути к моделям глубокого обучения, устойчивым к состязательным атакам» [3], которые также кратко обсуждаются, чтобы сделать поток лучше. для читателя.

Враждебные возмущения: стандартные и универсальные

Стандартные противоборствующие возмущения (SAP):

Стандартные состязательные атаки (мы называем их SAP в этом посте) были впервые представлены в [1] как брешь в системе безопасности, которую злоумышленник может использовать против глубоких нейронных сетей (DNN). ). Тщательно создавая враждебное возмущение и добавляя его к входному изображению, можно перевернуть (изменить) предсказание классификатора либо на случайную цель (отличную от метки наземной истины), либо на конкретную целевую метку. На рис. 1 показан пример SAP.

Математически это можно сформулировать следующим образом:

где x — наше входное изображение, f — наш классификатор (наша DNN), δ — враждебное возмущение, которое мы пытаемся найти, t — наша целевая метка, а ℒ — наша функция потерь (перекрестная потеря энтропии). Вторая строка, показывающая Δ, — это ограничение, которое мы накладываем на задачу оптимизации. Ограничение гарантирует, что наша атака будет незаметной, ограничивая норму δ в шар с p-нормой радиуса r.

PGD: решение нашей проблемы с оптимизацией SAP

Более ранняя задача оптимизации позволяет нам найти враждебное возмущение, которое при добавлении к входному изображению минимизирует перекрестную потерю энтропии между предсказанной сетью меткой и целевой меткой. Другими словами, он направлен на то, чтобы предсказание сети соответствовало целевой метке.

Чтобы решить эту проблему оптимизации, можно использовать метод, называемый проектируемым градиентным спуском. Как следует из названия, мы применим градиентный спуск, а затем спроецируем полученное решение на наш шар нормы ell-p, чтобы убедиться, что наше ограничение выполняется. Наглядно это лучше поясняется на рис. 2 (эта визуализация рассматривает сценарий нецелевой атаки, когда мы пытаемся максимизировать функцию потерь между прогнозом и меткой достоверности, т. е.мы просто хотим, чтобы прогноз сети отличался от прогнозируемого). метка наземной истины).

Математические детали (найденные в [3]) оставлены для читателя, однако решение для одного шага PGD показано ниже:

Универсальные состязательные возмущения (UAP)

Позже люди начали обсуждать концепцию на шаг дальше, чем SAP… то есть UAP! Универсальные состязательные возмущения (UAP) (представленные в [5]) — это возмущения δ, которые не нацелены на то, чтобы обмануть DNN на одном образце x, а скорее на нескольких образцах… на самом деле, на как можно большем количестве образцов.

Математически это можно представить в уравнении ниже. Как и прежде, мы хотим минимизировать перекрестную потерю энтропии между прогнозом модели на искаженном изображении и целевой меткой… но вместо того, чтобы делать это с выборкой, мы делаем это в ожидании набора данных!

Визуально это можно увидеть на рисунке 3 следующим образом: для нашего набора данных всякий раз, когда мы добавляем универсальное враждебное возмущение, мы хотим, чтобы предсказание было, например, собакой!

Вклады в газету

Статья [1], которую мы собираемся представить сегодня, показывает следующее:

I. В отличие от стандартных враждебных возмущений, которые, как правило, непонятны, UAP больше ориентированы на человека:

UAP имеют локальную семантику: сигнал концентрируется в локальных областях, наиболее заметных для человека. SAP, с другой стороны, нет.
UAP примерно пространственно инвариантны: они все еще эффективны после трансляции. SAP, с другой стороны, нет.

II. UAP содержат значительно менее обобщенный сигнал от ненадежных признаков по сравнению со стандартными возмущениями. Это показано:

1. Проверка того, насколько хорошо модель может обобщаться на исходный тестовый набор, путем обучения на наборе данных, где только корреляции с меткой добавляются через UAP.

2. Измерение переносимости UAP между независимо обученными моделями.

Количественная оценка человеческого мировоззрения:

Перед количественной оценкой выравнивания человека мы сначала представляем концепцию, которая ранее обсуждалась в нескольких статьях, касающуюся визуальных различий между SAP и UAP.

Визуальные различия между SAP и UAP

На рисунке 4, представленном ниже, мы показываем набор UAP, полученных для разных целевых классов:

Если сравнить UAP на Рисунке 4 с SAP, который ранее был показан на Рисунке 1, мы можем ясно понять следующее:

SAP непонятны людям: « при увеличении для визуализации эти возмущения не могут быть идентифицированы человеком как принадлежащие к их целевому классу». Образец SAP, показанный на рисунке 1, не может интерпретироваться как имеющий для нас какое-либо семантическое значение. Это просто куча шума.
UAP визуально гораздо более интерпретируемы: «при усилении они содержат локальные области, которые мы можем идентифицировать с целевым классом». Образцы UAP, показанные на рисунке 4, могут интерпретироваться как имеющие семантическое значение в определенных регионах. UAP-мишень для собак содержит фотографии собак, разбросанных по определенным местам. Аналогичное наблюдение можно сделать и для UAP других классов, они имеют четкое семантическое значение, относящееся к целевому классу.

Теперь мы переходим к количественной оценке как семантической локальности, так и пространственной инвариантности UAP.

Семантическая локация

Наблюдение: как мы видели ранее, значительная часть сигнала возмущения сосредоточена в небольших локализованных областях, которые люди находят интересными. Большая часть сигнала в UAP поступает из наиболее визуально значимых областей. У SAP отсутствует это свойство, поскольку никакие локальные области не являются семантическими.

Методология: «Чтобы количественно оценить это для UAP, мы случайным образом выбираем локальные участки возмущения, оцениваем их коэффициент успешных атак (ASR) изолированно и проверяем их визуально. И для возмущений, и для возмущений участки с самым высоким значением ASR более визуально идентифицируются как целевой класс. Это показывает, что на модель действительно влияют в первую очередь самые заметные части возмущения». (см. рис. 5)

Вывод. В отличие от SAP, UAP имеют семантические локальные исправления. Эти семантические исправления в большей степени способствуют успеху атаки, чем другие несемантические исправления.

Пространственная инвариантность

Нас интересует влияние пространственных трансляций на вероятность успеха атаки полученного возмущения. Это важно определить, потому что мы хотим показать, что UAP, в отличие от SAP, обладают желательными свойствами, которые делают их более близкими к человеческим априори.

Методология: « мы количественно оцениваем пространственную инвариантность, измеряя ASR транслируемых возмущений. Возмущение с высокой пространственной инвариантностью будет иметь высокий ASR даже после переноса. Мы оцениваем сетку с субдискретизацией с шагом в четыре пикселя. Значение в координате (i, j) представляет собой среднее значение ASR, когда возмущения сдвинуты вправо на i пикселей и вверх на j, с циклическим переходом для сохранения информации; центральный пиксель в точке (0, 0) представляет собой ASR исходных несмещенных возмущений».

Вывод: дажепосле преобразования возмущения UAP достигают нетривиальной успешности атаки. С другой стороны, SAP может достичь 10 % ASR на уровне вероятности только при смещении более чем на восемь пикселей.(см. рис. 6)

Количественная оценка ненадежных функций

Как обсуждалось ранее, вклад представленной статьи двоякий. Первым основным вкладом, который мы представили в предыдущем разделе, является количественная оценка человеческого выравнивания для UAP и представление сравнения с SAP. Второй вклад - количественная оценка зависимости от ненадежных функций. Прежде чем перейти к этому вкладу, мы должны представить концепцию ненадежных и надежных функций, которая была введена в [2].

Предварительные:

Один из наиболее распространенных подходов к пониманию устойчивости к состязательным действиям — тот, который делит функции на две категории: надежные функции и ненадежные функции. Приведем некоторые основные определения, представленные в статье:

Полезной функцией для классификации является функция, которая (положительно) коррелирует с правильным ярлыком в ожидании.
Функция является надежно полезной, если даже в условиях враждебных возмущений (в пределах заданного набора допустимых возмущений Δ) эта функция по-прежнему полезна.
Полезная, ненадежная функция – это полезная, но не очень полезная функция. Эти функции полезны для классификации в стандартных условиях, но могут повредить точности в состязательных условиях.

Это разделение функций можно представить, как показано на рисунке 7.

Надежные функции — это функции, которые обычно не используются при разработке наших незаметных враждебных атак. Это такие особенности, как уши, форма лица и т. д., на которые мы, люди, полагаемся, классифицируя кошку как кошку, а собаку как собаку. Ненадежные функции — это функции, на которые мы, люди, не полагаемся в наших прогнозах и, вероятно, даже не замечаем. Это функции, которые помогают сети обобщать из-за их частого появления в наших наборах данных (например, появление пятен цветных пикселей). Эти функции очень чувствительны к шуму, создаваемому атаками противника, и ломаются, если их потревожить внутри шара ell-p.

Авторы этой работы предлагают способы разделения набора данных на «надежный набор данных» и «ненадежный набор данных». Надежный набор данных обладает надежными функциями, и при использовании для обучения сети может достичь хорошей стандартной точности и хорошей надежной точности. Однако ненадежный набор данных может обеспечить только хорошую стандартную точность, но плохую робастную точность. Это показано на рисунке 8.

Еще одно интересное наблюдение в этой работе можно наблюдать с помощью следующего эксперимента:

(1) Создание состязательных атак на изображения в наборе поездов.

(2) Перемаркируйте атакованные образцы целевой меткой (или меткой, на которую мы переключаемся) и создайте новый атакованный набор данных.

(3) Обучите сеть новому атакованному набору данных.

Применение такой процедуры создает набор данных с ненадежными функциями, представляющими новую метку, но надежными функциями, представляющими исходную метку. Авторы отмечают, что полученная DNN по-прежнему может показывать нетривиальные результаты на исходном чистом тестовом наборе. Что мы можем извлечь из этого? Ненадежные функции по-прежнему позволяют обучать хорошо обобщаемую сеть. Эта процедура представлена на рисунке 9.

Обобщение универсальных ненадежных функций

Авторы статьи, которую мы представляем, полагаются на аналогичный подход. Они генерируют два набора данных ненадежных функций. Один создается с использованием SAP, а другой — с использованием UAP (рис. 10).

«Мы обучаем новые модели ResNet-18 на наборах данных и и оцениваем их на исходном тестовом наборе. Наилучшая точность обобщения при обучении на универсальном наборе данных ненадежных функций и стандартных ненадежных функциях составила 23,2% и 74,5% соответственно».

Вывод: «Универсальные ненадежные функции действительно имеют сигнал, который модели могут использовать для обобщения, но универсальные ненадежные функции обобщать труднее, чем общие ненадежные функции. Таким образом, в универсальных ненадежных функциях есть некоторый полезный сигнал, но, похоже, его меньше, чем в стандартных враждебных возмущениях».

Возможность передачи UAP

Еще один способ измерить степень использования ненадежных функций UAP — посмотреть на их переносимость. Переносимость состязательных атак объясняется ненадежными функциями, на которые могут полагаться разные модели для лучшего обобщения на разных выборках. В результате возмущения, которые больше используют неустойчивые функции, должны быть более переносимыми между моделями.

Методология:

Примеры возмущения с использованием либо стандартного состязательного возмущения, либо UAP в исходной модели.
Измерьте вероятность того, что возмущенный ввод будет классифицирован как целевой класс на новой целевой модели, которая обучается независимо (в статье рассматриваются ResNet18 и VGG19).

Вывод. Как показано на рисунке 11, переносимость UAP хуже, чем у SAP. То есть SAP использует ненадежные функции больше, чем UAP. Это демонстрирует, что, хотя UAP больше ориентированы на человека, они используют лишь небольшую часть статистического сигнала в общих ненадежных функциях.

Интерполяция универсальности

И последнее, что следует учитывать: «в какой степени можно интерполировать свойства универсальных и стандартных ненадежных функций?». Чтобы ответить на этот вопрос, мы рассмотрим два параметра, которые контролируют способ генерации UAP, а именно: (1)количество выборок, используемых при выполнении задачи оптимизации UAP (нахождение универсального враждебного возмущения обычно решен из мини-пакета, который мы называем базовым набором). (2)Классы образцов, используемых для создания UAP.

Влияние размера базового набора. Базовый набор — это набор изображений, которые используются при решении проблемы оптимизации UAP, упомянутой в первом разделе этой публикации. Обычно задача оптимизации решается на базовом наборе, который не равен полному набору данных, поскольку выполнение задачи оптимизации на всем наборе данных довольно дорого. Мы обозначаем размер базового набора как K. Если K=1, то мы проводим стандартную атаку противника, тогда как если K>1, то мы проводим UAP с K образцами. Эффект изменения размера базового набора показан в таблице 1.

Обобщение начинает страдать даже при относительно небольших значениях K (обратите внимание, что точность теста относится к точности модели, обученной на ненадежных функциях, сгенерированных с использованием UAP с размером базового набора K на исходном тестовом наборе). Например, точность обобщения падает с 74% при K = 1 до 34% при K = 16. С другой стороны, хотя и не медленнее, увеличение размера базового набора до K≥64 позволяет нам получить более семантически значимые UAP. Это показано на рисунке 12:

Вывод.Существует явный компромисс между лучшей семантикой, которая становится очевидной только при более высоких значениях K (≥64), и обобщением, которое ухудшается при относительно небольших значениях K (≥16).

Класс выбранных образцов. Делая еще один шаг в изучении способа создания UAP, авторы предлагают изучить влияние классов выбранных образцов базового набора. Они рассматривают три варианта: первый — случайный, когда базовые образцы выбираются случайным образом из набора данных, второй — единый класс, когда все базовые образцы выбираются из одного и того же точного класса, и, наконец, один подкласс, в котором одна категория (содержащая несколько классы) отбирается для получения образцов базового набора. Результаты представлены в таблице 2.

Вывод: результаты этих экспериментов по интерполяции показывают, что большой разрыв в сигнале между UAP и стандартными возмущениями сохраняется даже при снижении уровня «универсальности».

Заключение

Эта работа изучает универсальные враждебные возмущения и показывает, что, в отличие от стандартных враждебных возмущений, они обладают человеческими свойствами. Авторы характеризуют и определяют степень, в которой UAP соответствуют человеку с точки зрения семантической локальности и пространственной инвариантности. Затем авторы количественно определяют степень, в которой UAP используют ненадежные функции, с помощью экспериментов, изучающих как обобщаемость, так и переносимость. Эксперименты показывают, что UAP содержат гораздо более слабый сигнал обобщаемости по сравнению со стандартными возмущениями.

Эта работа демонстрирует, что изучение UAP может быть хорошим направлением для понимания конкретных и специфических свойств враждебных возмущений, а также связанных с ними явлений, таких как распространенность и характер неустойчивых функций.