Объяснимый ИИ: дискуссия с Дэном Уэлдом

Такер Дэйви

Системы машинного обучения сбивают с толку — спросите любого исследователя ИИ. Их глубокие нейронные сети работают невероятно быстро, рассматривая тысячи возможностей за секунды, прежде чем принять решение. Человеческий мозг просто не успевает.

Когда люди учатся играть в го, инструкторы могут оспаривать их решения и выслушивать их объяснения. Благодаря этому взаимодействию учителя определяют пределы понимания ученика. Но AlphaGo от DeepMind, которая недавно обыграла мировых чемпионов в го, не может ответить на эти вопросы. Когда AlphaGo принимает неожиданное решение, трудно понять, почему она сделала такой выбор.

Следует признать, что в AlphaGo ставки невелики: никто не пострадает, если он сделает неожиданный ход и проиграет. Но развертывание интеллектуальных машин, которые мы не можем понять, может создать опасный прецедент.

По словам ученого-компьютерщика Дэна Уэлда, понимание машин и доверие к ним — это «ключевая проблема, которую необходимо решить» в области безопасности ИИ, и это необходимо сегодня. Он объясняет: «Поскольку машинное обучение лежит в основе почти каждой истории успеха ИИ, для нас очень важно иметь возможность понять, чему именно научилась машина».

По мере того, как системы машинного обучения (МО) берут на себя больший контроль в здравоохранении, транспорте и финансах, доверие к их решениям становится все более важным. Если исследователи смогут запрограммировать ИИ так, чтобы они объясняли свои решения и отвечали на вопросы, как это пытается сделать Уэлд, мы сможем лучше оценить, будут ли они безопасно работать самостоятельно.

Учим машины объяснять себя

Велд работал над методами, которые выявляют слепые зоны в системах машинного обучения или «неизвестные неизвестные».

Когда система машинного обучения сталкивается с «известным неизвестным», она признает свою неуверенность в ситуации. Однако когда она сталкивается с неизвестным неизвестным, она даже не распознает, что это неопределенная ситуация: у системы будет чрезвычайно высокая уверенность в том, что ее результат правильный, но он будет неверным. Часто классификаторы обладают такой уверенностью, потому что они «обучались на данных, в которых была определенная регулярность, которая не отражается в реальном мире», — говорит Уэлд.

Рассмотрим систему машинного обучения, которая была обучена классифицировать изображения собак, но обучена только изображениям коричневых и черных собак. Если эта система впервые увидит белую собаку, она может с уверенностью утверждать, что это не собака. Это «неизвестное неизвестное» — обученный на неполных данных классификатор понятия не имеет, что он совсем неправильный.

Системы машинного обучения можно запрограммировать так, чтобы они запрашивали надзор человека над известными неизвестными, но, поскольку они не распознают неизвестные неизвестные, они не могут легко потребовать надзора. Исследовательская группа Уэлда разрабатывает методы для облегчения этого, и он считает, что это дополнит объяснимость. «После обнаружения неизвестных неизвестных следующее, что человек, вероятно, захочет, — это узнать, ПОЧЕМУ ученик сделал эти ошибки и почему он был так уверен в себе», — объясняет он.

Машины не «думают», как люди, но это не значит, что исследователи не могут спроектировать их, чтобы объяснить свои решения.

Одна исследовательская группа совместно обучила классификатор машинного обучения распознавать изображения птиц и генерировать подписи. Например, если ИИ распознает тукана, исследователи могут спросить почему. Затем нейронная сеть может сгенерировать объяснение, что огромный красочный клюв указывает на тукана.

В то время как разработчики ИИ предпочтут определенные концепции, объясненные графически, потребителям потребуется, чтобы эти взаимодействия включали естественный язык и более упрощенные объяснения. «Любое объяснение строится на упрощающих предположениях, но есть каверзный вопрос о том, какие упрощающие предположения допустимы. Разным зрителям нужны разные уровни детализации», — говорит Уэлд.

Объяснения огромного красочного клюва птицы может быть достаточно для задач распознавания изображений, но с медицинскими диагнозами и финансовыми сделками исследователи и пользователи захотят большего. Как и в отношениях между учителем и учеником, человек и машина должны иметь возможность обсуждать, чему научился ИИ и над чем ему еще нужно поработать, при необходимости углубляясь в детали.

«Мы хотим найти ошибки в их рассуждениях, понять, почему они их совершают, а затем работать над их исправлением», — добавляет Уэлд.

Управление непредсказуемым поведением

Тем не менее, системы машинного обучения неизбежно удивят исследователей. Уэлд объясняет: «Система может и найдет способ достижения своей цели, отличный от того, что вы думали».

Правительства и предприятия не могут позволить себе развертывание высокоинтеллектуальных систем искусственного интеллекта, которые принимают неожиданные и вредные решения, особенно если эти системы контролируют фондовый рынок, электросети или конфиденциальность данных. Чтобы контролировать эту непредсказуемость, Велд хочет разработать ИИ, чтобы получать одобрение от людей перед выполнением новых планов.

«Это приговор», — говорит он. «Если он видел людей, выполняющих действия 1–3, то это нормально. С другой стороны, если он придумает какой-то особенно умный способ достижения цели, выполнив это редко используемое действие номер 5, возможно, ему следует запустить его с помощью живого человека».

Со временем этот процесс создаст нормы для ИИ, поскольку они узнают, какие действия безопасны, а какие требуют подтверждения.

Последствия для существующих систем искусственного интеллекта

Люди, использующие системы ИИ, часто неправильно понимают их ограничения. Врач, использующий ИИ для выявления болезней, не обучил ИИ и не может понять его машинное обучение. А система ИИ, не запрограммированная на объяснение своих решений, не может сообщать о проблемах врачу.

Weld хочет увидеть систему ИИ, которая взаимодействует с предварительно обученной системой машинного обучения и узнает, как предварительно обученная система может дать сбой. Эта система могла бы анализировать новое диагностическое программное обеспечение врача, чтобы найти его слепые зоны, такие как неизвестные неизвестные. Объяснимое программное обеспечение ИИ могло бы затем позволить ИИ общаться с врачом, отвечать на вопросы и прояснять неопределенности.

И приложения распространяются на финансовые алгоритмы, личных помощников, беспилотные автомобили и даже прогнозирование рецидивизма в правовой системе, где объяснение может помочь искоренить предвзятость. Системы машинного обучения настолько сложны, что люди, возможно, никогда не смогут понять их полностью, но этот двусторонний диалог является важным первым шагом.

«Я думаю, что на самом деле все дело в доверии и в том, как мы можем создавать более надежные системы искусственного интеллекта», — объясняет Уэлд. «Чем больше вы с чем-то взаимодействуете, чем больше у вас общего опыта, тем больше вы можете говорить о том, что происходит. Я думаю, что все эти вещи по праву укрепляют доверие».

Эта статья является частью серии Будущее жизни о грантах на исследования в области безопасности ИИ, которые финансировались за счет щедрых пожертвований Илона Маска и проекта Open Philanthropy.

Первоначально опубликовано на сайте futureoflife.org 27 сентября 2017 г.

Объяснимый ИИ: дискуссия с Дэном Уэлдом

Учим машины объяснять себя

Управление непредсказуемым поведением

Последствия для существующих систем искусственного интеллекта

Похожие вопросы