Возможно, самая важная задача, стоящая сегодня перед машинным обучением, связана как с наукой о данных, так и с социальной справедливостью: снижение предвзятости в данных, моделях и методах машинного обучения. Машинное обучение играет быстро растущую роль в различных отраслях, от кредитования до страхования, здравоохранения, рекрутинга и многих других. Как отмечает математик и спикер Кэти О’Нил в своем выступлении на TED Talk, растущее использование ИИ означает, что те, кто разрабатывает и внедряет машинное обучение, обладают существенной властью над результатами в бизнесе и обществе. Появляется понимание того, что с предвзятостью в ОД (и в обществе в целом) необходимо бороться напрямую.

В этом посте приводятся примеры предвзятости в области распознавания зрения на основе машинного обучения; выделяет распространенные причины предвзятости; и рекомендует, как специалисты по данным, менеджеры проектов и другие участники проектов могут взять на себя большую ответственность за предотвращение предвзятости в своих проектах ML.

Предвзятость в проектах видения

Практики машинного обучения могут считать распознавание зрения технически сложной областью, но не в полной мере осознавать усилия, которые необходимо сосредоточить на избежании предвзятости. Возьмем, к примеру, умные камеры наблюдения, которые были обучены выявлять незаконные действия и даже классифицировать типы людей, вовлеченных в эти действия (например, повторять кадры всех молодых мужчин, которые слоняются в магазине). Что, если обучающие данные были взяты в основном из ночных съемок — может ли модель машинного обучения быть чрезмерно чувствительной к чертам людей, которые склонны работать в ночную смену?

Или рассмотрите возможность использования изображений, яркость или контрастность которых были отрегулированы для улучшения распознавания. Легко предположить, что модель машинного обучения, обученная на улучшенных изображениях, может вести себя неожиданно при работе с исходными, нескорректированными изображениями. Не помогает и то, что мы не можем предсказать, как предвзятость повлияет на результаты.

Источники предвзятости

Смещение может быть введено во многих точках проекта: в исходных данных (смещение выборки), при фильтрации используемых данных (смещение исключения и обработка выбросов), в процессе маркировки/аннотации (смещение наблюдения), при построении модели (смещение предубеждения). ), и в других местах.

Вопросы, которые следует задавать участникам проекта (а также свежие взгляды) на раннем этапе, должны исследовать возможные источники предвзятости, например:

  • Была ли спецификация «оптимальных результатов» для проекта сделана непредвзято (без предположения, что статус-кво представляет собой оптимальную ситуацию)?
  • Как собирались выборочные данные? Какой контекст может отсутствовать в имеющихся данных?
  • Просят ли аннотаторов, классифицирующих данные в целях обучения, применять субъективные мнения?

Средства уменьшения предвзятости

Сокращение смещения может быть решено с помощью передового опыта, а также технической поддержки. В статье Information Week рекомендуется, чтобы основой передового опыта был план, включающий диалог для повышения осведомленности о потенциальных проблемах, программу оценки и меры по их устранению. В частности, это помогает избежать защитной реакции, если критика будет сделана позже в проекте без согласованных шагов по смягчению последствий.

Одной из эффективных практик планирования и оценки является «разработка функций». Это управляемый человеком процесс для оценки всех атрибутов данных, которые могут служить входными данными для модели ML, понимания их влияния и обеспечения того, чтобы полезные атрибуты были включены, структурированы и взвешены соответствующим образом. Разработка признаков по своей сути возлагает на практиков ответственность за интерпретацию и точную настройку результатов. Напротив, популярные методы «глубокого обучения» относятся к процессу, управляемому исключительно программным обеспечением, для взвешивания заданных ему атрибутов и экстраполяции шаблонов.

Вывод

Этот обзор должен дать читателю представление о том, что предвзятость может быть введена в модели машинного обучения из нескольких векторов, чаще всего непреднамеренно. Независимо от источника результаты моделей могут иметь серьезные последствия для тех, на кого они влияют. Каждый человек, участвующий в планировании, структурировании, использовании и оценке модели ML, обязан рассмотреть, как явные методы и усовершенствованные инструменты могут уменьшить влияние предвзятости на их бизнес и общество.

Первоначально опубликовано на https://innotescus.io 28 июля 2020 г.