Погружение в проблему системной предвзятости машинного обучения

Поскольку использование машинного обучения и искусственного интеллекта распространяется во многих отраслях, важно не упускать из виду бессознательные предубеждения, запрограммированные в этих алгоритмах. Машинное обучение играет важную роль в таких областях, как система здравоохранения, система уголовного правосудия и финансы, и это лишь некоторые из них. Но системные предубеждения, которыми питаются эти модели, вредны для нашего общества — особенно для тех, кто принадлежит к маргинализированным группам по признаку пола, расы, этнической принадлежности и социально-экономического статуса.

Что такое бессознательные предубеждения?

Бессознательные предубеждения, также известные как неявные предубеждения, представляют собой предубеждения или социальные стереотипы, которые подсознательно возникают в отношении определенных групп людей. Исследователи предполагают, что эти предубеждения укоренились и проистекают из человеческой склонности к категоризации.

Эволюционное поведение заставляет людей иметь бессознательные предубеждения — замечаем мы это или нет — и эти мыслительные процессы программируются в наших моделях машинного обучения.

Откуда эта предвзятость?

Машинное обучение — это компонент области науки о данных, который фокусируется на моделях программирования, имитирующих то, как люди выполняют задачи. Машинное обучение использует алгоритмы, обученные на соответствующих наборах данных, чтобы делать выводы или прогнозы относительно определенных проблем, которые затем используются для принятия решений.

Модели машинного обучения обычно следуют определенному рабочему процессу, показанному ниже, который включает сбор данных, подготовку данных, обучение модели и тестирование. Кроме того, в зависимости от того, насколько хорошо модель оценивает входные данные, будут внесены улучшения, а затем повторно протестированы, пока не будет создана оптимизированная модель.

Предубеждения в наших моделях проистекают из наборов данных, которые используются для их обучения. Если наши данные изначально предвзяты, то алгоритмы, которые мы обучаем на основе этих данных, будут предвзятыми. В результате наши решения, основанные на этих моделях, будут предвзятыми — и все это делается неосознанно.

Давайте погрузимся глубже! Как видно из приведенного выше рабочего процесса машинного обучения, первым шагом является сбор данных. Скажем, мы собираем данные, которым присущи некоторые предубеждения, такие как связь между одобрением ипотечного кредита и расовой принадлежностью (подробнее об этом вопросе вы можете прочитать в этой статье на Forbes). Эти предубеждения теперь могут усугубиться на этапе очистки и манипулирования.

Теперь мы переходим к обучению модели и тестированию наших данных. Если мы вводим в нашу модель необъективные данные и обучаем ее наследовать эти предубеждения, то, когда мы пытаемся улучшить нашу модель, она примет эти предубеждения и продолжит самообучение, еще больше усугубляя их. Таким образом, то, что изначально начиналось как бессознательные микробные предубеждения, теперь было унаследовано и еще глубже обучено в наших моделях машинного обучения, в результате чего 80% ипотечных кредитов черных заявителей были отклонены.

Поскольку количество белых мужчин в технологической отрасли превышает количество представителей других рас или полов, модели, которые мы создаем на основе обучения наших данных, отражают то, как они воспринимают мир. Любые бессознательные предубеждения в нашем искусственном интеллекте являются отражением наших личных предубеждений.

Каковы еще примеры этих предубеждений?

Система здравоохранения и система уголовного правосудия — два примера отраслей, которые сильно страдают от неявных предубеждений в алгоритмах.

Система здравоохранения исторически страдает от расовых, гендерных и социально-экономических предубеждений. Чернокожие пациенты исторически имели ограниченный доступ к обезболивающим, а врачи демонстрировали лежащие в основе предубеждения относительно терпимости к боли в зависимости от расы. Точно так же медицинские работники обычно увольняют женщин, страдающих от боли, и не хотят их лечить, что приводит к безответственным данным. Исследования также показывают, что врачи, как правило, избегают лечения пациентов с низким доходом из-за доступности, что также приводит к ненадежным и несправедливым данным. Накопление этих основных предубеждений в данных является причиной предубеждений машинного обучения в системе здравоохранения.

Одним из основных примеров предвзятости в системе уголовного правосудия является использование алгоритма оценки риска, который представляет собой алгоритм, определяющий вероятность повторного совершения обвиняемым преступления, что приводит к решению о том, какой приговор должен быть вынесен обвиняемому. Но этот алгоритм обучен на исторических данных о преступлениях, что крайне предвзято, потому что эти данные отражают непропорционально целевые группы населения со стороны правоохранительных органов.

Это всего лишь несколько примеров скрытых предубеждений в нашем искусственном интеллекте — их гораздо больше в самых разных отраслях.

Какими способами мы можем смягчить эти систематические ошибки в наших данных?

Прежде всего, мы должны целенаправленно собирать данные. Мы должны начать с вопроса: есть ли дисбаланс в наших данных? Откуда берутся эти данные и кто их собирал? Делаем ли мы что-нибудь, чтобы убедиться, что в наших данных нет предрассудков, прежде чем обучать наши модели?

Также чрезвычайно важно иметь разнообразную команду людей, вовлеченных во все аспекты обработки данных и моделей обучения, чтобы мы могли быть уверены, что уменьшим наши шансы на создание предвзятой системы. Кроме того, мы должны найти баланс между тем, чтобы убедиться, что у нас есть всеобъемлющие и разнообразные данные, а также убедиться, что наши данные по-прежнему точно отражают наше население и не искажены.

Однако не все предубеждения плохи…

Люди не все по своей природе одинаковы, поэтому некоторые формы предвзятости полезно сохранять. Возьмем, к примеру, аутизм. Людям, которые идентифицируют себя как мужчины, диагностируют аутизм в 4 раза чаще, чем тем, кто идентифицирует себя как женщины. Дело не в том, что мужчины более склонны к аутизму, а в том, что у женщин симптомы проявляются иначе, чем у мужчин. Таким образом, предубеждения относительно того, как симптомы аутизма проявляются у женщин, по сравнению с тем, как симптомы проявляются у мужчин, должны оставаться частью алгоритмического принятия решений.

Важно не искоренять все предубеждения внутри нашего искусственного интеллекта, а определять и тренировать намеренно. Знание того, какие предубеждения вредны, а какие полезны, является необходимым шагом в наших усилиях по созданию справедливого искусственного интеллекта.

Ресурсы и дополнительная литература

А.И. Предвзятость привела к отказу 80% чернокожих заявителей на ипотеку
Искусственный интеллект и присущая ему предвзятость, по-видимому, являются постоянным фактором, замедляющим возвращение меньшинств домой…www.forbes.com

ИИ отправляет людей в тюрьму — и делает это неправильно
Может показаться, что ИИ не имеет большого личного влияния, если вы чаще всего сталкиваетесь с алгоритмами машинного обучения…www.technologyreview.com

Предубеждения в здравоохранении: виды, примеры, преодоление предубеждений
Человек всегда должен получать хорошее медицинское обслуживание, независимо от личных характеристик, идентичности или таких качеств, как…www .medicalnewstoday.com