По мере распространения технологий машинного обучения в различных отраслях все более заметными становятся опасения по поводу прозрачности, этических соображений и воздействия на общество. Решение этих проблем зависит от надежной документации, которая дает представление о различных компонентах процесса машинного обучения. Цель этой статьи — помочь бизнес-лидерам разобраться в стандартах документации ИИ, которые в целом подразделяются на три категории: документация, ориентированная на данные, документация, ориентированная на модели и методы, и документация, ориентированная на систему.

Наборы данных

Основой любой модели машинного обучения является набор данных. Документация здесь должна отражать такие аспекты, как время сбора данных, происхождение, репрезентативность и цель набора данных. Для помеченных наборов данных дополнительными компонентами, которые следует учитывать, являются процесс аннотирования, количество аннотированных данных, меры проверки и личности аннотаторов. К заслуживающим внимания технологиям, определяющим стандарты документации наборов данных, относятся:

Карточки данных и Карточки наборов данных предоставляют структурированные сводки и пояснения по наборам данных ML, а также дают контекст того, как следует использовать набор данных.

Google Research, Пушкарна и др., ноябрь 2022 г., Hugging Face, Lhoest и др., сентябрь 2021 г.

Таблицы данных для наборов данных предлагают самые разные вопросы: от мотивации набора данных до обслуживания.

Microsoft Research, Heger и др., ноябрь 2022 г.

Заявления о данных дают характеристики набора данных, позволяющие понять предвзятость программного обеспечения.

Вашингтонский университет, Бендеры и др., 2018

Другими технологиями, которые следует учитывать при документировании наборов данных, являются Биография данных от We All Count, направленная на обеспечение справедливости данных, и Этикетки питания наборов данных от Массачусетского технологического института и Гарварда, предлагающие диагностическую основу для анализа компонентов набора данных перед разработкой модели ИИ.

Модели

Документация модели должна быть сосредоточена на сборе данных, используемых для обучения, процедур обучения, настройки функций, назначения модели и тестирования выходных данных модели. Для моделей с версиями решающее значение имеют различия между версиями и причины создания новой версии. К заслуживающим внимания технологиям для информирования стандартов документации модели относятся:

Карточки моделей дают практическую информацию о производительности и ограничениях моделей.

Google, Митчел и др., январь 2019 г.

Портреты данных записывает данные обучения для последующей проверки.

Университет Джона Хопкинса, Мароне, март 2023 г.

Отчеты о вознаграждениях предназначены для моделей обучения с подкреплением, описывая предполагаемое поведение.

Калифорнийский университет в Беркли, Гилберт и др., февраль 2022 г.

Результаты модели

Эта документация, известная как «Объяснимый ИИ», призвана сделать результаты ИИ понятными. Элементы для сбора включают набор обучающих данных, версию модели, входные и выходные данные модели, ожидаемый результат и ключевые показатели производительности, такие как точность и оценка F1. К заслуживающим внимания технологиям для информирования стандартов документации результатов модели относятся:

Методы обеспечивают поддержку на нескольких этапах процесса разработки модели.

Мета, Адкинс и др., апрель 2022 г.

Принципы объяснимого искусственного интеллекта выступают за предоставление доказательств результатов.

NIST, Филлипс и др., сентябрь 2021 г.

Набор инструментов для объяснения AI предлагает ряд вариантов объяснений, адаптированных для разных аудиторий.

IBM, Сингх и др., август 2019 г.

Системы

Модели машинного обучения не работают изолированно; они являются частью сложных систем. Системная документация должна подробно описывать инструменты, процессы обновления, зависимости, потоки данных и существующую модельную документацию в системе. К заслуживающим внимания технологиям для информирования стандартов системной документации относятся:

Системные карточки дают представление об архитектуре системы искусственного интеллекта.

Meta Research, Грин и др., февраль 2022 г.

Информационные бюллетени содержат подборку фактов о создании и развертывании модели или услуги ИИ.

IBM, Арнольд и др., июль 2019 г.

Тенденции в документации по ИИ

Стоит упомянуть несколько примечательных тенденций, которые влияют на то, как мы документируем и оцениваем экологические и этические аспекты ИИ.

Отображение выбросов углекислого газа привлекает все больше внимания, поскольку воздействие моделей машинного обучения на окружающую среду становится все более заметным. Такие инструменты, как пакет Code Carbon, облегчают включение данных об углеродном следе в карты моделей.

Университет Карнаж-Меллон, Штрубелл и др., июнь 2019 г.

Автоматизированное документирование моделей – это процесс автоматического создания кратких и понятных описаний моделей машинного обучения. Это упрощается благодаря набору инструментов Model Card Toolkit, который легко интегрируется в конвейеры машинного обучения для улучшения процесса принятия решений.

TensorFlow, MCT

Системы аудита ИИ оценивают системы ИИ на предмет прозрачности, этики и соответствия требованиям на протяжении всего их жизненного цикла с участием заинтересованных сторон, таких как внутренние команды и сторонние аудиторы. Для управления и управления рисками компания использует такие системы, как COBIT и COSO ERM, стремясь укрепить доверие и привести ИИ в соответствие с целями организации.

Ссылки на COBIT и COSO

Усилия по стандартизации и рекомендации

Стремление к стандартизации документации по ИИ имеет решающее значение для стимулирования инноваций и обеспечения общественного доверия. Возглавляют эту задачу такие организации, как Национальный институт стандартов и технологий (NIST), занимающиеся разработкой комплексного набора технических стандартов для ИИ в таких областях, как данные, производительность и управление. Институт инженеров по электротехнике и электронике (IEEE) также добился значительных успехов в разработке стандартов, которые определяют представление, сжатие, распространение и управление моделями ИИ.

В заключение отметим, что стандартизация ИИ — это не только прерогатива формальных институтов. Часто неформальные или фактические стандарты оказывают значительное влияние на широкое внедрение. Инициативы сообщества, такие как Hugging Face, существенно формируют ландшафт. С сотнями тысяч моделей, размещенных на Hugging Face Hub, каждая из которых сопровождается подробной карточкой модели, платформа служит открытым форумом для установления лучших практик. Для тех, кто ищет отправную точку для внедрения ответственных методов искусственного интеллекта, Hugging Face Hub предлагает множество проверенных примеров.

Эти модели предлагают реальный снимок стандартов, которые действительно работают. Для членов сообщества искусственного интеллекта принятие и поддержка этих новых стандартов, начиная с проверенных практик, подобных тем, которые используются в Hugging Face, имеет решающее значение для обеспечения этичного и прозрачного использования искусственного интеллекта.

Чтобы построить будущее, в котором ИИ будет служить силой добра, мы должны сегодня уделять приоритетное внимание этическим и прозрачным практикам. Давайте не будем просто пассивными потребителями технологий; давайте активно участвовать в формировании регулирующих его стандартов, тем самым сделав ответственный ИИ нормой, а не исключением.

Рекомендации

Обнимающее лицо. (без даты). Ландшафт инструментов документации ML. Получено с сайта https://huggingface.co/docs/hub/model-card-landscape-anaанализ.

Мойр, С. (6 апреля 2023 г.). Документирование моделей машинного обучения. Это важно. Получено с https://thisisimportant.net/posts/documenting-machine-learning-models/.

Подкаст «Искусство искусственного интеллекта для бизнеса»

Если вам понравилась эта статья, вероятно, вам также понравится мой подкаст «Искусство искусственного интеллекта для бизнеса». Проверьте это здесь.