Мы можем согласиться с тем, что ИИ не является универсальным решением. Однако для многих компаний искусственный интеллект может принести значительные преимущества и способствовать росту и успеху. Некоторые потенциальные преимущества включают следующее:
- Повышенная эффективность: ИИ может автоматизировать задачи и процессы, экономя время и ресурсы для других действий.
- Повышенная точность: ИИ может делать более точные прогнозы и решения, чем люди, что снижает риск ошибок.
- Повышение качества обслуживания клиентов: ИИ может персонализировать взаимодействие с клиентами, обеспечивая более индивидуальный и удобный опыт.
- Экономия затрат: ИИ может помочь предприятиям сократить расходы за счет автоматизации задач, повышения эффективности и сокращения потребности в человеческом труде.
- Конкурентное преимущество: компании, использующие ИИ, могут получить конкурентное преимущество перед теми, кто этого не делает, поскольку они могут быстрее и эффективнее анализировать данные и воздействовать на них.
Последнее десятилетие принесло значительный рост в области науки о данных в целом. Однако общая ценность ИИ по-прежнему ограничена во многих секторах, таких как здравоохранение, производство и государственные технологии. В исследовании, опубликованном Accenture, 80% всех подтверждений концепции (PoC) не попадают в производство. Что именно идет не так, и почему ИИ не так успешен в реальном мире, как в академических исследованиях?
Ориентированный на модель подход против подхода, ориентированного на данные
Сильный модельно-ориентированный ИИ (традиционно представленный в академических кругах) рассматривает данные только как статический параметр. Если производительность модели не соответствует ожиданиям, инженеры AI/ML попытаются настроить гиперпараметры модели или даже изменить модель, пока данные остаются нетронутыми.
Эксперты в предметной области не играют жизненно важной роли во всем процессе разработки систем на основе ИИ с модельно-ориентированным подходом. Вместо этого инженеры AI/ML обычно принимают решения, связанные с бизнесом, во время этого процесса.
По словам Эндрю Нг, система ИИ представляет собой комбинацию кода и данных. Хотя значительное количество времени и ресурсов было посвящено разработке кода и алгоритмов, теперь необходимо уделить первоочередное внимание повышению качества и актуальности данных для достижения желаемых результатов.
Сместив акцент на данные, мы, по сути, переходим от ИИ, ориентированного на модели, к ИИ, ориентированному на данные.
При подходе, ориентированном на данные, роль профильных экспертов значительна, а системы ИИ гораздо ближе к каждому бизнесу.
Принятие подхода, ориентированного на данные, в реальном мире или во время работы над практическим проектом более плодотворно. Это означает, что модель остается фиксированной и фокусируется на подаче модели хороших или высококачественных данных. Приличный алгоритм с хорошими данными может даже превзойти отличный алгоритм с не очень хорошими данными.
Данные не должны быть единственным приоритетом в процессе разработки. Также важно учитывать структуру и функциональность используемой модели и кода. Выбор модели может существенно повлиять на точность, как это было продемонстрировано при анализе Катастрофы Титаника, где точность предсказания варьировалась от 78% до 94% в зависимости от алгоритма.
Большие данные против хороших данных: что важнее для ИИ?
«Хорошие данные» и «большие данные» — два термина, которые часто используются в области науки о данных и искусственного интеллекта. Под хорошими данными понимаются данные, которые являются точными, актуальными и хорошо организованными. Большие данные, с другой стороны, относятся к большим наборам данных, которые слишком велики и сложны для обработки и анализа с использованием традиционных инструментов и методов обработки данных.
Чтобы алгоритмы ИИ могли делать точные прогнозы и принимать решения, их необходимо обучать на больших объемах данных. Однако просто иметь много данных недостаточно. Данные также должны быть качественными и хорошо организованными, чтобы модель ИИ могла эффективно учиться.
Во многих случаях компании имеют доступ только к небольшим наборам данных, что может привести к плохим результатам, если основное внимание уделяется модели. Эндрю Нг подчеркивает преимущества подхода к машинному обучению, ориентированного на данные, и предполагает, что в сообществе должен произойти сдвиг в сторону этого подхода. Он использует пример задачи обнаружения дефектов стали, в которой подход, ориентированный на данные, улучшил точность модели на 16% по сравнению с подходом, ориентированным на модель [Источник: neptune.ai].
Проблемы с качеством данных
Многие известные наборы данных имеют проблемы с качеством данных. Например, наборы данных COCO и ImageNet широко используются в области компьютерного зрения для таких задач, как обнаружение объектов, классификация изображений и сегментация изображений. Хотя эти наборы данных широко используются и в целом считаются высококачественными, с ними были обнаружены некоторые проблемы, которые могут повлиять на их полезность для конкретных задач. Некоторые из проблем, обнаруженных в наборе данных COCO, включают неправильную маркировку объектов (первое изображение) и несоответствие маркировки (второе изображение) [Источник: neuralception.com].
Обеспечение качества данных при разработке машинного обучения
Хотя конкретные методы улучшения качества данных могут различаться в зависимости от конкретной проблемы, во многих ситуациях можно применять некоторые общие шаги:
- Проверьте источники данных.
- Убедитесь, что источники данных надежны и точны.
- Убедитесь, что ваша модель получает достаточно данных для обобщения.
2. Проверьте и очистите данные.
- Проверка несоответствий в маркировке. Выполните проверки и поиск помеченных данных, если это применимо.
- Проверить несоответствия меток — проверить распределение меток и вручную проверить записи с низкочастотными метками.
- Проверьте несоответствия маркировки — попробуйте создать инструмент, который будет давать вам подозрительные метки, чтобы вы могли проверять их вручную.
3. Стандартизируйте данные в общий формат или схему.
4. Привлеките экспертов в предметной области.
5. Документируйте соглашения после обсуждения несоответствий с маркировщиками.
6. Анализ данных и разработка функций.
7. Обучите модель с помеченными данными и примените модель к обучающим данным. Проверьте диффы.
8. Выполните анализ ошибок.
Разработка систем на основе машинного обучения — очень итеративный процесс. Отслеживание ваших заметок, выводов и соглашений в системе документации может помочь поддерживать качество данных. Выполняя указанные шаги и проявляя бдительность в отношении потенциальных проблем, вы можете гарантировать, что ваши данные имеют высокое качество и готовы к использованию в ваших проектах машинного обучения.
Подведение итогов
Важно учитывать качество и количество данных, а также структуру и функциональность используемой модели и кода. Уделяя первоочередное внимание качеству данных и привлекая профильных экспертов, компании могут повысить точность и эффективность своих систем искусственного интеллекта, стимулировать рост и успех, а также получить конкурентное преимущество.