ИИ, ориентированный на данные / Большие данные против хороших данных

Мы можем согласиться с тем, что ИИ не является универсальным решением. Однако для многих компаний искусственный интеллект может принести значительные преимущества и способствовать росту и успеху. Некоторые потенциальные преимущества включают следующее:

Повышенная эффективность: ИИ может автоматизировать задачи и процессы, экономя время и ресурсы для других действий.
Повышенная точность: ИИ может делать более точные прогнозы и решения, чем люди, что снижает риск ошибок.
Повышение качества обслуживания клиентов: ИИ может персонализировать взаимодействие с клиентами, обеспечивая более индивидуальный и удобный опыт.
Экономия затрат: ИИ может помочь предприятиям сократить расходы за счет автоматизации задач, повышения эффективности и сокращения потребности в человеческом труде.
Конкурентное преимущество: компании, использующие ИИ, могут получить конкурентное преимущество перед теми, кто этого не делает, поскольку они могут быстрее и эффективнее анализировать данные и воздействовать на них.

Последнее десятилетие принесло значительный рост в области науки о данных в целом. Однако общая ценность ИИ по-прежнему ограничена во многих секторах, таких как здравоохранение, производство и государственные технологии. В исследовании, опубликованном Accenture, 80% всех подтверждений концепции (PoC) не попадают в производство. Что именно идет не так, и почему ИИ не так успешен в реальном мире, как в академических исследованиях?

Ориентированный на модель подход против подхода, ориентированного на данные

Сильный модельно-ориентированный ИИ (традиционно представленный в академических кругах) рассматривает данные только как статический параметр. Если производительность модели не соответствует ожиданиям, инженеры AI/ML попытаются настроить гиперпараметры модели или даже изменить модель, пока данные остаются нетронутыми.

Эксперты в предметной области не играют жизненно важной роли во всем процессе разработки систем на основе ИИ с модельно-ориентированным подходом. Вместо этого инженеры AI/ML обычно принимают решения, связанные с бизнесом, во время этого процесса.

По словам Эндрю Нг, система ИИ представляет собой комбинацию кода и данных. Хотя значительное количество времени и ресурсов было посвящено разработке кода и алгоритмов, теперь необходимо уделить первоочередное внимание повышению качества и актуальности данных для достижения желаемых результатов.

Сместив акцент на данные, мы, по сути, переходим от ИИ, ориентированного на модели, к ИИ, ориентированному на данные.

При подходе, ориентированном на данные, роль профильных экспертов значительна, а системы ИИ гораздо ближе к каждому бизнесу.

Принятие подхода, ориентированного на данные, в реальном мире или во время работы над практическим проектом более плодотворно. Это означает, что модель остается фиксированной и фокусируется на подаче модели хороших или высококачественных данных. Приличный алгоритм с хорошими данными может даже превзойти отличный алгоритм с не очень хорошими данными.

Данные не должны быть единственным приоритетом в процессе разработки. Также важно учитывать структуру и функциональность используемой модели и кода. Выбор модели может существенно повлиять на точность, как это было продемонстрировано при анализе Катастрофы Титаника, где точность предсказания варьировалась от 78% до 94% в зависимости от алгоритма.

Большие данные против хороших данных: что важнее для ИИ?

«Хорошие данные» и «большие данные» — два термина, которые часто используются в области науки о данных и искусственного интеллекта. Под хорошими данными понимаются данные, которые являются точными, актуальными и хорошо организованными. Большие данные, с другой стороны, относятся к большим наборам данных, которые слишком велики и сложны для обработки и анализа с использованием традиционных инструментов и методов обработки данных.

Чтобы алгоритмы ИИ могли делать точные прогнозы и принимать решения, их необходимо обучать на больших объемах данных. Однако просто иметь много данных недостаточно. Данные также должны быть качественными и хорошо организованными, чтобы модель ИИ могла эффективно учиться.

Во многих случаях компании имеют доступ только к небольшим наборам данных, что может привести к плохим результатам, если основное внимание уделяется модели. Эндрю Нг подчеркивает преимущества подхода к машинному обучению, ориентированного на данные, и предполагает, что в сообществе должен произойти сдвиг в сторону этого подхода. Он использует пример задачи обнаружения дефектов стали, в которой подход, ориентированный на данные, улучшил точность модели на 16% по сравнению с подходом, ориентированным на модель [Источник: neptune.ai].

Проблемы с качеством данных

Многие известные наборы данных имеют проблемы с качеством данных. Например, наборы данных COCO и ImageNet широко используются в области компьютерного зрения для таких задач, как обнаружение объектов, классификация изображений и сегментация изображений. Хотя эти наборы данных широко используются и в целом считаются высококачественными, с ними были обнаружены некоторые проблемы, которые могут повлиять на их полезность для конкретных задач. Некоторые из проблем, обнаруженных в наборе данных COCO, включают неправильную маркировку объектов (первое изображение) и несоответствие маркировки (второе изображение) [Источник: neuralception.com].

Обеспечение качества данных при разработке машинного обучения

Хотя конкретные методы улучшения качества данных могут различаться в зависимости от конкретной проблемы, во многих ситуациях можно применять некоторые общие шаги:

Проверьте источники данных.

Убедитесь, что источники данных надежны и точны.
Убедитесь, что ваша модель получает достаточно данных для обобщения.

2. Проверьте и очистите данные.

Проверка несоответствий в маркировке. Выполните проверки и поиск помеченных данных, если это применимо.
Проверить несоответствия меток — проверить распределение меток и вручную проверить записи с низкочастотными метками.
Проверьте несоответствия маркировки — попробуйте создать инструмент, который будет давать вам подозрительные метки, чтобы вы могли проверять их вручную.

3. Стандартизируйте данные в общий формат или схему.

4. Привлеките экспертов в предметной области.

5. Документируйте соглашения после обсуждения несоответствий с маркировщиками.

6. Анализ данных и разработка функций.

7. Обучите модель с помеченными данными и примените модель к обучающим данным. Проверьте диффы.

8. Выполните анализ ошибок.

Разработка систем на основе машинного обучения — очень итеративный процесс. Отслеживание ваших заметок, выводов и соглашений в системе документации может помочь поддерживать качество данных. Выполняя указанные шаги и проявляя бдительность в отношении потенциальных проблем, вы можете гарантировать, что ваши данные имеют высокое качество и готовы к использованию в ваших проектах машинного обучения.

Подведение итогов

Важно учитывать качество и количество данных, а также структуру и функциональность используемой модели и кода. Уделяя первоочередное внимание качеству данных и привлекая профильных экспертов, компании могут повысить точность и эффективность своих систем искусственного интеллекта, стимулировать рост и успех, а также получить конкурентное преимущество.