И лучше интерпретируйте свои модели машинного обучения

Обзор

Диаграммы влияния функций — это современные рабочие лошадки объяснимого ИИ. Они представляют собой визуальное представление важности различных функций в моделях машинного обучения и обычно являются первым пониманием, к которому обращаются специалисты по данным при интерпретации своих моделей.

Эти диаграммы помогают специалистам по данным и аналитикам лучше понять вклад каждой функции в общую производительность модели. Оценивая влияние каждой функции, становится проще определить наиболее значимые переменные и сосредоточиться на повышении качества данных, используемых для обучения модели. В свою очередь, это может привести к более точным прогнозам и повышению общей производительности модели.

На диаграмме влияния функций ось Y отображает функции, а ось X представляет величину их важности. Функции ранжируются в порядке убывания важности, что позволяет легко определить, какие переменные оказывают наиболее значительное влияние на выходные данные модели. Давайте посмотрим на пример, построенный на модели оттока, которую я обсуждал в этом посте:

Вы можете видеть, что общее количество продуктов, приобретенных клиентом, является самой важной характеристикой в ​​нашей модели оттока, за которой следует средний доход клиента за пять лет.

Помимо того, что они помогают объяснить, как работает модель, специалисты по обработке и анализу данных также часто используют эти диаграммы, чтобы проверить свою модель на работоспособность, отметить целевую утечку и выбрать сокращенный набор функций.

Так в чем же большое улучшение? 👀

Давайте посмотрим, как мы можем разбить эти диаграммы, чтобы лучше понять, как работает наша модель:

Поскольку эти диаграммы построены из Shapely значений, мы можем агрегировать их, как захотим. В этом случае мы можем сгруппировать по именам наших функций и признаку силы функции (то есть, увеличивает или уменьшает значение функции предсказание нашей модели).

Здесь интересно то, что есть две характеристики, которые только положительно влияют на наши прогнозы: общее количество продуктов, приобретенных за последние 5 лет, и средний регулярный доход (ARR) за последние 5 лет.

Другой поворот на приведенной выше диаграмме — фильтрация данных до только наблюдений с положительными предсказаниями класса.

Мы можем расширить этот анализ и включить отдельную диаграмму влияния функций как для наших отрицательных, так и для положительных прогнозируемых классов. Другими словами, мы можем углубиться и увидеть, какие факторы положительно и отрицательно влияют на отток клиентов, которые, как мы ожидаем, с большой вероятностью возобновят подписку, и для клиентов, которые, как мы ожидаем, вряд ли возобновят подписку.

Если вы быстро просмотрите эти две диаграммы, вы увидите, что количество уникальных пользователей за последний месяц (верхняя характеристика на правой диаграмме) является гораздо более важной характеристикой для клиентов, которые, по прогнозам, будут уходить.

Мы можем пойти еще дальше и отфильтровать информацию по определенной группе клиентов. Давайте посмотрим, как эти графики меняются, если мы просто посмотрим на банковскую отрасль:

Вы можете сказать, что порядок влияния функций изменился. Примечательно, что общее использование продукта теперь более важно для клиентов из группы риска, чем раньше, а продолжительность контракта имеет немного меньшее значение.

И это все для сегодняшнего поста. Дайте мне знать, что вы думаете в комментариях. и перейдите здесь, чтобы увидеть код, и подпишитесь на меня в Medium и LinkedIn, чтобы получить дополнительные полезные советы по науке о данных. Спасибо за прочтение!