БАЗОВЫЙ XAI
BASIC XAI с DALEX - Часть 4: Метод разбивки
Введение в исследование модели с примерами кода для R и Python.

Добро пожаловать в серию «BASIC XAI с DALEX».
В этом посте мы представляем метод Break Down, независимый от модели метод, который мы можем использовать для любого типа модели.
Доступны предыдущие части этой серии:
- БАЗОВЫЙ XAI с DALEX - Часть 1: Введение.
- БАЗОВЫЙ XAI с DALEX - Часть 2: Важность переменных на основе перестановок.
- БАЗОВЫЙ XAI с DALEX - Часть 3: Профиль частичной зависимости
Итак, приступим?
Во-первых, что это такое?
Предыдущие методы, которые мы обсуждали, касались глобального исследования моделей. Мы рассмотрели важность переменных и профилей частичной зависимости. Теперь мы переходим к локальным объяснениям, то есть к тем, которые касаются конкретного наблюдения. Мы можем рассматривать недвижимость, пациента, банк или телекоммуникационного клиента. Метод Break Down - одно из местных объяснений; он указывает для выбранного наблюдения вклад переменных в предсказание моделей.
Во-вторых, идея срыва
Основная идея состоит в том, чтобы рассчитать вклад переменной в прогноз f (x) как изменения ожидаемого отклика модели с учетом других переменных. Это означает, что мы начинаем со среднего ожидаемого отклика модели, последовательно добавляя переменные к условию. Конечно, порядок, в котором расположены переменные, также влияет на значения вкладов. Если наша модель является аддитивной, расположение отдельных переменных и значений будет таким же. Если у нас есть неаддитивная модель с переменными p, у нас есть p! заказы, усложняется расчетом.
Как рассчитывается метод разбивки?
Возьмем одно наблюдение из набора данных apartments.
m2.price 5897 construction.year 1953 surface 25 floor 3 no.rooms 1
Мы начинаем со среднего значения прогноза, т.е. для каждого наблюдения в наборе мы вычисляем прогноз, а затем усредняем его. На следующем этапе мы выбираем все наблюдения, для которых переменная Construction.year принимает значение 1953. Для этих переменных мы вычисляем средний прогноз. Разница между этим значением и средним прогнозом для модели - это вклад переменной construction.year. Затем из квартир, построенных в 1953 году, мы выбираем те, которые имеют площадь поверхности 25, и аналогичным образом вычисляем средний прогноз для этих наблюдений. На этом этапе мы уже определяем по двум переменным, для других переменных поступаем так же.



Более формальное введение в метод разбивки можно найти у П. Биецека и Т. Буржиковски. Анализ объяснительной модели.
В-третьих, давайте создадим модель на R и Python.
Напишем код. Мы все еще работаем над данными DALEX квартир. Для вычисления метода разбивки мы используем функцию pred_parts () с type = ‘break_down’. Нам нужен объясняющий объект и наблюдение, для которого мы хотим вычислить объяснение.
Посмотрим теперь на участок под эту квартиру. Наибольшее влияние на цену квартиры оказывает район «Охота», он находится недалеко от центра города. Однако на цену негативно влияет то, что квартира находится не в районе «Средместье» - центре города. Более того, число этажа, равное 7, и площадь 93 метра в квадрате имеют отрицательный вклад в цену.

В следующей части мы поговорим о методе значений Шепли.
Большое спасибо Przemyslaw Biecek и Hubert Baniecki за их поддержку в этом блоге.
Если вас интересуют другие сообщения об объяснимом, справедливом и ответственном машинном обучении, подпишитесь на #ResponsibleML на Medium.
Чтобы увидеть больше материалов, связанных с R, посетите https://www.r-bloggers.com