Этот проект направлен на разработку надежной модели для оценки кредитного риска и прогнозирования вероятности невозврата кредита. В модели используются различные методы, такие как логистическая регрессия, случайный лес и линейная регрессия, для анализа ключевых факторов, включая кредитную историю, финансовые показатели и характеристики заемщика. Шаги предварительной обработки, такие как масштабирование данных, выбор функций и обработка пропущенных значений, реализованы для обеспечения качества данных. В проекте также исследуются такие методы, как перекрестная проверка, показатели оценки (такие как точность и R-квадрат) и использование конвейеров. Конечной целью является создание надежной и точной модели, которая может помочь финансовым учреждениям в принятии обоснованных решений и эффективном управлении кредитным риском.

Оценка кредитного риска относится к процессу оценки вероятности того, что заемщик или должник не выполнит свои финансовые обязательства, что приведет к потенциальным убыткам для кредитора или кредитора. Он включает в себя анализ различных факторов и показателей для определения кредитоспособности и уровня риска, связанного с предоставлением кредита физическому лицу, компании или организации.

Суть проекта заключалась в реализации трех ключевых моделей: вероятность дефолта, потери в случае дефолта и вероятность дефолта. Эти модели позволили мне оценить ожидаемые убытки, связанные с каждым кредитом, с учетом таких факторов, как вероятность дефолта, потенциальные убытки в случае дефолта и общий риск, связанный с каждым кредитом.

Убыток при невыполнении обязательств (LGD) определяется как разница между непогашенной суммой кредита и суммой возмещения, полученной от неплатежеспособного заемщика.

LGD обычно рассчитывается по формуле:
LGD = (Сумма займа — Сумма возмещения) / Сумма займа

Подверженность дефолту (EAD) — это общая сумма средств, подверженных риску в случае дефолта заемщика. Он отражает потенциальные убытки, с которыми может столкнуться кредитор, если заемщик не сможет погасить кредит.

EAD обычно рассчитывается как непогашенная сумма кредита плюс любые неиспользованные части кредитных линий или неиспользованные кредитные средства. Он представляет собой максимальный потенциальный убыток на момент дефолта.

Вероятность дефолта (PD) является мерой кредитоспособности заемщика и представляет вероятность наступления дефолта. Он выражается в процентах или десятичной дробью от 0 до 1.

PD можно оценить с помощью различных методов, включая статистические модели, анализ исторических данных, модели кредитного скоринга и экспертную оценку. Эти модели учитывают различные факторы, такие как характеристики заемщика, финансовые показатели, кредитная история и макроэкономические факторы.

Окончательно,

Ожидаемый убыток (EL) — это финансовый показатель, используемый при оценке кредитного риска для оценки средней суммы, которую кредитор может ожидать потерять от кредитного портфеля за определенный период времени. EL объединяет вероятность дефолта (PD), подверженность дефолту (EAD) и убыток при дефолте (LGD) для расчета ожидаемых финансовых последствий событий дефолта. Это средний убыток, который кредитор ожидает в кредитном портфеле, с учетом вероятности дефолта, подверженности дефолту и убытка в случае дефолта. Он представляет собой ожидаемое финансовое влияние дефолта.

EL рассчитывается как произведение PD, EAD и LGD:

EL = PD * EAD * LGD

В проекте использовалась следующая методика:

1. Импорт и исследование данных. Были импортированы соответствующие библиотеки, такие как pandas, numpy, scikit-learn и r2 score. Набор данных был загружен в DataFrame, и было выполнено начальное исследование данных.

2. Очистка данных: были проверены повторяющиеся записи, но ничего не было найдено. Столбцы только с нулевыми значениями были удалены из DataFrame. Столбцы с ограниченными нулевыми значениями обрабатывались путем заполнения нулевых значений либо средними значениями, либо 0, в зависимости от других значений в столбце. Столбцы категорий были закодированы с использованием горячего кодирования (get_dummies), чтобы преобразовать их в числовое представление, подходящее для моделей.

3. Создание столбца:

- Коэффициент кредитной конверсии: столбец «credit_conversion_factor» был рассчитан по формуле:

(сумма_финансирования — total_rec_prncp) / сумма_финансирования.

где total_rec_prncp представляет собой «Основную сумму, полученную на сегодняшний день», а funded_amount представляет собой «общую сумму, выделенную для этого кредита на данный момент времени».

В этом столбце представлен коэффициент кредитной конверсии для каждого заемщика.

- Классификация «хороший/плохой»: столбец «хороший_плохой» был создан для классификации заемщиков как хороших или плохих на основе модели вероятности дефолта. Он содержал значение 0 для заемщиков, у которых не было вероятности дефолта, и 1 для заемщиков, у которых была вероятность дефолта.

4. Модель вероятности дефолта. Для построения модели вероятности дефолта использовалась логистическая регрессия. Характеристики были стандартизированы с помощью StandardScaler, а столбец «хорошо_плохо» служил в качестве зависимой переменной. Модель предсказала вероятность дефолта для каждого заемщика, и значения были присвоены столбцу «хорошо_плохо».

5. Воздействие модели по умолчанию. Логистическая регрессия использовалась для разработки модели воздействия по умолчанию. Использовались стандартизированные функции и столбец «credit_conversion_factor». Модель предсказала вероятность дефолта на основе значений коэффициента кредитной конверсии.

6. Модель убытков при дефолте. Столбец «recovery_rate_0_1» был создан для определения того, не выполнил ли заемщик дефолт или нет. Была применена логистическая регрессия со столбцом «recovery_rate_0_1» в качестве зависимой переменной для определения нарушителей. Наконец, регрессор случайного леса использовался с фактическим столбцом «recovery_rate» в качестве зависимой переменной для прогнозирования скорости восстановления для неплательщиков.

7. Расчет ожидаемого убытка: «Ожидаемый убыток» рассчитывался по следующей формуле:

Ожидаемый_убыток = (накопленная_сумма * прогнозы_ED) * (1 — прогнозы_LGD) * (1 -прогнозы_LGD_0_1) * прогнозы_PD

Проект был направлен на оценку кредитного риска, прогнозирование вероятности дефолта по кредиту, оценку подверженности дефолту и определение убытков в случае дефолта. Благодаря внедрению моделей логистической регрессии и случайного леса, а также тщательной очистке данных и методам разработки признаков была создана всеобъемлющая структура для оценки кредитного риска и прогнозирования дефолта по кредиту. Проект предоставил ценную информацию о классификации заемщиков, вероятности дефолта, подверженности дефолту, коэффициентах возмещения и ожидаемых убытках, что способствовало более информированному управлению кредитным риском и процессам принятия решений.

Ниже приведены результаты, достигнутые реализованными моделями:

Модель логистической регрессии, реализованная с использованием конвейера со стандартным масштабировщиком, показала многообещающие результаты в прогнозировании вероятности дефолта. Модель получила оценку R-квадрат 0,9386748922563907, что указывает на ее способность правильно классифицировать заемщиков по категориям дефолтов и недефолтов.

В случае воздействия по умолчанию модель случайного лесного регрессора показала аналогичную производительность с показателем точности 0,8344007073774503.

Для задачи классификации скорости восстановления в рамках модели потерь с учетом по умолчанию, где значения были классифицированы как 1 и 0, конвейер, состоящий из стандартного масштабатора для нормализации набора данных и модели логистической регрессии, показал хорошие результаты с показателем точности 0,9964940983989716.

Чтобы предсказать точную ставку возмещения выше 0 в рамках модели кредита по умолчанию с использованием регрессора случайного леса, модель получила оценку R-квадрата 0,9891080952507059. Это говорит о том, что модель уловила значительную часть дисперсии кредита с учетом переменной дефолта и продемонстрировала хорошее соответствие данным.