Original size 1240x1750

Кредитный скоринг. Анализ данных

3

Описание проекта

В рамках проекта я выбрала заниматься визуализацией кредитного скоринга, который оценивает вероятность возврата кредита клиентом. На основе определенного набора данных, который содержит информацию о 1000 клиентах, включая примерно 20 характеристик каждого, а также их кредитный рейтинг в виде положительной или отрицательной оценки, я построю несколько графиков, отражающих тот или иной аспект.

В современном мире, где финансовые операции становятся всё более сложными и разнообразными, кредитный скоринг играет ключевую роль в оценке рисков и принятии решений о кредитовании, а графическое представление данных позволяет быстро и наглядно оценить сложные взаимосвязи и тенденции, что является неотъемлемой частью аналитической работы.

Я сосредоточу внимание на изучении количества положительных (клиенты, которые успешно выплатили кредит) и отрицательных (клиенты, имеющие проблемы с выплатой кредита) случаев для более глубокого понимания взаимосвязи между размером текущего счёта клиентов и их кредитной историей. Это позволит нам выявить, существует ли корреляция между финансовым состоянием клиента и его надёжностью как заемщика.

Для наглядности результатов анализа я построю зеркальные горизонтальные гистограммы, которые покажут распределение положительных и отрицательных кейсов в зависимости от размера текущего счёта. Эти гистограммы будут расположены напротив друг друга, что позволит с лёгкостью сравнивать данные категории.

Используемые графики: - зеркальная горизонтальная гистограмма - столбчатая диаграмма - диаграмма рассеяния - 3D диаграмма рассеяния - скрипичный график

Графики и коды

big
Original size 2695x1350

*был выполнен перенос строчки, чтобы код уместился в экран (не искаженный код есть в папке ниже)

Original size 2695x1350

Сравнительное количество положительных и отрицательных кейсов в зависимости от размера текущего счёта

Можно заметить, что в категорию с хорошим рейтингом чаще всего попадают люди с большим количеством денег на чековом аккаунте или с постоянной зарплатой. Связано это скорее всего с тем, что такие люди легко могут выплатить кредиты, раз у них имеются деньги. С другой стороны, плохой рейтинг чаще всего получают люди без чекового аккаунта или с отрицательным балансом на нем. Отсутствие денег на чековых аккаунтах сигнализирует о тяжелом финансовом состоянии человека, значит ему будет труднее выплатить свой кредит.

Далее я построила гистограмму для сравнения количества положительных и отрицательных кейсов в зависимости от размера сберегательного счёта.

Original size 2695x284

перед этим нужно import seaborn as sns

Original size 2695x1350

Сравнение количества положительных и отрицательных кейсов в зависимости от размера сберегательного счёта.

Можно заметить, что в целом людей без аккаунта сбережений (или без информации о нем) больше, чем людей в любых иных категориях. Зависимости между категорией сбережений и кредитным риском не наблюдается, в обоих вариантах распределение людей примерно одинаковое.

Для каждого размера сберегательного счёта я могу оценить не только количество положительных и отрицательных кейсов, но и их распределение по возрасту. Построю подходящую для этого визуализацию

Original size 2695x227
Original size 2695x1350

Распределение по возрасту

Легко заметить общий сдвиг датасета к возрасту 20-40 лет. Также видно что средний возраст людей с плохим рейтингом в каждой группе чуть ниже возраста людей с хорошим рейтингом, особенно это заметно на графике в категории 100-500 ДМ. График в категории 500-1000 ДМ у плохого рейтинга ведёт себя нестандартно, но связано это лишь с тем, что в него попало очень мало наблюдений (см. предыдущий график)

Почему именно скрипичный график? В моём случае, он позволяет сравнить распределение возраста людей в разных категориях сбережений (savings) и в зависимости от их кредитного рейтинга (credit_risk). Это дает возможность увидеть, как возраст и кредитный рейтинг распределены внутри каждой категории сбережений, а также сравнить эти распределения между категориями.

Таким образом, скрипичный график в данном случае удобен, потому что он позволяет:

- Визуализировать распределение данных по нескольким переменным одновременно. - Сравнивать распределения между разными группами или категориями. - Наглядно представить плотность распределения данных, что может быть полезно для выявления особенностей данных, которые могут быть не видны при использовании других типов графиков.

Посмотрим на распределение положительных и отрицательных кейсов по возрастам, разместив их друг над другом. Добавим распределение всех взятых кредитов.

Original size 2695x783
Original size 2695x2835

Распределение положительных и отрицательных кейсов по возрастам + распределение всех взятых кредитов.

На этих гистограммах более заметно, что основная часть людей с плохим кредитным рейтингом — молодые люди 20-30 лет, тогда как хороший рейтинг имею люди старше: 30+

Не менее полезной иногда может быть диаграмма рассеяния. Я построила такую диаграмму с продолжительностью и размерами кредитов в качестве осей и обозначила положительные и отрицательные кейсы разными цветами.

Original size 2695x301
Original size 2695x1350

продолжительность и размеры кредитов

По этому графику тяжело сделать качественные выводы из-за того, что точки могут накладываться друг на друга, однако можно заметить, например, что большие суммы занятые на короткий срок — показатель плохого кредитного риска.

Затем я решила продвинуться глубже и попробовать построить 3D версию диаграммы рассеяния, добавив ось с возрастом.

Original size 2695x783
Original size 2695x1350

продолжительность и размеры кредитов + ось с возрастом

По данному графику можно сказать, что основная часть кредитов взята на небольшую сумму (до 7.500) людьми в возрасте 20-35 лет на срок до 3 лет

Кредитный скоринг. Анализ данных
3