
Вводная часть
Для поиска данных, которые я буду анализировать, я выбрала список баз данных на сайте Kaggle.com. Свой выбор остановила на базе данных сравнения качества жизни в разных странах. Такие данные откликнулись мне, поскольку я сама задумываюсь о переезде и для меня актульно сравнить показатели жизни в разных странах

Датасет на Kaggle.com
Для анализа данных я решил использовать:
1. Correlation Matrix Корреляционная матрица помогает понять, как сильно связаны между собой различные переменные в вашем наборе данных. В данной матрице каждая ячейка представляет собой корреляцию между двумя переменными. Корреляция варьируется от -1 до 1.
2. Boxplot Позволяет отображать распределение данных и более наглядно визуализирует распределение в отсортированном массиве данных. Показывая такие важные показатели, как медиана, квартили, межквартельный интервал и возможные выбросы. Это полезно для понимания диапазона значений и симметричности распределения.
3. Круговая диаграмма (pie) Круговая диаграмма используется для визуального представления данных в виде кругового диска, разделённого на сектора. Каждый сектор пропорционален величине представленных данных и обычно используется для отображения долей одного целого.
4. Столбчатая диаграмма (bar) Диаграмма, которая представляет собой отображение данных в виде столбцов в двух осях координат. Значение столбцов пропорционально велечине предоставленных данных.
Этапы работы
В этой таблице содержатся данные по 38 странам, включающими такие переменные, как ВВП на душу населения, навыки учащихся, личный заработок и иные 23 показателя.
Для дальнейшего анализа и визуализации я выбрал несколько показателей: решил сравнить влияне показателя Water quality (качество воды) на Employment rate (уровень занятости)
Этапы работы: 1. Выбор набора данных 2. Анализ данных 3. Визуализация
Оформление графиков:
В оформлении своих графиков я использовала разные цветовые палитры для наибольшей наглядности. Так как в Correlation Matrix используется широкий диапазон цвета, а во всех остальных достаточно двух противоположных и контрастирующих вариантов. Мои любимые цвета: мятный и розовый, поэтому выбор пал на них.
Цвет текста: #000000
Настройки цветовой карты Correlation Matrix: sns.heatmap (correlation_matrix, annot=True, cmap='inferno', fmt='.2f', linewidths=.5)
код для Correlation Matrix
Уже на этом этапе мы можем заметить как связаны между собой различные показатели по странам. Например, если посмотреть по столбцам Rooms per person и Air pollution, то на их пересечении мы можем увидть значение -0,67. Это говорит нам о отрицательной корреляции, при росте одного значения падает второй.
В моем случае я обратила внимание на связь Water quality и Employment rate. Здеть наблюдается положительная корреляция со значением 0,79. Дальнейший анализ будет проводиться по этим показателям.
Далее я написала две универсальные функции для построения диаграмм. Это созданно для того, чтобы мы могли визуализировать данные без дублирования кода.
У нас есть словарь data с номерами столбцов из нашего датасета. И нам достаточно указать при вызове функции в качестве аргументов только номера столбцов, которые нам нужны. Также в качестве необязательных аргументов мы можем указать вид диаграммы, сортировку и количество выводимых стран. В дефолтном состоянии: вид диграммы bar, сортировка отключена, а количество выводимых стран = количество всех стран.
Построим графики для соотношения Country / Employment rate и Country / Water quality
код для Boxplot
Boxplot
Приведенные выше графики дают ясное представлении о распределении данных. Здесь нет привязки к странам, но мы можем снять такие данные, как медиана, крайние значения, нижний и верхний квантили и возможные выбросы.
В нашем случае для показателя Employment rate мы снимаем следующие значения: Медиана: 68.66 Минимальное значение — 48.0 (Türkiye) Максимальное значение — 80.0 (Switzerland)
А для показателя Water quality мы снимаем следующие значения: Медиана: 84.53 Минимальное значение — 62.0 (Chile) Максимальное значение — 98.0 (Norway)
Код ниже представляет из себя также универсальную функцию, но уже для построения комбинированных графиков. Работает с теми же аргументами что и функция выше + дополнительный столбец для налажения графиков.
код для комбинированной столбчатой диаграммы
Комбинированная столбчатая диаграмма
На данном графике мы наглядно видим разницу двух показателей по странам и можем снять уже нужные данные для дальнейшего анализа
Код для круговой диаграммы
Круговая диаграмма
Я выбрала круговые диаграммы для наглядной демонстрации разниц показателей Employment Rate и Water Quality по 2ум странам: Costa Rica и Iceland.
В Iceland разница минимальна среди всех стран, в Costa Rica разница наоборот максимальна
Вывод
Анализ показал, что между качеством воды и вторым нашем показателем есть прямая корреляция. Чем выше качество воды, тем выше уровень занятости в стране
Создание обложки с помощью ИИ
Нейросеть Leonardo.Ai
Написанный промпт: «A vividly contrasting graph, showcasing the intricate relationship between water quality indicators and employment rates. The graph is vibrant and dynamic, with colorful data points representing the impact on both variables. Each detail is meticulously displayed, from the precise correlation lines to the sophisticated color scheme that enhances readability. The overall aesthetic is modern and professional, making it a visually striking and informative visual tool for data analysis.»