Original size 1748x2480

Анализ данных — корреляция качества воды к уровню занятости

PROTECT STATUS: not protected
13

Вводная часть

Для поиска данных, которые я буду анализировать, я выбрала список баз данных на сайте Kaggle.com. Свой выбор остановила на базе данных сравнения качества жизни в разных странах. Такие данные откликнулись мне, поскольку я сама задумываюсь о переезде и для меня актульно сравнить показатели жизни в разных странах

big
Original size 1506x228

Датасет на Kaggle.com

Для анализа данных я решил использовать:

1. Correlation Matrix Корреляционная матрица помогает понять, как сильно связаны между собой различные переменные в вашем наборе данных. В данной матрице каждая ячейка представляет собой корреляцию между двумя переменными. Корреляция варьируется от -1 до 1.

2. Boxplot Позволяет отображать распределение данных и более наглядно визуализирует распределение в отсортированном массиве данных. Показывая такие важные показатели, как медиана, квартили, межквартельный интервал и возможные выбросы. Это полезно для понимания диапазона значений и симметричности распределения.

3. Круговая диаграмма (pie) Круговая диаграмма используется для визуального представления данных в виде кругового диска, разделённого на сектора. Каждый сектор пропорционален величине представленных данных и обычно используется для отображения долей одного целого.

4. Столбчатая диаграмма (bar) Диаграмма, которая представляет собой отображение данных в виде столбцов в двух осях координат. Значение столбцов пропорционально велечине предоставленных данных.

Этапы работы

В этой таблице содержатся данные по 38 странам, включающими такие переменные, как ВВП на душу населения, навыки учащихся, личный заработок и иные 23 показателя.

Для дальнейшего анализа и визуализации я выбрал несколько показателей: решил сравнить влияне показателя Water quality (качество воды) на Employment rate (уровень занятости)

Этапы работы: 1. Выбор набора данных 2. Анализ данных 3. Визуализация

Оформление графиков:

В оформлении своих графиков я использовала разные цветовые палитры для наибольшей наглядности. Так как в Correlation Matrix используется широкий диапазон цвета, а во всех остальных достаточно двух противоположных и контрастирующих вариантов. Мои любимые цвета: мятный и розовый, поэтому выбор пал на них.

Цвет текста: #000000

Настройки цветовой карты Correlation Matrix: sns.heatmap (correlation_matrix, annot=True, cmap='inferno', fmt='.2f', linewidths=.5)

Original size 1074x552

код для Correlation Matrix

Original size 1396x1185

Уже на этом этапе мы можем заметить как связаны между собой различные показатели по странам. Например, если посмотреть по столбцам Rooms per person и Air pollution, то на их пересечении мы можем увидть значение -0,67. Это говорит нам о отрицательной корреляции, при росте одного значения падает второй.

В моем случае я обратила внимание на связь Water quality и Employment rate. Здеть наблюдается положительная корреляция со значением 0,79. Дальнейший анализ будет проводиться по этим показателям.

Далее я написала две универсальные функции для построения диаграмм. Это созданно для того, чтобы мы могли визуализировать данные без дублирования кода.

У нас есть словарь data с номерами столбцов из нашего датасета. И нам достаточно указать при вызове функции в качестве аргументов только номера столбцов, которые нам нужны. Также в качестве необязательных аргументов мы можем указать вид диаграммы, сортировку и количество выводимых стран. В дефолтном состоянии: вид диграммы bar, сортировка отключена, а количество выводимых стран = количество всех стран.

Построим графики для соотношения Country / Employment rate и Country / Water quality

0

код для Boxplot

0

Boxplot

Приведенные выше графики дают ясное представлении о распределении данных. Здесь нет привязки к странам, но мы можем снять такие данные, как медиана, крайние значения, нижний и верхний квантили и возможные выбросы.

В нашем случае для показателя Employment rate мы снимаем следующие значения: Медиана: 68.66 Минимальное значение — 48.0 (Türkiye) Максимальное значение — 80.0 (Switzerland)

А для показателя Water quality мы снимаем следующие значения: Медиана: 84.53 Минимальное значение — 62.0 (Chile) Максимальное значение — 98.0 (Norway)

Код ниже представляет из себя также универсальную функцию, но уже для построения комбинированных графиков. Работает с теми же аргументами что и функция выше + дополнительный столбец для налажения графиков.

Original size 1180x698

код для комбинированной столбчатой диаграммы

Original size 630x492

Комбинированная столбчатая диаграмма

На данном графике мы наглядно видим разницу двух показателей по странам и можем снять уже нужные данные для дальнейшего анализа

Original size 1180x698

Код для круговой диаграммы

0

Круговая диаграмма

Я выбрала круговые диаграммы для наглядной демонстрации разниц показателей Employment Rate и Water Quality по 2ум странам: Costa Rica и Iceland.

В Iceland разница минимальна среди всех стран, в Costa Rica разница наоборот максимальна

Вывод

Анализ показал, что между качеством воды и вторым нашем показателем есть прямая корреляция. Чем выше качество воды, тем выше уровень занятости в стране

Создание обложки с помощью ИИ

Нейросеть Leonardo.Ai

Написанный промпт: «A vividly contrasting graph, showcasing the intricate relationship between water quality indicators and employment rates. The graph is vibrant and dynamic, with colorful data points representing the impact on both variables. Each detail is meticulously displayed, from the precise correlation lines to the sophisticated color scheme that enhances readability. The overall aesthetic is modern and professional, making it a visually striking and informative visual tool for data analysis.»

Анализ данных — корреляция качества воды к уровню занятости
13