
Концепция
Здоровый сон является ключевым элементом благополучия человека, который влияет на физическое здоровье, когнитивную функцию и психоэмоциональное состояние. В современном мире многие факторы образа жизни, такие как уровень физической активности, стресс, питание и состояние сердечно-сосудистой системы, могут как положительно, так и отрицательно влиять на качество сна.
Сон часто становится «жертвой» учёбы, ночных дедлайнов, подготовки к экзаменам или просто попыток успеть всё. Исследование факторов, влияющих на сон, поможет лучше понять, как образ жизни (уровень физической активности, стресс, режим дня) влияет на здоровье и продуктивность.

Я использовала датасет под названием «Sleep Health and Lifestyle» (Здоровье сна и образ жизни). Он содержит информацию о здоровье сна и образе жизни людей. Он включает данные, связанные с основными аспектами повседневной жизни и здоровья (продолжительность сна, субъективное качество сна, а также наличие или отсутствие нарушений сна, уровень физической активности, ежедневное количество шагов и уровень стресса, частота сердечных сокращений, категории индекса массы тела (ИМТ) и уровень артериального давления).

Этот датасет позволяет исследовать, как привычки и состояние здоровья влияют на качество и продолжительность сна, а также определить взаимосвязь между различными факторами образа жизни. Он полезен для выявления областей, требующих внимания, и разработки рекомендаций по улучшению сна и общего состояния здоровья.
Я вдохновлялась своими мыслями о представлении сна при выборе цветовой палитры. В моем понимании голубой является цветом спокойствия, умиротворения и отдыха. Затем я подобрала подходящую гамму с помощью Adobe Color.
Для визуализации данных я выбрала несколько типов графиков: Распределение возрастов пациентов (гистограмма): Позволяет понять, какие возрастные группы представлены в выборке и насколько равномерно они распределены.
Гендерное распределение пациентов (круговая диаграмма): Демонстрирует соотношение мужчин и женщин в исследуемой группе.
Зависимость длительности сна от возраста (точечная диаграмма): Отображает индивидуальные значения длительности сна в зависимости от возраста
Средняя длительность сна по категориям ИМТ (столбчатая диаграмма): Показывает, как длительность сна изменяется в зависимости от категории индекса массы тела.
Матрица корреляций числовых переменных (тепловая карта): Визуализирует взаимосвязи между всеми числовыми признаками.
Обработка данных
Для начала я импортировала необходимые мне библиотеки: Вы импортируете следующие библиотеки и модули: numpy, matplotlib.pyplot, pandas, seaborn, io, os, matplotlib.colors (ListedColormap).
Затем я устанавливаю дополнительные системные шрифты (в данном случае Liberation Fonts).
Затем я задаю семейство шрифтов как «sans-serif». Это значит, что для всех графиков будет использоваться шрифт без засечек. Устанавливаю шрифт «Liberation Sans» в качестве основного шрифта в категории sans-serif.
Настраиваю внешний вид графиков и их масштабы, чтобы они выглядели привлекательно и подходили для презентации. Устанавливаю цвет фона всей фигуры графика (включая за пределами области осей) в светло-голубой цвет с кодом #E3F2FD. Затем Устанавливает цвет фона внутри области осей графика в тот же светло-голубой оттенок. Таким образом, весь график визуально гармоничен.
Задаю размеры всей фигуры графика в дюймах: ширина — 16, высота — 9. Это даёт нам широкоформатный график, который особенно удобен для презентаций и анализа данных. Настраиваю контекст отображения графиков в библиотеке Seaborn. Увеличивает шрифт ещё на 20% от базового размера, чтобы текст был лучше заметен.
Эта часть кода задаёт параметры визуализации графиков в библиотеке Seaborn с использованием пользовательской цветовой палитры и стиля.
Загружаю датасет под названием «Sleep_health_and_lifestyle_dataset.csv» в DataFrame с использованием библиотеки pandas. После этого df хранит все данные из файла в табличной форме, позволяя анализировать и обрабатывать данные.
Затем задаю явное разделение столбцов из датасета на числовые (numeric_cols) и категориальные (categorical_cols), что облегчает их обработку и анализ.
Визуализация данных
Гистограмма помогает понять возрастную структуру данных, что важно для дальнейшего анализа, особенно если возраст связан с качеством сна или другими параметрами. Из нее можно понять, что в исследовании преобладают люди близкие к возрасту 45 лет.
Эта круговая диаграмма отображает гендерное распределение пациентов из датасета. Диаграмма иллюстрирует, какая часть выборки состоит из мужчин и женщин. Можно заметить, что количество пациентов обоих полов примерно одинаковое.
Точечная диаграмма визуализирует зависимость длительности сна от возраста пациентов. С помощью нее можно определить общие тенденции, например, имеется ли связь между возрастом и длительностью сна (например, с возрастом люди спят больше, меньше или изменений нет). Если точки разбросаны хаотично, это может означать отсутствие связи между двумя переменными.
Этот график помогает понять, как индекс массы тела влияет на продолжительность сна. Например, можно выявить, спят ли люди с нормальным ИМТ дольше, чем люди с избыточным весом или ожирением.
Анализ взаимосвязей позволяет выявить пары переменных, которые сильно коррелируют (например, «Age» и «Sleep Duration»), что может указывать на сильную зависимость. Если корреляция отрицательная, это указывает на обратную зависимость (например, чем больше одно значение, тем меньше другое). В то время как положительные значения означают прямую зависимость (например, увеличение одной переменной связано с увеличением другой).
Описание применения генеративной модели
Для своей работы я использовала Chat-GPT версии 4.0. Он помог мне подключить другой шрифт, а так же помог мне задать параметры визуализации графиков с помощью библиотеки Seaborn. Помимо этого, чат помог подготовить тепловую карту.
Цветовая палитра была создана с помощью Adobe Color.
Иллюстрации сгенерированы в Ideogram.
Список источников