
Введение
Для проекта я выбрал датасет «Sleep Health and Lifestyle Dataset», который содержит информацию о сне, здоровье и повседневной активности 374 человек, и позволяет изучить, как аспекты образа жизни связаны с качеством и продолжительностью сна.
Тему сна я выбрал не случайно: сон — фундаментальная физиологическая потребность, напрямую влияющая на концентрацию, настроение, память и общее состояние здоровья. В условиях высокой нагрузки сейчас всё больше людей сталкиваются с нарушениями сна, поэтому анализ факторов, способствующих или препятствующих его нормализации, имеет не только исследовательскую, сколько практическую ценность для меня.
Датасет дал возможность сформулировать несколько гипотез и проверить их с помощью визуального анализа. Для этого были выбраны разные типы графиков: столбчатые диаграммы, диаграммы рассеяния, круговая диаграмма и тепловая карта корреляций. Каждый график был подобран в соответствии с характером сравниваемых переменных, что позволило не только наглядно отразить статистические зависимости, но и сделать анализ более убедительным и визуально последовательным.
В соответствии с темой сна, была выбрана спокойная стилистика с приглушённой цветовая палитра, преобладанием мягких синих и зелёных оттенков. Вместо чисто белого использован молочный фон, чтобы снизить визуальное напряжение.
Этапы работы
Первым делом, я импортировал датасэт в рабочую среду Google Collab и проанализировал датасэт на типы переменных и наличие пропущенных значений. Далее я сгруппировал переменные. Категориальные и числовые переменные были оставлены в исходном виде.
Для визуализации данных я использовал библиотеки matplotlib и seaborn, позволяющие создавать графики с полной кастомизацией внешнего вида. Для визуализации была выбрана приглушённая палитра, созвучная с темой сна. Акцент сделан на мягкие оттенки синего и зеленого, а в качестве фона был выбран молочный, а не чисто белый цвет, чтобы не напрягать зрение и поспособствовать здоровому сну зрителя, если он будет читать графики ночью. Для всего текста был использован единый шрифт Lato. Благодаря этому все графики визуально согласуются между собой и воспринимаются как части единого исследования.
Для улучшения читаемости были добавлены числовые подписи на столбчатых графиках, настроены размеры элементов, выравнивание подписей и оптимальные соотношения сторон. Все графики были построены с учётом их роли в структуре проекта — каждый из них соответствует конкретной гипотезе или дополняет её интерпретацию.
Графики
В рамках проекта было построено шесть графиков четырёх различных типов. Каждый из них был выбран в соответствии с типом анализируемых переменных и гипотезой.
Количество и качество сна заметно варьируется, исходя из профессии человека — такое утверждение я выдвинул как первую аналитическую гипотезу. Для её проверки были построены два столбчатых графика. Первый график показывает среднее количество часов сна в каждой профессиональной категории. Он позволил выявить, что представители некоторых профессий, таких как студенты и фрилансеры, спят дольше по сравнению, например, с врачами или офисными работниками. Второй график отражает среднее качество сна по тем же категориям. В нём прослеживается, что высокая продолжительность сна не всегда означает высокое качество — некоторые профессии, несмотря на достаточное количество сна, имеют более низкие оценки по субъективному качеству.
Вторая гипотеза была направлена на выявление зависимости между физической активностью и продолжительностью сна. Визуализация включала два графика регрессии. Первый из них показывает точки распределения по количеству шагов и продолжительности сна, сгруппированные по полу. Второй график содержит ту же выборку, но дополнен линией тренда, которая подчёркивает, что статистическая связь между этими переменными крайне слабая. Это подтверждается коэффициентом корреляции, равным -0.04.
Третья гипотеза заключалась в том, что пол человека заметно не влияет на качество сна. Для её анализа была построена круговая диаграмма, на которой отражено общее распределение всех случаев расстройств сна по полу. Диаграма показала, что распределение отклонений сна по полам практически равное.
Завершающим графиком стала тепловая карта, отображающая коэффициенты корреляции между основными числовыми переменными, включая продолжительность сна, качество сна, возраст, уровень стресса, уровень физической активности, индекс массы тела и частоту сердцебиения. Этот график позволил в сжатом виде увидеть общую структуру взаимосвязей. Наиболее выраженными оказались отрицательная корреляция между уровнем стресса и качеством сна, а также умеренная положительная связь между продолжительностью сна и его качеством. Использование тепловой карты позволило обобщить результаты и дополнить локальные наблюдения более глобальными статистическими связями.
Выводы
Результаты анализа подтверждают, что на продолжительность и качество сна влияют несколько факторов, среди которых профессия и уровень стресса, однако факторы физической активности и пола значительного влияния не показали. Таким образом, это исследование показывает, что сон — это многогранный процесс, зависящий от сочетания физиологических, поведенческих и социальных факторов. Визуальный подход к исследованию позволил не только выявить ключевые зависимости, но и представить их в удобной форме для интерпретации.
Применение ИИ
В проекте использовалась языковая модель ChatGPT, разработанная компанией OpenAI. Основана на архитектуре GPT-4 (Generative Pre-trained Transformer 4). Модель применялась для решения возникающих трудностей в процессе написания кода. Также модель использовалась для корректного описания в тексте инструментов применяемых в коде.
Ссылка на блокнот