
Вводная часть
В этом проекте я анализирую датасет «Work-Life Balance and Longevity Dataset», найденный на сайте Kaggle.
Он содержит анонимные данные о 2,400 людях с информацией об их профессии, распорядке дня и продолжительности жизни. Эти данные включают среднее количество часов работы, отдыха, сна и физической активности в день, а также возраст на момент смерти.
Мне было интересно проанализировать именно эти данные, поскольку они позволяют исследовать фундаментальный вопрос современного общества: как баланс между работой и личной жизнью влияет на наше здоровье и долголетие. В эпоху, когда многие люди сталкиваются с проблемой переработок и недостатка сна, эти данные приобретают особую ценность для понимания оптимального распорядка дня.
Для помощи в составлении графиков я использовала нейросеть Qwen.
Графики

Как мы можем видеть график выстроен не линейно и имеет две вершины. Мы можем пронаблюдать, что в датасет включены данные о смерти не связанной со старостью. Пик в период от 40 до 60 лет скорее всего отображает преждевременную смерть от болезней и несчастных случаев, в то время как дальнейший период от 60 лет скорее всего отображает смертность от недугов, напрямую связанных с возрастом.
Гистограмма

Диаграмма рассеяния

Боксплоты

Группированная столбчатая диаграмма

Столбчатая диаграмма с планками ошибок
Этапы создания графиков

Для создания графиков я использовала библиотеки pandas, numpy, matplotlib.pyplot и seaborn. Весь текст в графиках написан шрифтом DejaVu Sans для удобного прочтения. Так же цвета выбранные для визуализации служат разным задачам в каждом из графиков.
Ключевые статистические методы
Фильтрация: df[df['occupation_type'].isin (list)] — выбор подмножества данных
Группировка: groupby () — агрегация данных по категориям
Категоризация: pd.cut () — преобразование непрерывных переменных в категориальные
Агрегация: agg (['mean', 'std', 'count']) — вычисление нескольких статистик одновременно
Сортировка: sort_values () — упорядочивание данных для лучшей визуализации
Корреляционный анализ: .corr () — вычисление взаимосвязей между переменными
Обработка категориальных данных: pd.Categorical () — задание порядка категорий
Методы статистики на основе шестого графика — Влияние физической активности на продолжительность жизни.
Изучающий и обучающий форматы визуализации


Заключение
Проведенный анализ данных о качестве жизни выявил ключевые закономерности, имеющие практическую ценность для формирования здорового образа жизни. Исследование подтвердило, что профессия является критическим фактором здоровья. Менеджеры и предприниматели демонстрируют наибольший разброс в продолжительности жизни, что указывает на высокие риски, связанные со стрессом и переработками. При этом ученые и учителя показывают стабильно высокие результаты. Баланс времени оказался важнее абсолютных значений: сильная отрицательная корреляция между работой и отдыхом визуализирует важный выбор, стоящий перед каждым человеком. Сон, хотя и важен, не является определяющим фактором — его влияние перекрыто другими факторами. Эти выводы формируют основу для практических рекомендаций: оптимальный режим дня должен включать сбалансированное распределение работы и отдыха, регулярную умеренную физическую активность и осознанный выбор профессии с учетом ее влияния на здоровье.