Original size 832x1248

Жизненный баланс в графиках

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

В этом проекте я анализирую датасет «Work-Life Balance and Longevity Dataset», найденный на сайте Kaggle.

Он содержит анонимные данные о 2,400 людях с информацией об их профессии, распорядке дня и продолжительности жизни. Эти данные включают среднее количество часов работы, отдыха, сна и физической активности в день, а также возраст на момент смерти.

Мне было интересно проанализировать именно эти данные, поскольку они позволяют исследовать фундаментальный вопрос современного общества: как баланс между работой и личной жизнью влияет на наше здоровье и долголетие. В эпоху, когда многие люди сталкиваются с проблемой переработок и недостатка сна, эти данные приобретают особую ценность для понимания оптимального распорядка дня.

Для помощи в составлении графиков я использовала нейросеть Qwen.

Типы графиков:

Гистограмма наглядно показывает, что распределение продолжительности жизни является нелинейным: одна группа людей умирает рано (40-60 лет), а другая доживает до старости (80-100 лет). Легко можжно пронаблюдать за вершинами графика. Диаграмма рассеяния с линией регрессии позволила выявить парадокс: положительная связь между сном и долголетием существует, но среди долгожителей есть и те, кто спит мало. Наблюдателю легко выявить случаи вне скоплений точек. Боксплоты по профессиям выявили ключевую разницу: менеджеры и предприниматели имеют самый большой разброс в возрасте смерти, в то время как ученые имеют высокие показатели смертности в более позднем периоде жизни. График позволяет отследить не только единичные случаи смертности, но и конкретные возрастные периоды. Группированная столбчатая диаграмма помогла четко увидеть дисбаланс: у техников и водителей время работы значительно превышает время отдыха, в отличие от артистов и фрилансеров. Легкий к чтению график, где легко наблюдается различия в величинах. Столбчатая диаграмма с планками ошибок позволяет продемонстрировать нелинейную зависимость между уровнем физической активности и долголетием. График иллюстрирует группы людей в легкой в чтении манере и наглядно демонстрирует различия между ними

Графики

post

Распределение продолжительности жизни

Основным фактором в исследовании является возраст. Данный график изображает смертность людей соответственно их возрасту.

Как мы можем видеть график выстроен не линейно и имеет две вершины. Мы можем пронаблюдать, что в датасет включены данные о смерти не связанной со старостью. Пик в период от 40 до 60 лет скорее всего отображает преждевременную смерть от болезней и несчастных случаев, в то время как дальнейший период от 60 лет скорее всего отображает смертность от недугов, напрямую связанных с возрастом.

Original size 667x441

Гистограмма

post

Влияние сна на продолжительность жизни

Здесь мы уже ближе подступаемся в главной теме анализа. Как различные жизненные факторы влияют на ее продолжительность. Начнем со сна, где имеется существенная корреляции качественного 8-ми часового сна с большей длительностью жизнь. Но так же нужно отметить, что статистически возможны случаи долголетия и среди людей с явно низким количеством часов сна, хоть они все еще остаются в меньшинстве.
Original size 544x434

Диаграмма рассеяния

post

Продолжительно жизни по профессиям

Датасет так же предлагает нам распределения групп людей по различным профессиям. Можно предположить, что высокая смертность в той или иной профессии зачастую связано с высоким уровнем стресса и загруженности или с высокими рисками для здоровья. Например менеджеры и предприниматели имеют довольно значительный разброс в продолжительности жизни, в то время как ученые фрилансеры имеют довольно кучную смертность ближе к периоду 80 лет. Так же профессией с самой низкой продолжительностью жизни является предприниматель, можно предположить, что это профессия имеет самый высокий уровень стресса.
Original size 663x434

Боксплоты

post

Баланс работы и отдыха по профессиям

Непосредственно связанный график с двумя предыдущими. Здесь мы можем изучить является ли отдых важным фактором в смертности различных профессий. Так же и на предыдущем графике предприниматель имеет самый низкий показатель, в данном случае — отдыха. Что может подтвердить гипотезу о том, что соотношение стресса к отдыху и сну напрямую влияет на продолжительность жизни.
Original size 577x435

Группированная столбчатая диаграмма

post

Влияние физической активности

Физическая активность может проявляться человеком как на месте работы, так и в рекреационных обстоятельствах. Датасет показывает, что статистически, чем выше уровень активности человека на протяжении жизни, тем дольше скорее всего он проживет. Хоть показатель очень высокой активности и имеет высочайшую продолжительность жизни, но так же в нем присутствуют высокий разброс данных, выше чем у справа стоящих категорий. Так что можно сделать предположение о том, что лучшей категорией можно считать ту, что с высоким уровнем физической активности, ведь она имеет наименьшее значение разброса.
Original size 742x474

Столбчатая диаграмма с планками ошибок

Этапы создания графиков

post

Для создания графиков я использовала библиотеки pandas, numpy, matplotlib.pyplot и seaborn. Весь текст в графиках написан шрифтом DejaVu Sans для удобного прочтения. Так же цвета выбранные для визуализации служат разным задачам в каждом из графиков.

Ключевые статистические методы

Фильтрация: df[df['occupation_type'].isin (list)] — выбор подмножества данных

Группировка: groupby () — агрегация данных по категориям

Категоризация: pd.cut () — преобразование непрерывных переменных в категориальные

Агрегация: agg (['mean', 'std', 'count']) — вычисление нескольких статистик одновременно

Сортировка: sort_values () — упорядочивание данных для лучшей визуализации

Корреляционный анализ: .corr () — вычисление взаимосвязей между переменными

Обработка категориальных данных: pd.Categorical () — задание порядка категорий

Original size 717x200

Методы статистики на основе шестого графика — Влияние физической активности на продолжительность жизни.

Изучающий и обучающий форматы визуализации

post

Изучающий формат визуализации

В изучающим формате основной целью является лишь показ всей доступной информации доступной на тему, он не несет за собой цели что-либо доказать или опровергнуть, лишь информирует. Как в примере показаны все возможные корреляции данных со всеми доступными параметрами доступными в датасете.
Original size 1684x692
post

Обучающий формат визуализации

В обучающем формате информация предоставляется наглядно и с целью показать конкретные корреляции, важные для изучения и рассмотрения. Как на примере столбчатая диаграмма позволяет визуально сравнить корреляции.
Original size 1189x590

Заключение

Проведенный анализ данных о качестве жизни выявил ключевые закономерности, имеющие практическую ценность для формирования здорового образа жизни. Исследование подтвердило, что профессия является критическим фактором здоровья. Менеджеры и предприниматели демонстрируют наибольший разброс в продолжительности жизни, что указывает на высокие риски, связанные со стрессом и переработками. При этом ученые и учителя показывают стабильно высокие результаты. Баланс времени оказался важнее абсолютных значений: сильная отрицательная корреляция между работой и отдыхом визуализирует важный выбор, стоящий перед каждым человеком. Сон, хотя и важен, не является определяющим фактором — его влияние перекрыто другими факторами. Эти выводы формируют основу для практических рекомендаций: оптимальный режим дня должен включать сбалансированное распределение работы и отдыха, регулярную умеренную физическую активность и осознанный выбор профессии с учетом ее влияния на здоровье.