
о проекте
Я выбрала для анализа датасет, содержащий информацию о пациентах с раком легких и различных факторах риска. Этот датасет включает такие параметры как возраст, пол, статус курения, стаж курения, воздействие вторичного дыма, профессиональные вредности, уровень загрязнения воздуха, генетические маркеры и другие показатели здоровья. Однако я решила сделать упор именно на влияние курения.

Референс цветовой палитры
Я решила проанализировать именно эти данные, потому что в моем окружении многие люди имеют эту вредную привычку.
Несмотря на то, что часто мы видим предупреждения о вреде курения, это не останавливает человека прекратить убивать себя ежедневно. Рак легких остается одной из ведущих причин смертности от онкологических заболеваний.
Мне стало интересно узнать кто наиболее подвержен этому риску и есть ли взаимосвязь между стажем курения и возрастом. Визуализация этих зависимостей может помочь в понимании ключевых факторов риска.

Цветовая палитра: #831D1A, #EE0C06, #1A65B7, #E9E5CE, #FCB0D1
Для основной цветовой палитры были использованы цвета с фотографии рака легких. Красный часто ассоциируется с различными болезнями, поэтому хорошо подходит под тематику. Два оттенка синего дополняют и отсылают к флюорографии. Жемчужные ленты или эмблемы часто используют в качестве символов борьбы против рака легких, поэтому этот цвет также есть в палитре.
визуализация данных
Мой датасет с платформы Kaggle под названием «Lung_Cancer_Trends_Realistic».
Виды графиков я выбрала исходя из того, какой из вариантов покажется мне наиболее логичным и уместным для конкретной ситуации. В итоге я проанализирую датасет по 5 диаграммам разных видов: столбчатой, гистограмме, линейной и круговой.
Первоначально я импортировала необходимые библиотеки и задала необходимые параметры для стилистики моей визуализации. Использовала цвета из подобранной ранее палитры и выбрала шрифт Cofo Sans Mono Trial.
график 1
На первом графике столбчатая диаграмма, показывающая распределение пациентов по стадиям рака лёгких. Сначала фильтруются пациенты с диагнозом рака (исключая значение None), затем подсчитывается количество пациентов для каждой стадии. Столбцы окрашены в заданные цвета, а над каждым отображается точное количество пациентов.
Первый график — это столбчатая диаграмма с распределением пациентов по стадиям рака. В базе данных представлены различные пациенты из которых мы проводим фильтрацию только тех, кто болен раком. А после этого разделяем их на стадии.
Распределение пациентов по стадиям рака легких
График показывает нелинейное распределение пациентов по стадиям рака лёгких. Наблюдается повышение количества больных людей на третьей стадии, возможно это связано поздним обнаружением симптомов рака.
график 2
Этот код строит гистограмму распределения возраста пациентов с помощью numpy.histogram, разбивая данные на 30 интервалов. Каждый столбец гистограммы центрируется по середине интервала. Добавляется вертикальная пунктирная линия со средним возрастом.
Распределение возраста пациентов
Распределение возраста пациентов с раком лёгких показывает пик заболеваемости в 55–60 лет, что соответствует типичной группе риска. Средний возраст — 56.7 года. Резкий спад после 70 лет может быть связан с меньшей продолжительностью жизни или менее агрессивной диагностикой у пожилых.
график 3
Код строит сгруппированную столбчатую диаграмму, чтобы сравнить распределение стадий рака лёгких среди пациентов с разным статусом курения. Я отфильтровала данные: исключила пациентов без диагноза рака. Далее сгруппировала по статусу курения и стадии рака, подсчитала количество пациентов в каждой группе.
Использовала столбцы с накоплением, чтобы показать вклад каждой стадии в общее число пациентов.
Распределение стадий рака по статусу курения
Курение — ключевой фактор риска: у курящих рак чаще обнаруживают на поздних стадиях, что снижает шансы на успешное лечение.
график 4
Код строит линейный график, показывающий динамику выживаемости пациентов с раком лёгких по регионам. Используется группировка данных по году диагностики, региону и статусу выживаемости, а линии разного типа (сплошные/пунктирные) отражают выживших и умерших пациентов.
Динамика выживаемости пациентов с раком легких по регионам
На графике видно, как меняется количество случаев рака и выживаемость по регионам с течением времени. В одних регионах преобладают летальные исходы, в других — более благоприятная статистика. Динамика линий позволяет выявить проблемные регионы, где требуется усилить диагностику и лечение. Резкие изменения в определённые годы могут быть связаны с изменениями в системе учёта или вспышками заболевания. В целом, график наглядно демонстрирует региональные различия в борьбе с раком лёгких.
график 5
Код создает комплексную визуализацию из двух графиков, анализирующих связь между доходом, курением и возрастом пациентов. В первой части строится круговая диаграмма, показывающая распределение пациентов по уровню дохода и статусу курения. Вторая часть представляет горизонтальную столбчатую диаграмму, отображающую средний возраст в каждой из этих групп.
Анализ взаимосвязи дохода, курения и возраста пациентов
Анализ показывает четкую взаимосвязь между социально-экономическим статусом, привычками курения и возрастом пациентов. На круговой диаграмме видно, что наибольшую долю составляют пациенты со средним уровнем дохода, при этом распределение по статусу курения варьируется. Горизонтальная диаграмма демонстрирует, что средний возраст пациентов различается между группами — например, курящие пациенты с высоким доходом в среднем старше, чем некурящие со средним доходом. Эти данные могут указывать на то, что уровень дохода и курение являются значимыми факторами, влияющими как на заболеваемость, так и на возраст диагностики рака легких.
заключение
Исследование выбранного датасета помогло мне углубиться в тематику курения и последствий от этого. Во многих случаях мы наблюдали то, что развитие рака легких не связано со стажем курения, но порой это является губительным фактором.
Чат GPT использовался в качестве консультанта по написанию кода при возникновении вопросов и ошибок, которые не удавалось решить своими силами. Источник изображений: pinterest https://fi.pinterest.com/pin/42643527700820559/