Original size 1140x1596

Анализ болезни Паркинсона

PROTECT STATUS: not protected
8

Концепция

Болезнь Паркинсона — это хроническое прогрессирующее заболевание, которое влияет на двигательную систему и качество жизни пациентов. Оно является вторым по распространенности нейродегенеративным заболеванием после болезни Альцгеймера. Болезнь Паркинсона чаще всего развивается у людей старше 60 лет, но в некоторых случаях может проявляться и в более раннем возрасте.

Какие данные я выбрала?

Для анализа я использовала датасет [1], содержащий информацию о пациентах с болезнью Паркинсона. В датасете представлены следующие данные:

1. Возраст пациентов

2. Пол

3. Уровень образования

4. Наличие привычки курения

Эти данные позволяют изучить, как различные факторы могут быть связаны с развитием болезни Паркинсона.

Для стилизации графиков я вдохновлялась медицинскими инфографиками, которые часто используют минималистичный дизайн с акцентом на четкость и читаемость данных. Я планирую использовать мягкие, но контрастные цвета, чтобы выделить ключевые моменты. В графиках и оформлении лонгрида за основные цвета я взяла розовый и синий на контрасте: #F98298, #342E8E.

big
Original size 1000x500

Для визуализации я выбрала вертикальную гистограмму (хорошо показывает распределение пациентов в соотношении количества и возраста), горизонтальную гистограмму (можно легко заметить разницу сколько пациентов курят, а сколько не курят), диаграмму (для наглядности, чтобы сравнить сколько женщин и мужчин) и точечную диаграмму (для определения образования пациентов эта диаграмма сразу акцентирует внимание на нужной информации).

Обработка данных

Для начала я импортировала необходимые библиотеки: pandas для работы с данными, seaborn и matplotlib.pyplot для визуализации, а также отключила предупреждения с помощью warnings, чтобы избежать лишних сообщений в выводе. После этого я установила стиль графиков seaborn на whitegrid, чтобы диаграммы выглядели более аккуратно и читаемо. Затем загрузила данные из CSV-файла, используя библиотеку pandas. Указала путь к файлу и задала кодировку MacRoman, чтобы корректно прочитать данные. После загрузки данных я вывела весь датафрейм на экран с помощью метода to string (), чтобы убедиться, что данные загружены корректно и отображаются полностью.

Original size 1112x714

Для анализа распределения пациентов по возрасту я начала с создания возрастных групп. Используя метод pd.cut, я разделила возраст пациентов на интервалы с шагом 3 года, начиная с 50 лет и заканчивая 100 годами. Это позволило мне сгруппировать данные по возрастным категориям. Затем я подсчитала количество пациентов в каждой возрастной группе и отсортировала результаты по индексу. Для настройки визуализации я определила шрифты и цвета. Заголовок графика был оформлен с использованием шрифта sans-serif, размера 16 и жирного начертания. Подписи осей и метки также были настроены с использованием шрифта sans-serif, размера 12, курсивного начертания и жирного шрифта. Основной цвет текста был установлен на #342E8E. Я создала столбчатую диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 10×6, а цвет столбцов — на #f98298. Заголовок графика и подписи осей были оформлены с использованием ранее заданных шрифтов и цвета. Метки на оси X были повернуты на 45 градусов для лучшей читаемости.

Original size 1838x1086

Для анализа распределения пациентов по курению я начала с подсчета количества пациентов в каждой категории (курят и не курят). Затем я настроила шрифты и цвета для графика. Заголовок был оформлен с использованием шрифта sans-serif, размера 14 и жирного начертания. Подписи осей и метки также были настроены с использованием шрифта sans-serif, размера 12, курсивного начертания и жирного шрифта. Основной цвет текста был установлен на #342E8E. Я создала горизонтальную столбчатую диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 8×4, а цвета столбцов — на #342E8E и #f98296. Заголовок графика и подписи осей были оформлены с использованием ранее заданных шрифтов и цвета.

Original size 1940x1050

Для анализа распределения пациентов по полу я начала с подсчета количества пациентов в каждой категории (мужчины и женщины). Затем я настроила шрифт для заголовка и создала круговую диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 6×6, а цвета секторов — на #f98296 и #342E8E. Проценты на диаграмме были оформлены с использованием шрифта размера 20.

Original size 1972x938

Для анализа распределения пациентов по уровню образования я начала с подсчета количества пациентов в каждой категории. Затем я настроила шрифты и цвета для графика. Заголовок был оформлен с использованием шрифта serif, размера 16 и жирного начертания. Подписи осей и метки также были настроены с использованием шрифта sans-serif, размера 12 и жирного шрифта. Основной цвет текста был установлен на #342E8E, а специальный цвет — на #f98298. Я создала точечную диаграмму с использованием библиотеки matplotlib. Размер графика был установлен на 8×6, а цвет точек — на #342E8E. Заголовок графика и подписи осей были оформлены с использованием ранее заданных шрифтов и цвета. Метки на оси X были заменены на «Нет», «Средняя школа», «Бакалавр» и «Высшее», а также оформлены с использованием заданного шрифта и специального цвета #f98298. Цвет меток на оси Y также был установлен на #f98298.

Original size 2048x1162

Визуализация данных

0

Вертикальная гистограмма. Возраст пациентов

Вертикальная гистограмма показывает, что чаще всего заболевание встречается у людей 71-74 лет, но при этом часто встречается даже в возрасте 50-53 лет.

0

Горизонтальная гистограмма. Курение

Причина заболевания не установлена, но горизонтальная гистограмма показывает, что большинство пациентов не курят.

0

Круговая диаграмма. Пол пациентов

Круговая диаграмма помогает понять, что данная болезнь касается как мужчин, так и женщин в равной степени. Мужчин больше всего на 1,4%.

0

Точечная диаграмма. Уровень образования

С помощью точечной диаграммы мы можем заметить, что болезнь касается людей меньше с высшим образованием и больше всего людей, кто имеет среднее образование.

Описание применения генеративной модели

С помощью сайта Recraft была создана обложка. URL: https://www.recraft.ai/projects

Список источников

[1] Rabie El Kharoua, «Parkinson’s Disease Dataset Analysis», 2024. URL: https://www.kaggle.com/datasets/rabieelkharoua/parkinsons-disease-dataset-analysis?resource=download

Ссылка на блокнот и базу данных: https://drive.google.com/drive/folders/14lNOxsehi09FmpH2va-SvFpB_7sEeMae?usp=sharing

Анализ болезни Паркинсона
8