
ВВОДНАЯ ЧАСТЬ
Для анализа я выбрала датасет «Notable People» с платформы Kaggle. В нём собрана информация о тысячах известных людей: кем они были, откуда родом, в каком веке жили и насколько были влиятельны. Эти данные показались мне особенно интересными, потому что за сухими цифрами скрываются глобальные культурные предпочтения — кого именно история называет «выдающимся». Я решила не просто пересчитать, а посмотреть на распределения и перекосы: какие профессии доминируют, как менялось представительство женщин, какие страны чаще всего «поставляют» известных личностей и есть ли редкие профессии с высоким влиянием.
Горизонтальный столбчатый график показывает топ-10 стран по числу известных персон. Это даёт общее представление о геополитической картине исторической памяти.
Круговая диаграмма делит всех персонажей по крупным сферам деятельности: искусство, политика, наука, спорт и другое. Так можно понять, какие области чаще всего приводят к «известности».
Линейный график показывает, как менялась доля женщин среди выдающихся людей по векам. Это особенно важно для анализа социальной динамики и видимости женщин в истории.
Облако слов по профессиям визуализирует частотность — какие профессии встречаются чаще всего и насколько разнообразна структура.
Пузырьковая диаграмма выделяет редкие профессии, в которых несмотря на малое количество представителей, HPI — очень высокий. Это визуальный способ показать, что иногда «малое» имеет большое значение.
Выбор этих форматов был обусловлен желанием создать не только информативные, но и визуально разнообразные представления данных, позволяющие увидеть и количественные, и качественные различия внутри выборки.
ЭТАПЫ РАБОТЫ

Сначала я загрузила датасет, содержащий информацию о более чем 100 000 выдающихся личностей.
Для корректного анализа данные были приведены к единому формату: все строковые значения (страна, профессия, пол) были преобразованы в нижний регистр и очищены от лишних пробелов. Затем из таблицы были удалены строки с отсутствующими ключевыми значениями — такими как страна, профессия, пол или год рождения.
Год рождения был преобразован в числовой формат. На его основе рассчитан дополнительный столбец — век рождения, необходимый для дальнейших временных графиков.
ОФОРМЛЕНИЕ ДАННЫХ
Для проекта была выбрана палитра, сочетающая насыщенный акцентный красный и градацию холодных оттенков синего. Такой выбор делает графики визуально чистыми и читаемыми, сохраняя при этом баланс между информационной строгостью и визуальной выразительностью.
Для обеспечения визуальной целостности проекта был подключён системный шрифт Trebuchet MS — как обычный, так и жирный вариант — с помощью библиотеки matplotlib. Это позволило унифицировать подачу всех надписей.
Дополнительно был задан глобальный стиль оформления графиков с использованием seaborn: белая сетка и синяя палитра создают нейтральный фон и визуальную читаемость. Эти параметры автоматически применяются ко всем построенным графикам.
ВИЗУАЛИЗАЦИЯ ДАННЫХ
Сначала я проанализировала географическое распределение персон. Сгруппировала данные по странам рождения, отсортировала по количеству и выделила 10 стран с наибольшим числом известных людей. Это дало общее представление о «географии исторической значимости».
Далее я перешла к анализу гендерного представительства. Преобразовала год рождения в век и рассчитала процент женщин среди всех персон в каждом веке. Линейный график наглядно показывает рост видимости женщин в истории, особенно начиная с XX века.
Я вручную классифицировала профессии на 5 обобщённых сфер: спорт, искусство, наука, политика, другое. Это позволило увидеть, какие сферы общественной жизни формируют историческую известность в массовом сознании.
Профессии были очищены и разделены, так как у одного человека может быть несколько. С помощью Counter я построила частотный словарь и визуализировала его в виде облака слов. Размер шрифта отражает частоту упоминания. Это помогло быстро определить доминирующие типы карьер.
Для более содержательного анализа я выделила редкие профессии (менее 20 человек), но обладающие высоким средним HPI. Индекс HPI (Historical Popularity Index) отражает устойчивость и глобальность культурного влияния личности: он учитывает количество языков, в которых существует статья о человеке, объём просмотров, географическую распространённость и длительность интереса. Построенная пузырьковая диаграмма показывает, как количественно малые, но значимые профессии оказываются носителями непропорционально сильного исторического следа.
ЗАКЛЮЧЕНИЕ
Анализ не дал однозначных закономерностей, но позволил зафиксировать ряд любопытных наблюдений. Искусство занимает заметную долю в исторической памяти, в то время как наука и политика представлены умеренно. Доля женщин резко возросла только в XX веке — это подчёркивает длительное неравенство в доступе к исторической видимости. Наибольшее число известных персон связано с США и Европой, что может отражать не только культурное доминирование, но и особенности источников. Наконец, редкие профессии вроде го-профессионалов, критиков или магов неожиданно показывают высокий уровень HPI — это говорит о том, что влияние не всегда зависит от массовости.
Проект позволил взглянуть на «выдающихся» не как на случайный список, а как на результат исторического отбора, в котором отразились приоритеты времени, культуры и памяти.
ПРИМЕНЕНИЕ ГЕНЕРАТИВНОЙ МОДЕЛИ
В рамках проекта я использовала нейросеть ChatGPT для поиска и исправления ошибок в коде и генерации обложки.
Промт для обложки: «Silhouettes of famous historical male figures in profile, layered in soft monochrome blue shades, with one figure in the foreground highlighted by a bright red circular halo behind the head. Flat minimalist vector style, textured background, subtle waves in the backdrop, modern editorial illustration, symbolic composition about fame and memory.»
Нейросеть: ChatGPT (https://chat.openai.com)