Original size 1140x1600

Анализ данных фанфиков о Гарри Поттере

PROTECT STATUS: not protected

Концепция

В рамках исследования я решила проанализировать базу данных с фанфиками про Гарри Поттера, в которой собрана информация о работах с 2004 по 2019 год, опубликованных на специализированном сайте. Текстов в базе данных оказалось около 650 000, что позволило мне делать достаточно широкую выборку. Я очень люблю Гарри Поттера, а еще я читаю и пишу фанфики, поэтому эта тема показалась мне забавной и нетривиальной.

Я скачала БД в хранилище Google Colab и начала анализ. В процессе я столкнулась с рядом проблем, связанных с непроработанной БД, но мне удалось с ними справиться.

Я использовала следующие виды диаграмм:

— гистограмма; — круговая диаграмма; — линейные графики; — точечная диаграмма;

Ресурс с базой данных: https://www.kaggle.com/datasets/nehatiwari03/harry-potter-fanfiction-data/data. Там хранится информация о дате публикации работы, лайках, жанрах, героях и авторе.

Гистограмма

big
Original size 3840x2160

Здесь я сравнила количество публикаций фанфиков по годам. Пик пришелся на 2012 год — год выхода последней части фильмов, который разбил сердца многим фанатам. Как вы видите, далеко не все оказались согласны с таким положением дел, и решили переписать историю по-своему.

big
Original size 3840x2160

Круговая диаграмма

Original size 3840x2160

Далее я решила посмотреть на частоту упоминаний героев в авторских историях. Мне показалось забавным, что два главных героя, Гарри и Гермиона, встречаются в фанфиках чаще всего, а третий из них — Рон Уизли, по частоте едва набирает 4%. Вот что значит непопулярный персонаж.

Original size 3840x2160

Точечная диаграмма

Original size 3840x2160

Здесь я решила проанализировать частоту выхода фанфиков с определенными жанрами. Для меня оказалось неожиданным, что графики получились довольно похожими. Для всех четырех жанров из выборки самым популярным периодом публикации в году оказались июль, август, декабрь и январь. А вот весной и осенью фанфики публиковались куда реже.

Также можно проследить всплески активности в 2010-2011 и, чуть меньший, в 2015 году.

Original size 3840x2160
Original size 3840x2160

Линейный график

Original size 3840x2160

Меня не вполне удовлетворила информация, которую я получила после создания точечных графиков, поэтому я решила создать нечто подобное, но уже с использованием линейных и с тремя жанрами. Картина все еще достаточно схожая, но можно заметить: с период с 2006 по 2007 популярность жанра романтика росла, а жанра ангст —падала. 2006 код оказался очень позитивным для фанатов Гарри Поттера.

Original size 3840x2160

Немного о цветах

Original size 3840x2160

Фотография взята с сайта https://www.wizardingworld.com/

Здесь все просто. Цвета графиков соответствуют четырем факультетам Хогвартса: красный — Гриффендор, желтый — Пуффендуй, зеленый — Слизерин, синий — Когтевран.

Использование нейросетей

В процессе работы я обращалась к нейросетям. Chat GPT помог мне разобраться в трудностях работы с базой данных (она была не совсем корректно прочитана: данные жанров записались как тип float, перед датами и количеством лайков откуда-то взялись пробелы и тп). Примеры промптов я привела ниже. Также я воспользовалась нейросетью Ideogram для создания обложки.

Original size 3840x2160

Заключение

Все микровыводы по графикам я сформулировала выше, поэтому здесь я оставлю мои личные впечатления. Мне было очень интересно делать эту работу, несмотря на частые сложности, возникающие с кодом. Я поняла, что хочу углубиться в изучение анализа данных, и что это может быть очень увлекательным занятием.

Анализ данных фанфиков о Гарри Поттере