
Как понять, что ваш любимый тайтл — не просто хайп, а шедевр?
Описание проекта
Аниме — это не просто «мультики». Это целая культура, объединяющая и вдохновляющая миллионы людей по всему миру. От эпичных сражений в «Наруто» до глубоких философских размышлений в «Евангелионе» аниме затрагивает самые раличные жанры и рефлексирует на темы, близкие многим. Но как понять, что делает аниме по-настоящему великим? Рейтинги? Популярность? Или что-то большее?
Для меня аниме всегда занимало важное место в жизни, однако после поступления в университет я совсем перестала им увлекаться. Какие тайтлы теперь смотреть? Стоит ли сразу включать топ-1 аниме или искать более низкий по рейтингу, но проверенный временем вариант, чтобы снова погрузиться в этот мир? Постараюсь найти ответы на все заданные вопросы выше.

Для анализа и визуализации данных я нашла дата-сет Top 10,000 Anime (Popularity Index of 2024) с сайта Kaggle.
Для визуализации данных были выбраны следующие типы диаграмм: — гистограмма; — круговая диаграмма; — точечная диаграмма; — линейная диаграмма.
Подобные типы графиков я выбрала для более наглядной и понятной визуализации различий между данными.
Подготовка

Помимо визуализации графиков проекту необходимы изображения. Я приняла решение сгенерировать их в Recraft, используя пресет Translucent Gossamer.
Подобная стилистика была выбрана по следующим трём аспектам: — чиби-стилистика тесно связана с аниме культурой и вызывает теплые чувства при просмотре; — сгенерированные персонажи выглядят, как коллекционные фигурки, что так же вызывает отклик у фанатов культуры; — сочетание полупрозрачности и ярких неоновых цветов добавляют футуристичности и перекликаются с темой технологичности анализа данных, яркие цвета так же ассоциируются у меня с весельем, которое возникает при просмотре аниме.
Сгенерированные иконки и изображения для разбивки так же определили принцип цветовой стилизации графиков.
Первым делом я импортировала все необходимые мне библиотеки: pandas, matplotlib и seaborn.
После загрузила сам дата-сет в формате csv файла.
Следующий шаг — импортирование кастомного шрифта. В интернете я нашла тот, который ассоциируется с мангой и аниме культурой.
Финальным шагом я задаю всем графикам единый стиль.
Здесь также устанавливается палитра из HEX-кодов цветов, которые я получила, загрузив на сайт Adobe Color сгенерированные ранее изображения.
График № 1 — Топ-30 аниме по рейтингу
Интересно, что больше всего аниме с рейтингом 6.5, с оценками выше 8 встречается реже.
Это может говорить о том, что зрители строго оценивают аниме, и только действительно выдающиеся работы получают высокие оценки.
Далее я решила создать график, который составит топ-30 аниме по рейтингу. Из него можно увидеть, что классические тайтлы по типу «Fullmetal Alchemist: Brotherhood» («Стальной Алхимик: Братство»), «Steins; Gate» («Врата Штейна»), «Hunter x Hunter (2011)» («Хантер х Хантер») все ещё нравятся современным зрителям.
График № 2 — Зависимость рейтинга от количества зрителей
График зависимости рейтинга от количества зрителей показывает, что аниме с высоким рейтингом обычно имеют больше зрителей, но есть и исключения.
Высокий рейтинг часто коррелирует с большим количеством зрителей, но есть нишевые аниме с высоким рейтингом, но меньшей аудиторией. Это может указывать на то, что качество контента важнее массовой популярности.
Хочу отметить, что в случае работы с этим графиком, возникали трудности. В дата-сете информация в столбце 'Members' содержала одновременно числовые и текстовые значения. Мне пришлось обратиться к генеративной модели Deepseek, чтобы узнать, возможно ли исключить из всех ячеек этого столбца лишний текст.
Prompt: How can I remove str values from column 'Members'?
График № 3 — Взаимосвязь типа и рейтинга
Получив информацию о зависимости рейтинга от популярности, мне стало интересно проанализировать, влияет ли тип аниме на его популярность. Сначала узнаем процентное соотношение типов аниме из дата-сета.
Могу предположить, что TV-сериалы являются наиболее популярным форматом аниме из-за их доступности и продолжительности, позволяющей глубже раскрыть сюжет и персонажей.
По статистике среднего рейтинга можно сказать, что различные типы аниме получают схожие оценки. Это может указывать на то, что качество контента не сильно зависит от формата.
TV — это сериал, состоящий из множества эпизодов, который транслируется по телевидению или через стриминговые платформы. Именно такой формат наиболее удобен и доступен людям, поэтому неудивительно, что большая часть аниме из топ-30 — это TV.
График № 4 — Топ-30 по годам популярности
Самый сложный и самый интересный тип диаграммы.
Напоследок я решила проанализировать, в какие года были популярны аниме из топа-30, и была удивлена, увидев что в список входят тайтлы, пик популярности которых приходился на 80-90-тые годы.
На диаграмме видно, что как классические аниме, например, «Ginga Eiyuu Densetsu» («Легенда о героях Галактики»), так и современные, например, «Kimi no Na wa.» («Твоё имя») и «Shingeki no Kyojin» («Атака Титанов») остаются популярными. Это говорит о том, что аниме как жанр имеет долгосрочную привлекательность.
Кроме того, некоторым аниме, таким как «Gintama» («Гинтама») и «Shingeki no Kyojin» («Атака Титанов»), удается сохранять популярность на протяжении сезонов, что говорит о культовости этих франшиз и их способности оставаться в сердцах аудитории годами.
Однако заметно, как со временем большинство тайтлов, вышедших примерно после 2012 года, стали держать популярность всего лишь год. Скорее всего, это произошло из-за повышения производства аниме в целом — как только выходит новый тайтл, люди переключаются на него.
Мне снова пришлось обращаться к Deepseek, чтобы узнать, как разделить значения из столбца 'Popularity' на два: год начала и год конца популярности. Также для корректного отображения информации на диаграмме, мне было необходимо, чтобы эти значения были в формате даты.
Prompt: — I have a column 'Popularity' in a DataFrame that contains rows in the format «Sep 2023 — Mar 2024». How do I split this column into two new columns: 'Popularity_Start' and 'Popularity_And'?; — I have two columns: 'Popularity_Start' and 'Popularity_End', which contain rows in the format «Sep 2023». How do I convert these strings to date format so that they can be used to build a chart?
Заключение
Исследование дата-сета по аниме показало, что высокие рейтинги и популярность часто идут рука об руку, однако они не единственные критерии оценки качества.
Подытожу: При выборе нового аниме для просмотра можно опираться на оценку зрителей, потому что далеко не так много тайлтов получили оценку выше 8. Однако есть много примеров с «низкой» оценкой, но большой фанбазой. Например, «Токийский Гуль», широко известное аниме, но с оценкой 6.7. Нужно обращать внимание и на это.
Кроме того, существуют аниме, такие как «Легенда о героях Галактики» (1988) или «Стальной Алхимик» (2009), которые остаются культовыми даже спустя десятилетия, что говорит об их вневременной ценности и независимости от годов популярности.
Возвращение в мир аниме после перерыва — это как встреча со старым другом: вы можете обнаружить, что многое изменилось, но суть осталась прежней. Думаю, мне стоит пересмотреть «Атаку Титанов» (как только кончится сессия).
Описание применения генеративной модели

Recraft AI — генерация обложки и изображений.
Deepseek — обращения с целью поиска решения для трудных мне задач (разделение и преобразование данных в другой формат, удаление части информации из ячеек дата-сета).
Adobe Color — генерация цветовой палитры на основе загруженного изображения.