
Введение
Для этого проекта был выбран набор данных о фильмах с платформы The Movie Database (TMDB), включающий названия, описания, рейтинги, даты выпуска, показатели популярности и количество голосов.
Эти данные интересны тем, что позволяют не просто узнать среднюю оценку фильма, но и понять, насколько она репрезентативна (благодаря данным о количестве голосов), а также выявить связь между зрительским интересом (популярность) и признанием (рейтинг).
Материал для анализа был взят с Movies Dataset (TMDB) — Ratings, Popularity, Votes сайта kaggle.com.
Ссылка на csv файл: https://www.kaggle.com/datasets/kajaldeore04/movies-dataset-tmdb-ratings-popularity-votes?resource=download
Этапы работы
В первую очередь я задумалась о том, какие графики и диаграммы я хочу создать и какая у них будет цель. И в итоге пришла к таким вариантам:
1. Влияние количество голосов на рейтинг; 2. Топ 10 фильмов с высокими оценками; 3. Сравнение средних значений рейтинга фильмов по годам; 4. Влияние количества символов в описании на популярность; 5. Определение количества фильмов по рейтингу;
Я скачала таблицу на сайте и открыла её в colab.research.google.com. Далее импортировала базовые библиотеки для работы (pandas и matplotlib.pyplot).

После того, как я определилась с содержанием, я решилась немного отвлечься на визуальную составляющую проекта, сгенерировав палитру на сайте coolors.co.

Влияние количество голосов на рейтинг
Вывод, который мы можем сделать исходя из данных графиков заключается в том, что чем больше количество голосов, тем выше рейтинг у фильма. Это может также объяснятся тем, что чем больше количество голосов, тем популярнее фильм, а раз он популярен, то его просмотрело большее количество людей.
Топ 10 фильмов с высокими оценкам
Благодаря данному графику, мы видим двадцать фильмов с наивысшей оценкой по TMDB.
Сравнение средних значений рейтинга фильмов по годам
Выводом из этого графика следует то, что со временем средняя оценка у фильмов понизилась, что может быть связано как с «синдромом утёнка», так и с ухудшением качества выпускаемого продукта.
Влияние количества символов в описании на популярность
Небольшое отступление, посвящённое тому, что влияет на показатель популярности TMDB. А именно: количество голосов за день, просмотров за день, количество пользователей, которые отметили фильм как «любимый» за день, количество пользователей, которые добавили его в «список для просмотра» за день, дата выпуска, общее количество голосов, предыдущий балл популярности.
Как мы видим, количество символов не оказывает сильного влияния на популярность фильма, однако есть небольшое преимущество у тех, чьё описание состоит из меньшего числа.
Определение количества фильмов по рейтингу
Благодаря данной круговой диаграмме мы можем понять, что больше всего существует фильмов с достаточно нейтральной оценкой семь (данные расчёты были с учётом округления чисел в большую сторону).
Вывод
На основе проведенного анализа данных TMDB можно сделать следующие ключевые выводы:
1. Достоверность рейтинга зависит от количества; 2. Современные фильмы получают более низкие оценки; 3. Длина описания не влияет существенно на популярность; 4. Большинство фильмов имеют средние оценки.
Анализ демонстрирует важность учета не только абсолютных значений рейтингов, но и таких факторов как количество голосов и временные тенденции для объективной оценки кинопродукции. Именно понимание общей статистики и данных помогут улучшить качество выпускаемых фильмов.
Код
Применённые нейросети
1. ideogram — для создания обложки (Промт: Create a minimalistic picture of a human and an skeleton watching a movie. The camera is at the back, so we can only see their silhouettes.)
2. Gemini — для создания кода 3. coolors.co — для создания палитры