Original size 832x1248

Анализ рейтинга фильмов TMDB

PROTECT STATUS: not protected
4

Введение

Для этого проекта был выбран набор данных о фильмах с платформы The Movie Database (TMDB), включающий названия, описания, рейтинги, даты выпуска, показатели популярности и количество голосов.

Эти данные интересны тем, что позволяют не просто узнать среднюю оценку фильма, но и понять, насколько она репрезентативна (благодаря данным о количестве голосов), а также выявить связь между зрительским интересом (популярность) и признанием (рейтинг).

Материал для анализа был взят с Movies Dataset (TMDB) — Ratings, Popularity, Votes сайта kaggle.com.

Ссылка на csv файл: https://www.kaggle.com/datasets/kajaldeore04/movies-dataset-tmdb-ratings-popularity-votes?resource=download

Этапы работы

В первую очередь я задумалась о том, какие графики и диаграммы я хочу создать и какая у них будет цель. И в итоге пришла к таким вариантам:

1. Влияние количество голосов на рейтинг; 2. Топ 10 фильмов с высокими оценками; 3. Сравнение средних значений рейтинга фильмов по годам; 4. Влияние количества символов в описании на популярность; 5. Определение количества фильмов по рейтингу;

Я скачала таблицу на сайте и открыла её в colab.research.google.com. Далее импортировала базовые библиотеки для работы (pandas и matplotlib.pyplot).

big
Original size 800x182

После того, как я определилась с содержанием, я решилась немного отвлечься на визуальную составляющую проекта, сгенерировав палитру на сайте coolors.co.

big
Original size 1600x1106
Original size 683x300

Влияние количество голосов на рейтинг

Original size 869x310
Original size 846x547
Original size 857x405
Original size 859x547
Original size 850x547

Вывод, который мы можем сделать исходя из данных графиков заключается в том, что чем больше количество голосов, тем выше рейтинг у фильма. Это может также объяснятся тем, что чем больше количество голосов, тем популярнее фильм, а раз он популярен, то его просмотрело большее количество людей.

Топ 10 фильмов с высокими оценкам

Original size 800x364
Original size 1189x790

Благодаря данному графику, мы видим двадцать фильмов с наивысшей оценкой по TMDB.

Сравнение средних значений рейтинга фильмов по годам

Original size 859x589
Original size 1010x547

Выводом из этого графика следует то, что со временем средняя оценка у фильмов понизилась, что может быть связано как с «синдромом утёнка», так и с ухудшением качества выпускаемого продукта.

Влияние количества символов в описании на популярность

Небольшое отступление, посвящённое тому, что влияет на показатель популярности TMDB. А именно: количество голосов за день, просмотров за день, количество пользователей, которые отметили фильм как «любимый» за день, количество пользователей, которые добавили его в «список для просмотра» за день, дата выпуска, общее количество голосов, предыдущий балл популярности.

Original size 838x454
Original size 1014x547

Как мы видим, количество символов не оказывает сильного влияния на популярность фильма, однако есть небольшое преимущество у тех, чьё описание состоит из меньшего числа.

Определение количества фильмов по рейтингу

Original size 1514x495
Original size 640x677

Благодаря данной круговой диаграмме мы можем понять, что больше всего существует фильмов с достаточно нейтральной оценкой семь (данные расчёты были с учётом округления чисел в большую сторону).

Вывод

На основе проведенного анализа данных TMDB можно сделать следующие ключевые выводы:

1. Достоверность рейтинга зависит от количества; 2. Современные фильмы получают более низкие оценки; 3. Длина описания не влияет существенно на популярность; 4. Большинство фильмов имеют средние оценки.

Анализ демонстрирует важность учета не только абсолютных значений рейтингов, но и таких факторов как количество голосов и временные тенденции для объективной оценки кинопродукции. Именно понимание общей статистики и данных помогут улучшить качество выпускаемых фильмов.

Код

Применённые нейросети

Original size 832x1248

1. ideogram — для создания обложки (Промт: Create a minimalistic picture of a human and an skeleton watching a movie. The camera is at the back, so we can only see their silhouettes.)

2. Gemini — для создания кода 3. coolors.co — для создания палитры

Анализ рейтинга фильмов TMDB
4