
Введение
Для финального проекта по курсу «Программирование для креативных индустрий» я выбрала датасет «IMDB Movies Dataset». Всегда было интересно увидеть наглядную статистику развития кинематографа и ответить на главный вопрос — в чем секрет успеха?
Типы диаграмм: - линейная - точечная - круговая - столбчатая
Именно эти типы диаграмм помогут наглядно увидеть нужную статистику.
Этапы работы
Сразу же нужно было определиться, в каком стиле будут выполнены цвета и шрифт на диаграммах. Посмотрим на логотип IMDb.

Логотип IMDB
Он выглядит крайне минималистично и использует всего два цвета — желтый и черный. Также, их сайт имеет белый фон — добавим его по аналогии.

Шрифт бренда можно легко узнать на официальном сайте brand.imdb.com — Amazon Ember. Его и возьмем.
В представленном датасете в пункте «Gross» — деньги, заработанные этим фильмом, имеются пустые значения — это минус, но, судя по всему, данных по этим фильмам попросту нет. Уберем их и заодно переведем нужные переменные в float ().
График 1
Для первоначального анализа хотелось бы взглянуть на рейтинг фильмов по годам. Он нам четко даст понять когда фильмы были лучше, так как это именно оценка пользователей. Для наглядности идеально подойдет линейный график.
По графику мы видим, что фильмы 20 века оценены пользователями гораздо выше, нежели чем 21. Фильмов, вышедших после 2020 года, в датасете попросту нет — но, взглянув на актуальный топ на сайте IMDb, можно увидеть, что в топ 1000 попало очень мало фильмов, вышедших после 2020, не говоря уже о том, чтобы они были выше по рейтингу старых. Но, опять же, учитывая то, что это — средняя оценка среди всех фильмов за год, попавших в этот топ, можно сделать вывод — не все так плохо.
График 2
Вторым не менее важным анализом будет зависимость рейтинга IMDb от доходов фильма. Есть ли зависимость и так ли важно делать действительно качественный продукт для потребителя? Хорошо подойдет точечный график, который позволит увидеть каждый фильм.
В целом, большая часть фильмов независимо от рейтинга заработали не очень, но может удивить то, что некоторые вырываются с разницей в 10 раз, при этом имея оценку ниже. Это дает четко понять, что качество фильма не является гарантией того, что на нем заработают большую сумму.
График 3
А теперь давайте глянем, что же нравится большинству зрителей. Для этого построим график, содержащий информацию о самых популярных жанрах.
Круговая диаграмма сможет идеально показать, в каком соотношении находятся жанры друг к другу.
Ожидаемо: драма стала самым популярным жанром. Мы ведь смотрим фильмы в первую очередь для получения эмоций, верно? Именно поэтому фильмы с данным жанром находятся в более выигрышной позиции и сценаристы все чаще его используют. На втором месте комедия — по аналогии то же самое. Комедия вызывает смех и положительные эмоции, тем самым привлекая огромное количество зрителей.
Секрет успеха прост — совместить драму и комедию. Посмеялся и поплакал, 2 в 1.
График 4
Но действительно ли для качественного фильма необходимо вызывать эмоции у зрителя? Сделаем столбчатый график, который наглядно покажет, какие жанры были использованы в лучших фильмах по рейтингу IMDb.
Как мы можем заметить, действительно — драма и комедия вырываются вперед. Значит, тезис подтвержден.
Вывод
Изучение датасета «IMDB Movies Dataset» подтвердило, что успех фильма во многом зависит от его способности вызывать эмоции у зрителя.
Жанры драма и комедия лидируют по популярности, это говорит о том, что зрители ценят фильмы, которые заставляют их смеяться, плакать или глубоко переживать. Анализ также показал, что качество съемки и визуальные эффекты, доступные в нынешние годы, не всегда являются гарантией успеха. Скорее наоборот — зрители больше ценят и любят старые фильмы, в которых картинка чаще всего в разы хуже. Это подчеркивает важность содержания и эмоциональной вовлеченности зрителей, которых порой не хватает в новых фильмах.
Описание применения генеративной модели
- Chat GPT 4.0 https://chatgpt.com - DeepSeek https://deepseek.com
Нейросети использовались для устранения ошибок во время написания кода и объяснения деталей и функций, встроенных в matplotlib.
Список источников
- IMDb https://www.imdb.com/ - Сайт бренда https://brand.imdb.com/ - Kaggle для поиска DataSet https://www.kaggle.com - Шрифт IMDb https://font.download/font/amazon-ember