

Введение
В этом проекте я анализирую, как формируется медиапокрытие голливудских фильмов до их выхода. В качестве основы был использован датасет, содержащий 500 публикаций о пяти голливудских релизах. Данные включают информацию о дате публикации, источнике, жанре фильма, студии, режиссёре и кратком описании материала.
Меня заинтересовало, как фильмы существуют в медиапространстве ещё до премьеры: какие релизы получают больше внимания, какие медиа чаще формируют повестку и как это внимание распределяется во времени.
Для визуализации данных я выбрала несколько типов графиков. Столбчатые диаграммы: Используются для сравнения популярности жанров и студий. Позволяют наглядно увидеть, какие фильмы и студии наиболее обсуждаемы. Круговые диаграммы: Показывают распределение фильмов по жанрам и студиям, помогая выделить наиболее распространённые категории. Линейные графики: Отображают изменение «Hype Cycle» и «Critical Sentiment» с течением времени, показывая, как меняется восприятие фильмов перед релизом. Тепловая карта: Демонстрирует корреляцию между режиссёрами и жанрами, показывая, какие режиссёры наиболее часто работают в определённых жанрах.
Обработка данных
Для работы с данными использовался язык Python. На этапе загрузки была выполнена первичная проверка структуры датасета: названия столбцов, типы данных и наличие пропусков.
Даты публикаций были приведены к формату datetime, что позволило корректно анализировать динамику медиапокрытия во времени. Для дальнейшего анализа данные были собраны по различным признакам: фильмам, жанрам, студиям, источникам и временным периодам.
В процессе обработки были созданы дополнительные таблицы и сводки, отражающие количество публикаций в каждой категории. Это позволило выявить основные структурные характеристики медиапокрытия и подготовить данные для визуализации.
Стилизация
Каждый жанр имеет одинаковую долю, что указывает на равномерное распределение между ними.
Все столбцы имеют схожие высоты, что указывает на довольно равномерное распределение количества фильмов среди представленных студий.
Количество публикаций по времени отражает важность новостей о фильмах, что связано с их продвижением и ожиданиями аудитории.
Пики публикаций, вероятно, связаны с периодами высокой активности в киноиндустрии, когда новые трейлеры, интервью или новости о релизах привлекают большое внимание.
Тепловая карта наглядно показывает, что каждый режиссёр работает в одном жанре, что подчеркивает их специализацию на определённых типах фильмов.
В ходе работы над проектом использовалась генеративная модель ChatGPT (OpenAI) Промпт фото: «Коллаж в винтажном стиле, состоящий из элементов кино, таких как хлопушки, кинокамеры и вывеска „Голливуд“, с женщинами в классических кинокостюмах, рассматривающими диаграммы или графики, на старомодном красном фоне. Атмосфера ностальгическая и гламурная, передающая ощущение истории и гламура самой культовой киноиндустрии мира.» «Коллаж в винтажном стиле, вдохновлённый эстетикой классического Голливуда. В композиции используются элементы киноиндустрии: кинематографические хлопушки, ретро-кинокамеры, киноплёнка и вывеска „Hollywood“. Женщины в классических кинокостюмах середины XX века изображены за изучением диаграмм и графиков, как символов медианализа и исследования. Фон — старомодный текстурированный красный, с эффектом винтажного постера.»
Данные взяты с сайта kaggle Нollywood 2025 Media Hype & Sentiment