Original size 0x0

Анализ данных о фильмах: тенденции жанров, актеров и рейтингов

Я выбрала набор данных о фильмах, включающих различные файлы: movies_metadata.csv, credits.csv, keywords.csv, ratings_small.csvи другие. Эти данные были найдены на платформе Kaggle, которая предоставляет открытые данные для анализа.

Эти данные содержат информацию о фильмах, такую как название, жанры, актеры, бюджет, рейтинг, дата выхода и другие атрибуты. Они представляют собой интересный набор для анализа, позволяющий учитывать различные аспекты киноиндустрии.

Я решила использовать несколько типовых графиков:

Столбчатая диаграмма для отображения топ-10 популярных жанров, чтобы увидеть, какие жанры популярны.

Линейный график для отображения изменения среднего рейтинга фильмов по годам. Это позволит увидеть тенденции в современном мире.

Гистограмма для распределения рейтингов фильмов. Она поможет понять, как восстанавливаются рейтинги по всем фильмам.

Обработка данных: Загрузка данных: Для начала я загрузила все необходимые файлы с помощью библиотеки pandas. Я использовала функцию pd.read_csv (), чтобы загрузить каждый CSV-файл, который я собиралась анализировать.

import pandas as pd

Загрузка данных df = pd.read_csv ('/content/drive/MyDrive/movies_metadata.csv') credits = pd.read_csv ('/content/drive/MyDrive/credits.csv') keywords = pd.read_csv ('/content/drive/MyDrive/keywords.csv')

Преобразование данных: Некоторые столбцы в данных, такие как genresи cast, содержат результаты измерений в видеостроках. Чтобы привести эти столбцы к удобной форме, я использовала метод eval ()преобразования строк в реально управляемую форму. Это нужно для того, чтобы можно было правильно подсчитать количество жанров и актеров.

Преобразование столбцов в список df['genres'] = df['genres'].apply (eval) # Преобразуем строку в список df['cast'] = df['cast'].apply (eval) # Преобразуем строку в список

Очистка данных: Я удалила строки с заданными значениями в важных колонках, таких как genres, vote_averagеи release_date, так как это важные важные данные для анализа. Я также проверила, что данные в столбце release_datеимеют правильный формат.

Очистка данных df = df.dropna (subset=['genres', 'vote_average', 'release_date']) df['release_year'] = pd.to_datetime (df['release_date'], errors='coerce').dt.year

Анализ данных: После очистки данных я начала анализировать данные. Я подсчитала количество фильмов по жанрам, определил самых популярных актеров и вычислил средний рейтинг по годам. Например:

Подсчет количества фильмов по жанрам genres_count = pd.DataFrame (df['genres'].explode ().value_counts ()).reset_index () genres_count.columns = ['Genre', 'Count']

Подсчет топ-10 жанров top_10_genres = genres_count.head (10)

Топ 10 популярных жанров

Original size 907x547

Средний рейтинг фильмов по годам

Original size 988x547

Распределение количества фильмов по рейтингу

Original size 1107x547

Топ 10 актеров по количеству фильмов

Original size 938x547

В ходе работы с набором данных о фильмах я проанализировала жанры, актеров, рейтинги и другие характеристики. Данные были уточнены и представлены в удобном для анализа формате. С помощью различных типов графиков, таких как столбчатые, круговые и линейные диаграммы, я продемонстрировала популярность жанров, актеров и тенденции изменения рейтингов фильмов.

Вот ссылка на код и набор дат, которые я использовала:

https://colab.research.google.com/drive/1y34PuXdNjx2ycy_aAuYIPQ0Kl3tmkbNM

https://drive.google.com/drive/folders/1KvlWiBq6kmjnpnao63WC0kBgYXM3KPOB?usp=sharing

Анализ данных о фильмах: тенденции жанров, актеров и рейтингов

Kristina Pavlyuchenko

data visualization