Я выбрала набор данных о фильмах, включающих различные файлы: movies_metadata.csv, credits.csv, keywords.csv, ratings_small.csvи другие. Эти данные были найдены на платформе Kaggle, которая предоставляет открытые данные для анализа.
Эти данные содержат информацию о фильмах, такую как название, жанры, актеры, бюджет, рейтинг, дата выхода и другие атрибуты. Они представляют собой интересный набор для анализа, позволяющий учитывать различные аспекты киноиндустрии.
Я решила использовать несколько типовых графиков:
Столбчатая диаграмма для отображения топ-10 популярных жанров, чтобы увидеть, какие жанры популярны.
Линейный график для отображения изменения среднего рейтинга фильмов по годам. Это позволит увидеть тенденции в современном мире.
Гистограмма для распределения рейтингов фильмов. Она поможет понять, как восстанавливаются рейтинги по всем фильмам.
Обработка данных: Загрузка данных: Для начала я загрузила все необходимые файлы с помощью библиотеки pandas. Я использовала функцию pd.read_csv (), чтобы загрузить каждый CSV-файл, который я собиралась анализировать.
import pandas as pd
Загрузка данных df = pd.read_csv ('/content/drive/MyDrive/movies_metadata.csv') credits = pd.read_csv ('/content/drive/MyDrive/credits.csv') keywords = pd.read_csv ('/content/drive/MyDrive/keywords.csv')
Преобразование данных: Некоторые столбцы в данных, такие как genresи cast, содержат результаты измерений в видеостроках. Чтобы привести эти столбцы к удобной форме, я использовала метод eval ()преобразования строк в реально управляемую форму. Это нужно для того, чтобы можно было правильно подсчитать количество жанров и актеров.
Преобразование столбцов в список df['genres'] = df['genres'].apply (eval) # Преобразуем строку в список df['cast'] = df['cast'].apply (eval) # Преобразуем строку в список
Очистка данных: Я удалила строки с заданными значениями в важных колонках, таких как genres, vote_averagеи release_date, так как это важные важные данные для анализа. Я также проверила, что данные в столбце release_datеимеют правильный формат.
Очистка данных df = df.dropna (subset=['genres', 'vote_average', 'release_date']) df['release_year'] = pd.to_datetime (df['release_date'], errors='coerce').dt.year
Анализ данных: После очистки данных я начала анализировать данные. Я подсчитала количество фильмов по жанрам, определил самых популярных актеров и вычислил средний рейтинг по годам. Например:
Подсчет количества фильмов по жанрам genres_count = pd.DataFrame (df['genres'].explode ().value_counts ()).reset_index () genres_count.columns = ['Genre', 'Count']
Подсчет топ-10 жанров top_10_genres = genres_count.head (10)
Топ 10 популярных жанров
Средний рейтинг фильмов по годам
Распределение количества фильмов по рейтингу
Топ 10 актеров по количеству фильмов
В ходе работы с набором данных о фильмах я проанализировала жанры, актеров, рейтинги и другие характеристики. Данные были уточнены и представлены в удобном для анализа формате. С помощью различных типов графиков, таких как столбчатые, круговые и линейные диаграммы, я продемонстрировала популярность жанров, актеров и тенденции изменения рейтингов фильмов.
Вот ссылка на код и набор дат, которые я использовала:
https://colab.research.google.com/drive/1y34PuXdNjx2ycy_aAuYIPQ0Kl3tmkbNM
https://drive.google.com/drive/folders/1KvlWiBq6kmjnpnao63WC0kBgYXM3KPOB?usp=sharing