
Вводная часть
Выбор данных и их источник
Для данного исследования я выбрала набор данных о видеоиграх с портала VGChartz, содержащий обширную информацию о более чем 64 000 видеоиграх. Этот датасет включает в себя данные о названиях игр, платформах, жанрах, издателях, разработчиках, оценках критиков и статистике продаж по различным регионам мира.
Источник данных: файл vgchartz2024.csv, содержащий подробную информацию о видеоиграх со всего мира.

Мудборд
Почему этот набор данных представляет интерес?
Индустрия видеоигр является одной из самых динамично развивающихся развлекательных отраслей в мире, с оборотом, превышающим киноиндустрию и музыкальный бизнес вместе взятые. Анализ столь обширного набора данных позволяет выявить ключевые закономерности развития игровой индустрии, определить факторы успеха игр и тенденции потребительских предпочтений в разных регионах.
Мой личный интерес к этим данным обусловлен желанием понять, какие жанры наиболее популярны, как оценки критиков влияют на коммерческий успех и как менялась индустрия видеоигр с течением времени. Эти знания могут быть полезны как для исследователей рынка, так и для разработчиков, стремящихся создать успешные игровые проекты.
Выбор типов визуализации
Для анализа данных я решила использовать разнообразные типы графиков:
1. Столбчатые диаграммы: для отображения топ-издателей и других категориальных данных, где важно сравнение абсолютных значений; 2. Гистограммы: для анализа распределения оценок критиков и других непрерывных величин; 3. Круговые диаграммы: для наглядного представления долей различных жанров; 4. Диаграммы рассеяния: для выявления корреляций между различными показателями (например, оценками критиков и продажами); 5. Тепловые карты: для анализа множественных связей (например, предпочтения жанров по регионам); 6. Линейные графики: для отслеживания временных трендов в развитии игровой индустрии.
Такое разнообразие типов визуализации позволяет всесторонне исследовать данные и наиболее эффективно представить различные аспекты игровой индустрии.
Этапы работы
Обработка данных
Загрузка и первичный анализ данных:
Предварительная обработка данных:
Обогащение данных дополнительными признаками:
Очистка данных от пропущенных значений:
Стилизация графиков
Для создания стильной и единообразной визуализации я использовала единую цветовую схему, разработанную с помощью сервиса coolors.co. Основная палитра проекта включает пять основных цветов:
palette = ['#7D938A', '#4A6670', '#3C7A89', '#698996', '#A4B8C4']
Эта цветовая схема применялась ко всем графикам для обеспечения визуальной согласованности.
Настройка шрифтов и текстовых элементов:
1. Добавление сетки для улучшения читаемости:
plt.grid (axis='y', linestyle='--', alpha=0.7)
2. Настройка поворота и размера подписей к осям:
plt.xticks (rotation=45, ha='right', fontsize=10) plt.yticks (fontsize=10)
3. Добавление числовых значений над столбцами диаграмм:
for bar in bars: height = bar.get_height () plt.text (bar.get_x () + bar.get_width ()/2., height + 0.5, f'{int (height)}', ha='center', va='bottom', fontsize=10)
4. Создание собственной цветовой карты для тепловых карт:
custom_cmap = LinearSegmentedColormap.from_list («custom», palette, N=256)
Визуальный стиль графиков был вдохновлен современными дашбордами аналитики данных и принципами информационного дизайна, делающими информацию максимально доступной и наглядной.
Итоговые графики
1. Топ-10 издателей по количеству выпущенных игр
Этот график демонстрирует ведущих издателей игровой индустрии по количеству выпущенных игр. Анализ показывает, какие компании являются наиболее продуктивными и вносят значительный вклад в развитие игровой индустрии.
2. Распределение оценок критиков
Гистограмма показывает, как распределяются оценки критиков для игр. Это позволяет понять, какая доля игр получает высокие, средние или низкие оценки, и какой уровень качества преобладает на рынке.
3. Распределение игр по жанрам
Круговая диаграмма иллюстрирует долю каждого жанра в общем количестве игр. Это помогает определить наиболее популярные жанры среди разработчиков и, косвенно, среди игроков.
4. Зависимость общих продаж от оценок критиков
Диаграмма рассеяния демонстрирует взаимосвязь между оценками критиков и коммерческим успехом игр. Анализ корреляции помогает понять, насколько критические отзывы влияют на продажи.
5. Средние продажи игр по регионам и жанрам
Тепловая карта показывает, как различаются продажи игр разных жанров в разных регионах мира. Это позволяет выявить региональные предпочтения и культурные различия в восприятии игр.
6. Динамика выпуска игр по годам для популярных платформ
Линейный график отображает изменение количества выпускаемых игр для различных платформ с течением времени. Это позволяет проследить жизненный цикл платформ и общие тенденции развития индустрии.
Выводы
Проведенный анализ данных о видеоиграх позволил выявить ряд значимых закономерностей и тенденций:
1. Лидеры индустрии: Определены ведущие издатели видеоигр, которые формируют основные тренды рынка.
2. Влияние критической оценки: Выявлена умеренная положительная корреляция между оценками критиков и общими продажами игр, что подтверждает важность качества продукта для коммерческого успеха.
3. Жанровые предпочтения: Определены наиболее популярные жанры игр, с учетом их доли на рынке.
4. Региональные различия: Обнаружены существенные различия в предпочтениях игроков по регионам мира. Например, в Японии более популярны ролевые игры, в то время как в Северной Америке предпочитают.
Использование нейросетей

В ходе работы над проектом я активно использовала ChatGPT для помощи с кодом и визуализацией данных. Эта языковая модель стала незаменимым инструментом на всех этапах разработки.
Как использовался ChatGPT
Самыми полезными промтами при взаимодействии с ChatGPT оказались:
1. «Напиши код для визуализации [конкретных данных] в Python с помощью matplotlib» 2. «Исправь ошибку в данном коде: [проблемный код]» 3. «Оптимизируй этот код для лучшей читаемости и производительности» 4. «Как добавить [конкретную функцию] в мой график на matplotlib»
ChatGPT особенно помог с настройкой визуального стиля графиков, подбором цветовой схемы и решением проблем с кириллическими шрифтами в matplotlib. Например, когда я столкнулась с проблемой отображения русских букв на графиках, ChatGPT предложил решение с установкой дополнительных шрифтов.
Ссылка на ресурс:
Код и датасет
Весь код проекта доступен в Google Colab: https://colab.research.google.com/drive/1RBipR1FZZU6lBgHJKW5BVxdC3hvU7ZYa
Исходный датасет: https://drive.google.com/drive/folders/10iOEiEeqDNEr5Q6MtBjkG3yRrFseWOwM