Original size 960x1200

Анализ данных из мужского тенниса: игроки, турниры, статистика

PROTECT STATUS: not protected
8

Концепция

Этот проект предлагает новый взгляд на то, как можно использовать данные для анализа профессионального тенниса. Он не только полезен для тех, кто интересуется аналитикой или спортивным маркетингом, но и показывает, как с помощью Python можно превратить статистику матчей и турниров в ценные инсайты.

Теннис — это один из самых популярных видов спорта в мире, и мне всегда было интересно изучить, как различные факторы, такие как рейтинги игроков, типы покрытий кортов и статистика матчей, влияют на их результаты. Этот набор данных предоставляет уникальную возможность визуализировать эти взаимосвязи, что делает его ценным и интересным для анализа. К тому же данные можно применять для прогнозов и выявления закономерностей в игре.

В рамках анализа я сосредоточусь на исследовании данных о мужском теннисе, включая рейтинги игроков, особенности покрытий кортов, распределение турниров и их динамику. Для работы я буду использовать популярные инструменты Python, такие как Pandas для обработки данных, Seaborn для построения графиков и Matplotlib для визуализации.

Данные были собраны с платформы Kaggle и охватывают важнейшие аспекты тенниса. Проект включает несколько ключевых этапов:

- Очистка и подготовка данных - Проведение исследовательского анализа (EDA) - Создание визуализаций, которые помогут выявить важные тенденции

Этот проект не просто превращает сложные массивы данных в удобные для восприятия графики. Он позволяет лучше понять закономерности в игре, что может быть полезно для прогнозирования результатов матчей, улучшения стратегии игроков или даже создания маркетинговых кампаний, основанных на фактах.

big
Original size 1350x156

Вид графиков

Для представления данных я решил использовать различные типы графиков, чтобы наглядно отразить интересующие аспекты:

Горизонтальная столбчатая диаграмма: Для отображения топ-игроков по количеству сыгранных матчей. Градиентные цвета добавляют визуальную глубину.

Линейный график: Для анализа числа сыгранных турниров по годам. Линия помогает отследить тренды в развитии тенниса.

Точечная диаграмма: Для изучения взаимосвязи между рейтингами игроков и их соперников. Это позволяет оценить, насколько равными были матчи по уровню.

Столбчатая диаграмма с группировкой: Для отображения распределения матчей по типам покрытий (травяные, грунтовые и хардовые корты) среди топ-турниров. Группировка помогает сравнивать популярность каждого типа покрытия в рамках турниров.

Визуальная концепция

Прежде чем приступить к анализу данных, я настроил цветовую палитру и стиль, вдохновившись основными атрибутами тенниса. Цвета покрытий кортов — травяных, грунтовых и хардовых — легли в основу палитры, а ключевой элемент тенниса, яркий теннисный мяч, стал главным акцентом для визуализаций.

Original size 1734x356
Original size 1352x492

Загрузка набора данных

В этом блоке кода я загружаю набор данных, посвященный мужскому теннису, напрямую с платформы Kaggle с помощью библиотеки KaggleHub. Данные включают несколько ключевых файлов:

players (man).csv — содержит информацию об игроках, включая их имена, количество сыгранных матчей и годы участия. players_tournament (man).csv — данные о турнирах, таких как их названия, годы проведения и раунды, сыгранные игроками. raw_kaggle.csv — общий файл с данными о матчах, включая результаты, рейтинги игроков и типы покрытий кортов. serve_kaggle.csv — содержит статистику подач игроков, например, соотношение выигранных и проигранных очков на подаче.

После загрузки файлов я использую библиотеку Pandas для преобразования этих данных в DataFrame. Это позволяет удобно работать с таблицами, выполнять фильтрацию, группировку и анализ информации на последующих этапах.

Original size 1346x414

Обработка данных и создание графиков

График 1: Топ-10 игроков по количеству сыгранных матчей»

На данном графике представлено распределение топ-10 игроков по количеству сыгранных матчей. Горизонтальная столбчатая диаграмма визуализирует имена игроков (по оси Y) и количество их матчей (по оси X). Для более наглядного представления данных используется градиентная цветовая палитра: светло-зеленый оттенок подчеркивает столбцы с наибольшими значениями.

0

Что мы рассматриваем:

Имена игроков: Каждый столбец соответствует конкретному игроку. Количество матчей: Значения подписаны справа от каждого столбца, чтобы обеспечить ясность. Цель графика:

Этот график позволяет выявить игроков с наибольшим игровым опытом (по количеству матчей). Это важно для анализа, поскольку большое количество матчей может свидетельствовать о стабильности, опыте или высокой активности игрока в профессиональных турнирах.

Чем это полезно:

Для тренеров и аналитиков: Помогает оценить, какие игроки имеют максимальный соревновательный опыт. Для маркетологов: Позволяет определить наиболее популярных или активных игроков, что может быть полезно для спонсорских решений. Для теннисных фанатов: Дает возможность сравнить карьерный объем игр у их любимых спортсменов.

График 2: Число сыгранных турниров по годам

График показывает, как менялось число сыгранных турниров по годам. Линия графика демонстрирует динамику, а точки на ней указывают на конкретные значения. Для выделения трендов использована светло-зеленая линия и черные точки с зеленой обводкой.

Что мы видим:

Годы: Расположены по оси X. Количество турниров: По оси Y и в виде числовых подписей над точками.

0

Цель графика:

Показать динамику участия в турнирах, чтобы выявить пики и спады активности.

Польза:

Для аналитиков: Отслеживание роста или снижения числа турниров. Для организаторов: Определение успешных периодов для планирования.

График 3: Распределение матчей по типам покрытий кортов (Топ-10 турниров)

Этот график отображает распределение матчей по типам покрытий кортов (грунт, трава, хард) для топ-10 турниров с наибольшим числом игр. Используется составная столбчатая диаграмма, где каждая часть столбца соответствует определенному типу покрытия.

Что мы видим:

Турниры: Указаны по оси X. Количество матчей: Указано по оси Y. Типы покрытий: Обозначены цветами (синий — хард, зеленый — трава, оранжевый — грунт) и представлены в легенде.

0

Цель графика:

График позволяет сравнить популярность и распределение матчей на различных покрытиях в рамках крупнейших турниров. Это помогает понять, какие покрытия преобладают в разных турнирах.

Польза:

Для аналитиков: Помогает оценить частоту использования каждого типа покрытия в популярных турнирах. Для игроков: Указывает, на каких покрытиях им предстоит играть чаще всего. Для организаторов: Демонстрирует, какие покрытия привлекают больше участников и зрителей.

График 4: Сравнение рейтинга игрока и его соперника (топ-50)

Этот график отображает взаимосвязь между рейтингами игроков и их соперников в матчах для топ-50 теннисистов. Каждая точка на графике представляет один матч, где по оси X указан рейтинг игрока, а по оси Y — рейтинг его соперника. Добавлена диагональная линия (y = x) для выделения матчей с одинаковыми рейтингами.

Что мы видим:

Игроки с высоким рейтингом: Расположены ближе к началу координат. Игроки с низким рейтингом: Находятся ближе к правой и верхней части графика. Диагональная линия: Подчеркивает матчи, где рейтинги игрока и соперника равны.

0

Цель графика:

Выявить, как часто игроки с близкими или равными рейтингами встречаются друг с другом в матчах. Это помогает анализировать конкурентоспособность и динамику турниров.

Польза:

Для аналитиков: Оценка уровня равенства в матчах. Для тренеров: Анализ того, как игроки справляются с соперниками с близкими рейтингами. Для организаторов: Определение уровня конкуренции в турнирах.

Выводы

В ходе анализа данных из набора Men’s Tennis Dataset были изучены ключевые аспекты, влияющие на результаты и динамику мужского профессионального тенниса. Работа позволила выявить и визуализировать следующие важные моменты:

Игровой опыт игроков: Горизонтальная диаграмма показала, что топ-игроки отличаются значительным количеством сыгранных матчей, что подчеркивает их стабильность и активность в карьере. Динамика турниров: Линейный график продемонстрировал, как число турниров менялось по годам, позволяя определить периоды роста и спада в теннисном календаре. Покрытия кортов: Составная диаграмма помогла оценить популярность различных типов покрытий в крупнейших турнирах, что может быть полезным для игроков и организаторов. Рейтинги игроков и их соперников: Точечный график показал распределение матчей в зависимости от рейтингов участников, подчеркнув частоту встреч между соперниками с близкими или равными уровнями.

Практическая ценность работы:

Для тренеров: Анализ данных помогает выявить сильные и слабые стороны игроков, а также оптимизировать тренировочные программы. Для организаторов: Результаты могут использоваться для планирования турниров и выбора покрытий, которые наиболее востребованы. Для маркетологов: Информация о популярных игроках и турнирах позволяет принимать более взвешенные решения по спонсорству и рекламе.

Источники

Google Colab — файл, содержащий полный код, пояснения и текст проекта.

Датасет — набор данных с платформы Kaggle, содержащий информацию о теннисистах, турнирах, покрытиях кортов и результатах матчей.

Adobe Color — инструмент для создания и настройки цветовой палитры, основанной на загруженном изображении.

Midjourney — сервис для генерации и разработки визуальной обложки проекта.

Анализ данных из мужского тенниса: игроки, турниры, статистика
8