Original size 1290x2072

Анализ данных о самых просматриваемых каналах на Youtube за 2023

PROTECT STATUS: not protected
5

Введение

Для своего проекта я выбрала данные о популярных YouTube-каналах из датасета Global YouTube Statistics 2023. Нашла я его на Kaggle, где собрано много разных открытых датасетов для анализа.

Если честно, выбрала YouTube, потому что сама часто пользуюсь этой платформой и мне интересно, какие каналы наиболее популярны в мире.

В датасете есть много интересной информации:

- Имена ютуберов - Количество подписчиков - Просмотры видео - Категории контента - Страны происхождения - Примерные доходы каналов

Мне кажется, это супер интересные данные, потому что YouTube сейчас такой популярный, и многие мои друзья тоже им пользуются. Хотелось понять, какой контент преобладает на платформе и как распределяются популярные каналы по миру.

Визуализация данных

Для визуализации я решила сделать несколько разных графиков:

Круговая диаграмма — для показа распределения каналов по типам. Это наглядный способ сравнить, сколько индивидуальных блогеров и сколько брендов среди топовых каналов. Линейный график — для показа тренда создания популярных каналов по годам. Тут интересно увидеть динамику роста платформы и когда был пик появления самых успешных каналов. Столбчатая диаграмма — для показа топ-10 стран по количеству популярных каналов. Это поможет понять, какие страны доминируют на платформе. Диаграмма рассеяния — для анализа взаимосвязи между подписчиками и доходами. Интересно увидеть, как количество подписчиков влияет на доход ютуберов. Горизонтальная столбчатая диаграмма — для показа топовых каналов по подписчикам, чтобы наглядно увидеть, кто возглавляет список самых популярных каналов на платформе.

Шаг 1: Загрузка данных и первичный анализ

big
Original size 1146x525

Я загрузила датасет и провела его первичный анализ. Как оказалось, в датасете содержится информация о 995 популярных YouTube-каналах с множеством атрибутов. При изучении данных я обнаружила, что есть некоторые пропущенные значения, особенно в таких колонках как категории, страны, прирост подписчиков за последние 30 дней и т. д. С этими проблемами нужно будет разобраться перед тем, как строить визуализации.

Шаг 2: Обработка данных и подготовка к анализу

Original size 2479x934
Original size 2688x520

Для дальнейшего анализа мне нужно было обработать данные. Я заполнила пропущенные значения: для числовых данных использовала медианные значения, а для категориальных — метку «Unknown». Мне также понадобилось создать дополнительные колонки для средних значений доходов, чтобы облегчить анализ. Кроме того, я сгруппировала категории контента, оставив только топ-10 самых частых, а все остальные объединила в категорию «Other». Это сделает наши визуализации более читаемыми и позволит сосредоточиться на самых важных категориях.

Шаг 3: Круговая диаграмма — распределение каналов по типам

Original size 1829x779
Original size 1573x1310

Круговая диаграмма показывает, что Entertainment (Развлечения) составляет наибольшую долю (30.6%) всех популярных YouTube-каналов. На втором месте идут Music (Музыка) с 21,7%, за ними следуют People (Люди) с 10,2% и Games (Игры) с 9,8%. Далее идут Comedy (Комедия) с 5,1%, Education (Образование) с 4,9% и Film (Фильмы) с 4,2%. Остальные категории занимают менее значительные доли. Это демонстрирует, что развлекательный и музыкальный контент доминирует на платформе.

Шаг 4: Столбчатая диаграмма — топ-10 стран по количеству популярных каналов

Original size 2488x971
Original size 1280x728

Соединенные Штаты значительно лидируют с 313 популярными каналами. Индия занимает второе место со 168 каналами. Интересно отметить категорию «Unknown» (Неизвестно) с 122 каналами, что указывает на довольно большое количество каналов без указанной страны происхождения. Далее следуют Бразилия (62), Великобритания (45), Мексика (33), Индонезия (28), Испания (22), Таиланд (18) и Южная Корея (17). Это распределение показывает доминирование США на платформе YouTube, а также значительное присутствие развивающихся стран.

Шаг 5: Линейный график — динамика создания популярных каналов по годам

Original size 2591x1088
Original size 1280x727

График показывает несколько интересных пиков в динамике создания популярных каналов. Первый значительный пик наблюдался в 2006 году (91 канал), затем было относительное снижение. Второй крупный рост начался в 2011 году (82 канала) с абсолютным пиком в 2014 году (98 каналов). После 2015–2016 годов наблюдается постепенное снижение, которое становится более заметным после 2017 года. К 2022 году количество новых популярных каналов сократилось до минимума (5 каналов). Эта динамика может указывать на насыщение платформы и возрастающую сложность достижения популярности для новых каналов.

Шаг 6: Диаграмма рассеяния — взаимосвязь между подписчиками и доходами

Original size 2567x1114
Original size 1280x788

Диаграмма рассеяния с логарифмическими шкалами показывает четкую корреляцию между количеством подписчиков и годовым доходом каналов. Большинство точек формируют восходящую тенденцию, демонстрируя, что с увеличением количества подписчиков растет и доход. Однако заметны также каналы с относительно небольшим количеством подписчиков, но высоким доходом, и наоборот. Интенсивность цвета, отражающая количество просмотров, показывает, что каналы с наибольшим количеством просмотров (более темные точки) обычно имеют более высокий доход.

Шаг 7: Горизонтальная столбчатая диаграмма — топ-15 каналов по подписчикам

Original size 2631x1284
Original size 1280x911

T-Series (Music) значительно лидирует с примерно 245 миллионами подписчиков. За ним следуют YouTube Movies (Film & Animation) с около 170 миллионами и MrBeast (Entertainment) с 166 миллионами. Другие топовые каналы включают Cocomelon — Nursery Rhymes (Education), SET India (News), а также несколько музыкальных и развлекательных каналов. В топ-15 представлены различные категории: музыка, фильмы и анимация, развлечения, образование, игры и спорт, что отражает разнообразие популярного контента на платформе.

Описание применения генеративной модели

Если честно, я пока не эксперт в Python, поэтому на некоторых этапах я консультировалась с ChatGPT. (https://chatgpt.com)

Например, когда у меня возникли сложности с:

- Обработкой дат. - Добавлением красивых подписей на графики. - Разбором стран, где в одной ячейке было несколько значений через запятую. - Заполнением пропущенных значений. Я просила его примерно так:

«Как в matplotlib добавить значения над столбцами гистограммы?» «Как извлечь год из столбца с датами в pandas?»

ChatGPT помог мне разобраться с этими задачами, что значительно ускорило работу над проектом.

Итоги проекта

Работа над этим проектом была супер интересной!

Я не только:

Научилась работать с реальными данными. Создавать крутые визуализации. Разобралась в основах анализа данных. Но и узнала много нового про YouTube и популярные каналы.

Основные выводы:

Платформа сильно изменилась со временем. Теперь я лучше понимаю, какой контент там преобладает и почему. Особенно интересно было увидеть динамику создания популярных каналов. Попасть в топ становится всё сложнее, но по-прежнему возможно! Пример MrBeast показывает, что индивидуальные контент-мейкеры могут добиться огромного успеха, если найти свой уникальный подход!

Этот проект дал мне новый взгляд на YouTube и вдохновил на дальнейшее изучение анализа данных!

Блокнот и дататест

Анализ данных о самых просматриваемых каналах на Youtube за 2023
5