Original size 1140x1600

Анализ базы данных Spotify

PROTECT STATUS: not protected

Введение

Я выбрала данные с сайта Kaggle о некоторых треках из 125 различных жанров в Spotify и проанализировала топ-20 треков в данном ресурсе.

Мне было интересно поработать с этими данными, так как я очень активно слушаю музыку именно на этой стриминговой платформе и я сама музыкант. Как может работать система чарта, какие треки являются наиболее прослушиваемыми и почему — эти вопросы были мне интересны как простому слушателю, так и как возможному будущему артисту, готовый работать с этой плаформой.

Виды графиков

- Столбчатая диаграмма - Круговая диаграмма - Столбчатая диаграмма с двумя категориями - Точечная диаграмма

Этапы работы

- Выбор данных - Загрузка CSV файла в Google Collab - Выбор интересующей информации - Аналитическая работа - Выведение визуализации

Визуализация

big
Original size 1254x642

Код № 1

big
Original size 1635x780

Для начала я извлекла данные о самых популярных жанрах, в которых написаны треки из топ-20. Это оказалась преимущественно поп-музыка с элементами других жанров. Поп-музыка является наиболее «открытым» жанром, который подразумевает под собой любое звучание, стиль и вид аранжировки, соответственно, понятие поп-музыки в данном анализе не ограничивает изучение остальной информации никакими рамками.

Original size 1306x498

Код № 2

Original size 1118x1008

Затем я попыталась сопоставить количество треков с нецензурной лексикой в топ-20 треков с треками без нее. В результате анализа моя теория о том, что количество треков с нецензурной лексикой будет превышать количество треков без нее, была опровергнута. Не подтвержден факт, в котором наличие такой лексики оказывает положительное влияние на попадание трека в чарт.

Original size 1372x456

Код № 3

Original size 956x790

После этого я попыталась выяснить соотношение темпа и длительности трека. Так как со времен радио «золотым стандартом длительности» поп-трека считается около 3,5 минут, я проанализировала топ-20 треков на данные характеристики и выяснила, что самые популярные композиции в анализируемой 20-ке находятся примерно в диапазоне от 125 до 130 bpm (чуть меньше чем обычный темп трека в жанре «Трэп», довольно популярного в современное время и часто появляющегося в поп-музыке) и обладают продолжительностью не более 3,2 минуты. Из этого я сделала вывод, что длительность и темп трека играют какую-то важную роль в прослушиваемости пользователями стриминговой платформы, раз «стандарты» соблюдаются до сих пор.

Original size 1586x874

Код № 4

Original size 978x550

«Валентность» (valence) = песни по шкале от 0.0 до 1.0, опираясь на «музыкальную позитивность, передаваемую композицией. Чем ниже значение, тем печальнее мелодия.

В конце я проанализировала топ-20 треков с большой долей акустики/в акустическом стиле с разной валентностью. Моя теория была в том, что количество треков в акустическом стиле (который сейчас довольно популярен у представителей молодежной поп-музыки), которые обладают меньшей валентностью (то есть „более грустные“), будут являться большей частью чарта. В целом, теория подтвердилась.

Выводы

Если попытаться составить некую формулу попадания треков в чарт исходя из всех полученных данных, то можно получить следующее: жанр «Поп» + наличие/отсутствие нецензурной лексики + 3 минуты хронометража + темп ≥140 bpm + (при акустической камерной стилизации более грустное настроение, «вайб»). Довольно стандартизированные известные нормы, которые не являются сенсационными, но визуализация этих данных помогла наглядно понять, что сейчас более популярно, а что нет.

Описание применения генеративной модели

Для совершенствования инфографики я обращалась за помощью к ChatGPT

https://chatgpt.com/

Анализ базы данных Spotify