Original size 768x1152

Анализ национальностей в k-pop группах

PROTECT STATUS: not protected

Я фанатка музыкального жанра «k-pop» и активно слежу за новостями к-поп индустрии. В последние годы я стала замечать, что всё больше иностранцев дебютирует в Корее. Мне стало интересно узнать, насколько сильно теперь смешиваются национальности в группах, поэтому решила проанализировать таблицы с данными, взятами с сайта kaggle.

Название базы данных — K-Pop Database (1992-2020)

К сожалению, в последний раз таблицы обновлялись в 2020 году, поэтому информация не столь актуальна. Однако всё равно интересно посмотреть, как индустрия поменялась за 28 лет!

В проекте использовалось 4 вида диаграмм: — круговая диаграмма — столбчатая диаграмма — график — гистограмма

Цветовая палитра и шрифт

При построении графиков я использовала основную палитру из пяти цветов.

#31466B #59729A #9E6D7B #F0BFAF #F8E1B7

Но иногда групп данных было больше пяти, поэтому мне пришлось добавить ещё 5 оттенков.

#FFD98D #9DAFD3 #B77DAD #667282 #ABB4BD’

Шрифт я взяла из модуля font_manager в библиотеке matplotlib. Название шрифта — Dejavu Serif.

big
Original size 1920x879

Национальности в к-поп группах

Перед тем как начать работать с данными, я импортировала их с сайта kaggle, скачав архив и переместив его в папку на рабочем столе.

Я обратилась к ChatGPT, чтобы он подсказал, какие библиотеки и функции нужно использовать, чтобы загрузить датасет в гугл коллаб.

Original size 575x305

Импортирование базы данных в Google Colab

Первым делом я решила узнать сколько в целом иностранцев есть в к-поп группах, дебютировавших в период с 1992 по 2020.

Для этого я отсортировала табличку kpop_idols.csv и заменила в столбце «Country» все страны, не являющиеся Южной Кореей на «Other».

Далее я посчитала, сколько раз встречалось каждое уникальное значение в столбце Country с помощью функции value_counts ().

После того, как все данные были отсортированы, я преступила к генерации диаграммы, подставив цвета из цветовой палитры и нужные шрифты.

Original size 1059x266

Код для круговой диаграммы

Original size 637x472

Распределение национальностей исполнителей К-поп

После того, как я увидела процентное соотношение иностранцев и корейцев, я решила узнать, из каких стран иностранные айдолы.

Я попросила ChatGPT помочь с логикой сортировки, а также логикой объединения стран с коэффициэнтом меньше 1% в общую группу «other».

Original size 970x374

Код для создания круговой диаграммы

Original size 785x643

Родные страны айдолов, родившихся не в Корее

Как часто иностранцы дебютируют в к-поп группах

Далее я решила узнать, начиная с какого года в к-поп группах начали появляться иностранцы. Для этого мне была нужна статистика иностранцев в группах по годам.

Это был самый сложный анализ данных, так как мне пришлось объединить 3 таблички: 1. К-поп айдолы 2. Мужские к-поп группы 3. Женские к-поп группы

Из второй и третьей таблицы я брала год дебюта каждой группы, а из первой родные страны участников этих групп.

Original size 1614x1068

Код для столбчатой диаграммы

Сначала я работала с табличкой со списком к-поп айдолов. Я отсортировала столбец со странами, убрав из него Южную Корею, а потом с помощью unique () создала массив с уникальными странами, чтобы они не повторялись.

Далее я создала дата фрейм с айдолами, чьи страны входят в этот уникальный список. Потом сгруппировала его по названиям групп и посчитала количество иностранных айдолов в каждой группе.

Original size 554x109

Потом я переименовала столбец Names в таблицах с женскими и мужскими группами в Groups, чтобы названия совпадали, и отформатировала столбец с датой дебюта, чтобы был только год, без месяца и дня.

Удалила дублирующиеся группы из обеих таблиц, чтобы оставались уникальные пары группа — год дебюта.

Далее объединила табличку с айдолами с табличками женских и мужских групп по столбцу Groups и привела значения в столбце к целочисленной форме.

Original size 998x319

Ну и в конце я отсортировала получившийся дата фрейм по году дебюта и сделала диаграмму, снова настроив цвета и нужный шрифт.

Original size 934x280
Original size 1178x776

После построения столбчатой диаграммы я поняла, что она не так хорошо показывает динамику изменений в количестве иностранных айдолов, поэтому решила построить ещё и линейный график.

Original size 752x319

Код для линейного графика

Original size 1076x708

Люди из каких городов Кореи чаще всего дебютируют

В самом конце я решила узнать, а какая динамика среди айдолов из самой Кореи!

Сначала я отсортировала айдолов по странам, оставив только тех, у кого страна Южная Корея, а после посчитала количество айдолов в каждом уникальном городе. Города, где айдолов меньше 5, я объединила в группу other.

Original size 736x332

Код для построения гистограммы

Original size 1070x711

Заключение

Подведём итоги. С 1992 по 2020 гг в к-поп группах было меньше 10% людей не из Кореи. Самые популярные родные страны айдолов, кроме Кореи — Китай, Япония и Америка. В конце 20го века в к-поп группах были практически только корейцы, но начиная с 2015 года иностранцев начало появляться всё больше и больше. Среди самих же корейцов айдолами становятся в основном те, кто родились в Сеуле, но есть достаточно большое количество и из других городов!

Использованные нейросети: — ChatGPT 3.5 — ideogram (обложка)

Анализ национальностей в k-pop группах