
Мы живём в мире капитализма…
Каждый раз, когда мы прикладываем карту к терминалу или нажимаем кнопку «Оплатить» в приложении, мы не просто совершаем покупку — мы генерируем данные. В современном ритейле информация о том, кто, что и когда купил, стала новой валютой, по ценности порой превосходящей саму прибыль от сделки. Понимание этих скрытых паттернов — это разница между успешным бизнесом и тем, который работает вслепую.
Именно поэтому для своего проекта я выбрал датасет «Shopping Behavior Trends». Это не просто сухая таблица с цифрами, а слепок реального потребительского поведения 3900 человек. Мне было важно выяснить, действительно ли существуют те «идеальные покупатели», о которых пишут в маркетинговых статьях, или же наши траты — это хаос, не зависящий ни от возраста, ни от сезона.
Для проекта я выбрал датасет Shopping Behavior Trends, содержащий информацию о 3900 транзакциях покупателей. Данные представлены в формате CSV и включают такие параметры, как возраст, пол, категория товара, сумма покупки, сезон, рейтинг отзыва и способ оплаты.

Распределение возраста покупателей

Статистический метод: гистограмма с наложением линии плотности распределения.
Это позволяет понять демографическое ядро вашей аудитории. Также мы отметим средний возраст.
Популярность категорий товаров по сезонам
Метод: частотный анализ категориальных данных
Я использовал группировку по двум признакам: «Сезон» и «Категория». Это позволяет увидеть не только общий спрос но и структуру спроса.
Заголовок
Статистический метод: анализ структуры. Мы смотрим, из каких долей состоит целое.
Скорее всего, вы увидите, что доли распределены очень равномерно (примерно по 16-17%).
Заголовок
Метод: трендовый анализ (хотя здесь ось X — это возраст, а не время, принцип тот же: зависимость Y от изменения X).
Я использую агрегацию, чтобы снизить шум.
Заключение
Как пример, можно сказать, что данные разрушили несколько популярных мифов. Мы часто думаем, что молодежь тратит меньше, а подписчики программ лояльности — больше, но мой анализ показал, что средний чек удивительно стабилен и почти не зависит от возраста или статуса подписки. Это говорит о том, что покупательская способность распределена равномернее, чем кажется на первый взгляд.
Главный вывод проекта прост: чтобы понять клиента, нужно смотреть не на интуицию, а на цифры. И в данном случае цифры показали, что поведение покупателя — это сложная система, где отсутствие явных корреляций (как в случае с возрастом и суммой чека) — это тоже важный бизнес-инсайт, позволяющий не ограничивать целевую аудиторию узкими рамками.