Original size 1140x1600

Тренды цен на авиабилеты

PROTECT STATUS: not protected
4
big
Original size 3200x1820

КОНЦЕПЦИЯ

Цены на авиабилеты и их динамика зависят от множества факторов: расстояние, популярность маршрута, время года, количества пересадок, используемого самолёта и других. В рамках проекта будет выяснено какие рейсы предпочитают пассажиры, кем преимущественно контролируется рынок, а также сезонность и многое другое.

big
Original size 1080x599

ОБРАБОТКА ДАННЫХ

big
Original size 1009x268

Чтобы обработать датасет и загрузить его использовались pandas, matplotlib, seaborn.

Original size 1224x430

Некоторые колонки изначально строковые. Их нужно было изменить в datetime и float, чтобы можно было работать с временем. Также были убраны строки, в которых нет даты вылета или длительности — без них анализ не имеет смысла. Созданы новые признаки в виде «дни недели» или «месяца» для анализа сезонности и частоты рейсов.

ВИЗУАЛИЗАЦИЯ ДАННЫХ

0

На этой гистрограмме показана количество полётов по всем маршрутам в разные даты. На основе этого графике можно выделить, что наибольшее количество рейсов приходится на август и октябрь.

0

На следующей гистограмме можно увидеть среднюю длительность перелёта. И довольно хороший факт в том, что длительность различных авиакомпаний мало отличается друг от друга, а именно 4 часа. Факт говорит о хорошем, поскольку никто из компаний сильно не отстаёт друг от друга и, вероятно, качественный подход к выбору маршрута полёта схож между ними.

0

Но несмотря на предыдущие графики, в этой гистограмме можно явно заметить, как средняя длительность Airbus A350 и Boeing 777 сильно превосходит со своими 10 часов альтернативные виды воздушного транспорта, как например Boeing 787 примерно 3 часа.

0

На гистограмме по количеству рейсов по дням недели можно заметить регулярность по количеству рейсов вне зависимости от дня недели, а именно в среднем по 8000 почти каждый день.

0

На графике распределения длительности полётов можно увидеть положительную закономерность, когда полёты с меньшей длительностью (от 1 до 2 часов) ощутимо превышают по количеству длительные полёты (от 4 до 16 часов).

ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ

Использовалась генеративная модель: Chat Gpt 4.0, который использовался для генерации и обработки данных датасета.

Модель: https://openai.com/index/gpt-4/

Промпт: https://docs.google.com/document/d/1qMU_LgLcx1PEhCssHjeEPRTzqg2HouNPlLvudz_csGE/edit?usp=sharing

СПИСОК ИСТОЧНИКОВ

[1] Kaggle — сайт соревнований для специалистов по Data Science: https://www.kaggle.com/datasets/mahatiratusher/flight-price-dataset-of-bangladesh/data

БЛОКНОТ С КОДОМ И ДАТАСЕТ

Тренды цен на авиабилеты
4