

КОНЦЕПЦИЯ
Цены на авиабилеты и их динамика зависят от множества факторов: расстояние, популярность маршрута, время года, количества пересадок, используемого самолёта и других. В рамках проекта будет выяснено какие рейсы предпочитают пассажиры, кем преимущественно контролируется рынок, а также сезонность и многое другое.

ОБРАБОТКА ДАННЫХ

Чтобы обработать датасет и загрузить его использовались pandas, matplotlib, seaborn.
Некоторые колонки изначально строковые. Их нужно было изменить в datetime и float, чтобы можно было работать с временем. Также были убраны строки, в которых нет даты вылета или длительности — без них анализ не имеет смысла. Созданы новые признаки в виде «дни недели» или «месяца» для анализа сезонности и частоты рейсов.
ВИЗУАЛИЗАЦИЯ ДАННЫХ
На этой гистрограмме показана количество полётов по всем маршрутам в разные даты. На основе этого графике можно выделить, что наибольшее количество рейсов приходится на август и октябрь.
На следующей гистограмме можно увидеть среднюю длительность перелёта. И довольно хороший факт в том, что длительность различных авиакомпаний мало отличается друг от друга, а именно 4 часа. Факт говорит о хорошем, поскольку никто из компаний сильно не отстаёт друг от друга и, вероятно, качественный подход к выбору маршрута полёта схож между ними.
Но несмотря на предыдущие графики, в этой гистограмме можно явно заметить, как средняя длительность Airbus A350 и Boeing 777 сильно превосходит со своими 10 часов альтернативные виды воздушного транспорта, как например Boeing 787 примерно 3 часа.
На гистограмме по количеству рейсов по дням недели можно заметить регулярность по количеству рейсов вне зависимости от дня недели, а именно в среднем по 8000 почти каждый день.
На графике распределения длительности полётов можно увидеть положительную закономерность, когда полёты с меньшей длительностью (от 1 до 2 часов) ощутимо превышают по количеству длительные полёты (от 4 до 16 часов).
ОПИСАНИЕ ПРИМЕНЕНИЯ ГЕНЕРАТИВНОЙ МОДЕЛИ
Использовалась генеративная модель: Chat Gpt 4.0, который использовался для генерации и обработки данных датасета.
Модель: https://openai.com/index/gpt-4/
Промпт: https://docs.google.com/document/d/1qMU_LgLcx1PEhCssHjeEPRTzqg2HouNPlLvudz_csGE/edit?usp=sharing
СПИСОК ИСТОЧНИКОВ
[1] Kaggle — сайт соревнований для специалистов по Data Science: https://www.kaggle.com/datasets/mahatiratusher/flight-price-dataset-of-bangladesh/data
БЛОКНОТ С КОДОМ И ДАТАСЕТ