

Вступление
Для анализа был выбран датасет с сайта Kaggle, который содержит около 70000 сообщений о наблюдении НЛО в формате csv.
Выбирая датасет, я искала нечто забавное, чтобы процесс анализа был интересным. Я проанализировала обращения об инопланетянах, так как считаю, что сообщения об их свидетельстве не могут быть подкреплены реальными доказательствами и мне хотелось более глубоко исследовать данный вопрос.

Для подписей осей и заголовков на графиках использовался шрифт Special Elite, так как он отсылает к сериалу о внеземных существах «Секретные материалы». Общая стилистика проекта в том числе является отсылкой на этот сериал.
Обработка датасета
Первым делом я избавилась от NaN значений в столбце «country». В ходе рассмотрения датасета было выяснено, что таким значением было наделено только США, так как в тех же строках было заполнено поле «state», которое отсутствовало у других государств.
Каждое отсутствующее значение в колонке «country» было заменено на «us», если ему соответствовал штат. Также было обнаружено, что колонка с продолжительностью наблюдения НЛО в секундах («duration (seconds)») содержала в себе апострофы, которые также были убраны.
Для дальнейшего анализа был добавлен столбец, который содержал год свидетельства НЛО.
Используемые материалы
В ходе работы я использовала такие библиотеки Python как Pandas, Matplotlib, Random и Numpy.
Обложка для данного проекта также сделана с использованием нейросети FLUX. Промт: happy green alien showing peace sign with his fingers gets abducted by ufo in corn field, mysterious green haze, vertical image 1140 by 1600 pixels, hyperrealistic style
Визуализация
Для визуализации данных я использовала столбчатую диаграмму (для демонстрации среднего времени наблюдения по штатам США), гистограмму (для наглядности количества наблюдений по странам), линейный график (для визуализации обращений по годам), а также круговую диаграмму (чтобы показать долю количества обращений по штатам США).
Если посмотреть на график с количеством свидетельств НЛО по странам, стоит обратить внимание, что абсолютное большинство наблюдений НЛО было получено из США. Лишь незначительная доля была получена из других стран, таких как Канада, Великобритания, Австралия и Германия. Из каких-либо других стран обращений в датасете обнаружено не было.
Такое количество наблюдений в США вызывает подозрения, ведь если инопланетяне появляются на планете, то люди должны видеть их примерно одинаково по странам (по крайней мере развитым, где обращение можно зарегистрировать).
Если говорить о количестве сообщений о свидетельстве НЛО по годам, можно заметить, что резкий рост начинается на рубеже XX и XXI веков. Что интересно, согласно интернет-источникам, именно в этот период сериал о теориях заговора и НЛО «Секретные материалы» был на пике популярности. С тех пор количество свидетельств НЛО только увеличивается.
Следует заметить, что в последний год наблюдения (2014) наблюдается резкое снижение количества свидетельств. Это объясняется тем, что на момент сбора данных 2014 год ещё не закончился, поэтому наблюдается статистический выброс.
Далее более подробно были рассмотрены обращения из США, так как данная страна имела самое большое их количество.
На круговой диаграмме видно, что больше всего обращений наблюдается в штате Калифорния. В топ-5 также входят такие штаты как Вашингтон, Флорида, Техас и Нью-Йорк (самые населенные штаты по информации из Википедии). В сумме эти штаты составляют 35% обращений от общей массы обращений в США.
При рассмотрении среднего времени наблюдения НЛО по штатам США можно заметить, что с большим отрывом среднее время наблюдения больше всего в Арканзасе, что может говорить о наличии крайне длительного наблюдения в выборке. Действительно, в Арканзасе присутствует свидетельство от 1991 года, которое продолжалось 21 год в городе Гринбрайер.
К сожалению, дополнительную информацию об этом свидетельстве в открытых источниках обнаружить не удалось.
Также по данной диаграмме можно сказать, что среднее время наблюдения по остальным девяти штатам колеблется в районе 4-х часов.
Заключение
В ходе работы с датасетом я смогла лучше понять природу свидетельств НЛО, а также смогла обнаружить интересные совпадения. Например, как уже было сказано, количество сообщений о НЛО резко выросло в момент наибольшей популярности самого известного сериала об инопланетянах «Секретные материалы». Также обнаружилась зависимость между количеством населения и количеством обращений (по крайней мере в США).
Данное исследование помогло мне понять, что явление НЛО скорее выдумка массовой культуры, нежели окружающая нас реальность.
Информация о сериале «Секретные материалы» взята с Википедии: https://ru.wikipedia.org/wiki/Секретные_материалы
Данные о количестве населения по штатам США также взята с Википедии: https://ru.wikipedia.org/wiki/Список_штатов_и_территорий_США_по_численности_населения