
Я выбрала датасет «Student Habits vs Academic Performance» с сайта Kaggle. Этот датасет содержит информацию о привычках студентов в сравнении с их академической успеваемостью. https://www.kaggle.com/datasets/jayaantanaath/student-habits-vs-academic-performance?resource=download
Описание проекта
Набор содержит данные о повседневных привычках 1000 студентов — от времени, затрачиваемого на учёбу, до психического здоровья — и сравнивает их с результатами выпускных экзаменов. Мне интересно проанализировать эти данные, потому что я хочу изучить связь между образом жизни и уровнем успеваемости студентов.
Этапы работы


В нейросети Recraft.ai я создала изображение промт: Minimalism, abstract art, geometric abstraction, study, education. Colors: pure sky blue, pure blue, vibrant orange. Clean lines, simple design.
Далее с помощью сервиса Adobe Color я превратила изображении в цветовую палитру и использовала её в графиках.
Время просмотра Netflix
Точечная диаграмма показывает:
1. отрицательную корреляцию: в целом, прослеживается тенденция к снижению оценок по мере увеличения количества часов, потраченных на просмотр Netflix. Это говорит об отрицательной взаимосвязи.
2. разброс данных: при небольшом количестве часов просмотра Netflix (менее 1 часа в день) наблюдается большой разброс оценок. Это означает, что другие факторы (учеба, сон, питание и т. д.) также оказывают значительное влияние на успеваемость.
3. заметное снижение оценок: студенты, которые смотрят Netflix более 3 часов в день (коричневые точки), как правило, имеют более низкие оценки. Точки в этой группе сконцентрированы в нижней части графика.
4. группы с умеренным просмотром: группы студентов, которые смотрят Netflix 1-2 часа (синие точки) и 2-3 часа (голубые точки), распределены более равномерно, но также в основном находятся в диапазоне оценок от 50 до 80.
Кол-во учебных часов в день


Графики визуализируют взаимосвязь между временем учёбы и результатами экзаменов.
Наблюдения и интерпретации:
1. положительная корреляция: чётко прослеживается тенденция повышения результатов экзаменов с увеличением времени, затраченного на учёбу.
2. низкие результаты: студенты, занимающиеся менее 2 часов в день (синие точки), в основном показывают результаты ниже 60 баллов.
3. повышение результатов: переход к 2-4 часам учёбы (голубые точки) приводит к увеличению разброса результатов, но средние значения становятся выше.
4. высокие результаты: студенты, занимающиеся 4-6 часов в день (коричневые точки) и более 6 часов в день (оранжевые точки), показывают наилучшие результаты, с плотным скоплением точек в верхней части графика (80-100 баллов). При этом максимальные результаты достигаются уже в группе 4-6 часов, а увеличение времени учебы свыше 6 часов не приводит к значительному улучшению.
Кажется, что есть предел отметке экзамена, независимо от количества часов учебы. После определенного момента (около 6 часов в день) дополнительные часы не сильно влияют на оценку.
Качество питания
Скрипичный график визуализирует распределение результатов экзамена для каждой категории качества питания:
1. «Poor» Diet Quality: распределение результатов экзамена для студентов с «Poor» качеством питания сдвинуто влево (в сторону более низких оценок). «Скрипка» шире в области низких оценок, и имеет более короткий правый «хвост». Это означает, что большая часть студентов с плохим питанием имеет результаты ниже среднего, и меньше студентов с хорошими оценками.
2. «Good» Diet Quality: распределение результатов экзамена для студентов с «Good» качеством питания сдвинуто вправо (в сторону более высоких оценок). «Скрипка» имеет более длинный правый «хвост», что означает, что больше студентов с хорошим питанием получили высокие оценки.
3. «Fair» Diet Quality: распределение «Fair» качества питания — находится где-то посередине между «Good» и «Poor». Распределение ближе к «Good», но «скрипка» немного более плоская, с небольшим «хвостом» на низких оценках.
Качество питания оказывает влияние на успеваемость студентов. Правильное питание связано с повышением результатов экзамена, а плохое питание — с понижением.
Время в соц. сетях
Гистограммы показывают распределения двух переменных: количества часов, проведенных в социальных сетях, и результатов экзамена.
Распределение имеет положительную асимметрию (скошено вправо). Это означает, что большинство студентов проводят относительно небольшое количество времени в социальных сетях.
Мода: наиболее часто встречающееся значение находится в диапазоне от 2 до 3 часов.
В целом, распределение результатов экзамена имеет форму, близкую к нормальному распределению, но с некоторыми особенностями.
Двугорбовое распределение: заметны два пика: один в районе 70-75 баллов, а второй — около 100 баллов. Это говорит о том, что в данных есть две группы студентов: одна с результатами около 70 баллов, а другая — с максимальными результатами.
Корреляция оценки за экзамен
Тепловая карта визуализирует корреляции между различными числовыми признаками набора данных:
1. сильные положительные корреляции: study_hours_per_day и exam_score: корреляция 0.83 указывает на сильную положительную связь. Это означает, что чем больше времени студент тратит на учёбу, тем выше его оценка за экзамен.
2. отрицательные корреляции: social_media_hours и exam_score: корреляция -0.17 указывает на слабую отрицательную связь. Студенты, проводящие больше времени в социальных сетях, имеют несколько более низкие оценки за экзамен.
netflix_hours и exam_score: корреляция -0.17 (та же, что и с социальными сетями) указывает на слабую отрицательную связь. Студенты, проводящие больше времени за просмотром Netflix, имеют несколько более низкие оценки.
3. слабые корреляции: mental_health_rating и exam_score: корреляция 0.32 указывает на умеренную положительную связь. Студенты с более высокими оценками психического здоровья, как правило, имеют более высокие оценки за экзамен.
Уровень ментального здоровья
Комбинированный график (точечная диаграмма с наложенной линией) визуализирует оценку за экзамен и рейтинг психического здоровья.
Восходящий тренд (1-3): на начальном участке графика (от 1 до 3 баллов) средняя оценка за экзамен повышается с ростом рейтинга психического здоровья.
Связь между психическим здоровьем и успеваемостью может быть двусторонней: плохое психическое здоровье может приводить к ухудшению оценок, а плохие оценки могут вызывать стресс и ухудшать психическое здоровье.
Количество сна и ментальное здоровье
Пузырьковая диаграмма сравнивает результат экзамена и количество часов сна, где размер кодирует процент посещаемости, а цвет — рейтинг психического здоровья.
1. нет явной прямой зависимости между часами сна и успеваемостью: количество часов сна само по себе, судя по графику, не является определяющим фактором для высоких оценок на экзамене. На графике присутствуют студенты, спящие как мало, так и много, и при этом получающие разные баллы.
2. рейтинг психического здоровья: студенты с лучшим психическим здоровьем (оранжевые пузырьки) склонны чаще встречаться в области высоких оценок. Но это скорее тенденция, чем строгая закономерность.
3. посещаемость: большие пузырьки (высокая посещаемость) разбросаны по всему графику, что говорит о том, что посещаемость не гарантирует высокие оценки.
Сложная многофакторная зависимость: график подтверждает, что успеваемость зависит от сочетания многих факторов, и ни один из них не является единственным определяющим.
Заключение
Анализ представленных графиков, иллюстрирующих взаимосвязи между образом жизни и успеваемостью студентов, позволяет сделать следующие основные выводы:
1. многофакторность успеха: успеваемость студентов — сложный феномен, который зависит от множества факторов, а не от одного-единственного параметра. Ни один из рассмотренных аспектов (время учебы, сон, потребление Netflix, психическое здоровье, посещаемость) не является единственным определяющим фактором успешности на экзаменах.
2. наиболее значимый фактор — время, потраченное на учебу: наиболее сильную положительную корреляцию с оценками за экзамен демонстрирует количество часов, потраченных на учебу. Увеличение времени на учебу, как правило, связано с повышением успеваемости. Однако, судя по графикам, существует эффект насыщения, когда дальнейшее увеличение времени учебы после определенной точки может не приводить к существенному росту баллов.
3. Netflix и социальные сети: использование социальных сетей и просмотр Netflix, по всей видимости, демонстрируют слабую отрицательную корреляцию с успеваемостью. Чрезмерное увлечение этими видами деятельности может негативно влиять на результаты экзаменов.
4. психическое здоровье имеет значение: рейтинг психического здоровья показывает положительную связь с успеваемостью. Хорошее психическое здоровье, по всей видимости, благоприятствует лучшим результатам.
5. питание: качество питания также может оказывать влияние на успеваемость. Правильное питание связано с более высокими оценками.
6. сон и посещаемость — сложная связь: влияние часов сна и посещаемости на успеваемость не является очевидным из графиков, показывающих низкую корреляцию.
Таким образом, стоит учитывать важность целостного подхода: для достижения успеха студентам рекомендуется уделять внимание всем аспектам, влияющим на их благополучие: эффективному планированию времени, достаточной продолжительности сна, сбалансированному питанию, поддержанию психического здоровья, а также осознанному использованию социальных сетей и Netflix.
Описание применения генеративной модели и использованные инструменты
1. Chat GPT Free (исправление промтов и помощь в создании и исправлении кода для Google Collab, анализ графиков) (https://chatgptchatapp.com/en/about)
2. Recraft.ai (генерация обложки и изображения для цветовой палитры) (https://www.recraft.ai)
3. Adobe Color (создание цветовой палитры) (https://color.adobe.com/ru/)
4. Google Collab (создание графиков и работа с датасетами)