
Вводная часть
Для моего проекта был выбран набор данных studentmat.csv, содержащий информацию о студентах, изучающих математику. Эти данные представляют особую ценность, поскольку включают широкий спектр факторов: от демографических характеристик до семейного положения, учебных привычек и социальных параметров.
Я выбрала эти данные, поскольку вопрос успеваемости студентов является важным для развития образовательных методик и стратегий. Понимание того, какие факторы действительно влияют на учебные результаты, позволяет разрабатывать более эффективные образовательные программы и предоставлять целенаправленную поддержку учащимся.
Для визуализации результатов анализа я использовала различные типы графиков:
• Диаграммы размаха (box plots) для отображения распределения оценок • Столбчатые диаграммы для сравнения средних показателей • Тепловые карты для визуализации корреляций между факторами • Гистограммы для анализа распределения оценок • Комбинированные графики для многомерного анализа данных
Разнообразие графиков позволило наглядно представить различные аспекты данных и выявить неочевидные взаимосвязи.
Этапы работы
Подготовка данных

Первым этапом работы стала подготовка и предварительный анализ данных. Я использовала библиотеки pandas для обработки данных, matplotlib и seaborn для визуализации. Было важно перевести названия столбцов с английского на русский для лучшего восприятия информации.
Для подготовки данных к анализу были выполнены следующие шаги:
• Загрузка данных и проверка их структуры • Переименование столбцов для удобства работы • Предварительный анализ распределения значений • Группировка данных для последующей визуализации
Разработка визуализаций
При создании визуализаций я уделила особое внимание единому стилю, который обеспечивает целостное восприятие информации. Для этого была разработана единая цветовая схема, использующая гармоничные оттенки синего, зеленого, желтого и серого.
Основные принципы дизайна включали:
• Единую цветовую палитру для всех графиков • Согласованный стиль заголовков и подписей • Четкие обозначения осей и легенды • Добавление средних значений непосредственно на графики для улучшения восприятия
Результаты анализа и интерпретация графиков
Влияние времени на учебу на итоговую оценку
График показывает положительную корреляцию между временем, затрачиваемым на учебу, и итоговыми оценками. Студенты, уделяющие учебе 5-10 часов в неделю, имеют среднюю оценку 11.4, что значительно выше, чем у учащихся, тратящих менее 2 часов (среднее 10.0). Интересно, что наибольший скачок в успеваемости наблюдается при переходе от 2-5 часов к 5-10 часам в неделю, в то время как дальнейшее увеличение времени на учебу (более 10 часов) не приводит к значительному росту оценок.
Влияние потребления алкоголя на успеваемость
Данная визуализация демонстрирует четкую обратную зависимость между уровнем потребления алкоголя в выходные дни и успеваемостью студентов. Учащиеся с низким уровнем потребления (1-2 по шкале) имеют средний балл 10.7, в то время как студенты с высоким уровнем потребления (5 по шкале) — всего 9.8. Это указывает на то, что злоупотребление алкоголем даже в выходные дни может негативно сказываться на учебных результатах.
Корреляция между факторами, влияющими на успеваемость
Тепловая карта корреляций выявила ряд интересных взаимосвязей:
• Наиболее сильная отрицательная корреляция (-0.36) наблюдается между количеством предыдущих провалов и итоговой оценкой • Образование родителей положительно коррелирует с успеваемостью (0.22 для матери и 0.15 для отца) • Потребление алкоголя отрицательно коррелирует с временем на учебу (-0.25) • Существует высокая корреляция (0.65) между потреблением алкоголя в будни и выходные
Эта визуализация позволяет увидеть сложную картину взаимосвязей различных факторов, влияющих на образовательный процесс.
Распределение итоговых оценок по полу
Гистограмма распределения оценок показывает некоторые различия в успеваемости юношей и девушек. Хотя средние показатели близки, распределение оценок имеет свои особенности:
• У девушек наблюдается более высокий пик в районе оценок 9-11 • У юношей распределение более равномерное, с небольшим смещением в сторону высоких баллов (14-17) • В категории очень низких оценок (0-2) девушки представлены более заметно
Эти различия могут свидетельствовать о разных подходах к обучению и различной мотивации у студентов разного пола.
Влияние внеклассных активностей на успеваемость
Анализ данных показывает, что участие во внеклассных активностях положительно влияет на успеваемость: средняя оценка участвующих студентов составляет 10.5, что немного выше, чем у неучаствующих (10.3). При этом распределение студентов практически равномерное: 50,9% учащихся вовлечены во внеклассные активности, а 49,1% — нет. Этот график демонстрирует, что даже небольшое увеличение вовлеченности в дополнительные активности может положительно сказываться на успеваемости.
Влияние образования родителей на успеваемость студентов
Тепловая карта показывает, как различные комбинации уровней образования матери и отца влияют на средние оценки студентов. Наиболее высокие результаты (16.0) наблюдаются у студентов, чьи матери имеют начальное образование (уровень 1), а отцы — отсутствие формального образования (уровень 0). Второй по величине показатель (15.0) — у студентов, чьи матери не имеют формального образования, а отцы имеют базовое образование (уровень 2).
Интересно, что вопреки ожиданиям, не всегда высокий уровень образования обоих родителей приводит к наилучшим результатам. Это может указывать на влияние дополнительных факторов, таких как мотивация, родительский контроль или доступность образовательных ресурсов.
Выводы
Проведенный анализ позволяет сделать несколько важных выводов о факторах, влияющих на успеваемость студентов:
1. Время на учебу является значимым фактором, но существует определенный «порог эффективности» — около 5-10 часов в неделю, после которого дополнительные затраты времени дают минимальный эффект.
2. Потребление алкоголя негативно сказывается на успеваемости, причем этот эффект наблюдается даже при употреблении только в выходные дни.
3. Образование родителей влияет на успеваемость, но эта связь не линейна и может зависеть от других социально-экономических и культурных факторов.
4. Внеклассные активности имеют небольшой, но положительный эффект на успеваемость, что подтверждает важность всестороннего развития учащихся.
Полученные результаты могут быть использованы преподавателями, родителями и самими студентами для создания более эффективной образовательной среды и повышения успеваемости. Ключевой вывод заключается в том, что успеваемость — это комплексный показатель, зависящий от множества взаимосвязанных факторов, которые необходимо рассматривать в совокупности для достижения наилучших результатов.
Ссылка на блокнот и датасет: https://drive.google.com/drive/folders/1rogouNVSMoMt50Zllerqz2juxrvE73ib
Нейросети и использованные ресурсы
Источник датасета: https://github.com/guipsamora/pandas_exercises/blob/master/04_Apply/Students_Alcohol_Consumption/student-mat.csv (дата обращения: 23.03.2025)
ChatGPT — Оптимизация кода для улучшения визуализаций, исправление ошибок в программном коде, подбор оптимальных параметров для графиков, консультация по улучшению визуального представления данных
Recraft.ai — создание обложки