Original size 1240x1750

Анализ данных ОГЭ

PROTECT STATUS: not protected
The project is taking part in the competition

Описание

Для своего проекта я анализировала данные, связанные с результатами ОГЭ. Источником информации послужили материалы с сайта inf-oge.sdamgia.ru, а именно демонстрационная версия ОГЭ, тип задания 14 (№ 10566). Точного датасета в открытом виде не было, поэтому данные были сформированы на основе представленной информации.

ОГЭ является обязательной частью школьной жизни каждого ученика. Поскольку многие из моего окружения, а также я сама, проходили через эти экзамены, мне стало интересно проанализировать результаты и посмотреть, как они распределяются по округам.

Данные были представлены в табличном формате и обработаны с помощью языка программирования Python и библиотеки Pandas, что позволило удобно структурировать информацию и провести анализ.

В ходе проекта я использовала несколько видов визуализации данных, которые помогли сравнить средние баллы по округам, показать долю округов в общей структуре данных, позволил проанализировать разброс и вариативность значений и наглядно отразить распределение средних баллов.

Использованные статистические методы

1. df.describe ()

Назначение: Выводит основные описательные статистики для числовых столбцов

Что показывает: count (количество), mean (среднее), std (стандартное отклонение), min, 25%, 50%, 75%, max

Применение: Анализ распределения баллов учеников

2. df.groupby ()

Назначение: Группировка данных по указанным столбцам

Применение: df.groupby ('округ')['балл'].mean () — средний балл по округам df.groupby ('предмет')['балл'].median () — медиана баллов по предметам

3. df.value_counts ()

Назначение: Подсчет частоты уникальных значений в столбце

Применение: df['предмет'].value_counts () — количество учеников по каждому предмету df['округ'].value_counts () — распределение учеников по округам

4. Агрегирующие функции:

df.mean () — среднее арифметическое df.median () — медиана (среднее значение) df.std () — стандартное отклонение df.min () / df.max () — минимальное/максимальное значение df.count () — количество непустых значений

5. df.nunique ()

Назначение: Подсчет количества уникальных значений

Применение: Определение разнообразия данных (сколько уникальных округов, предметов)

6. Методы сортировки:

df.sort_values () — сортировка по значениям столбца nlargest () / nsmallest () — получение n наибольших/наименьших значений

Состав визуализации данных

Визуализация включает 4 графика:

Боксплот (boxplot) — показывает распределение баллов по предметам, включая медиану, квартили и выбросы

Столбчатая диаграмма (bar chart) — отображает средний балл по округам

Круговая диаграмма (pie chart) — показывает распределение учеников по предметам

Горизонтальная гистограмма (horizontal bar chart) — представляет топ-10 округов по среднему баллу

Программа выполняет полный анализ данных: от базовой загрузки и очистки до статистического анализа и визуализации результатов.

Визуализация данных

График 1: Распределение баллов по предметам

Original size 1683x1029

Боксплот

Original size 1760x216

Код для графика 1

На боксплоте показано распределение баллов ОГЭ по различным предметам. Видно, что самые высокие значения наблюдаются по информатике и обществознанию, что говорит о более высоких результатах учащихся по этим предметам. Наименьшая медиана у биологии и физкультуры, что может указывать на более низкий средний уровень выполнения работ. Также по всем предметам заметен широкий разброс баллов, что говорит о значительной разнице в результатах учеников.

График 2: Средний балл по округам

Original size 1655x875

Столбчатая диаграмма

Original size 1760x238

Код для графика 2

Столбчатая диаграмма показывает средний балл ОГЭ по административным округам Москвы. Видно, что средние результаты различаются незначительно, однако наиболее высокие значения наблюдаются в Северном и Северо-Восточном округах, а более низкие — в Восточном округе. Такая диаграмма позволяет сравнить уровень успеваемости учащихся между округами и выявить общие различия в результатах экзаменов.

График 3: Распределение учеников по предметам

Original size 1312x738

Круговая диаграмма

Original size 1760x188

Код для графика 3

Круговая диаграмма показывает распределение учеников по выбранным предметам ОГЭ. Наибольшая доля учащихся сдает обществознание, физику и физкультуру, каждая из которых составляет около четверти от общего числа. Наименьшее количество учеников выбрало информатику, что говорит о ее меньшей популярности по сравнению с другими предметами.

График 4: Топ-10 округов по среднему баллу

Original size 1664x862

Горизонтальная гистограмма

Original size 1760x286

Код для графика 4

Данная гистограмма показывает, что средний балл ОГЭ в топ-10 округах находится в близком диапазоне, что говорит о примерно одинаковом уровне подготовки учащихся. Наивысший средний балл отмечен в Северо-Западном округе, а наименьший — в Восточном, однако разрыв между ними незначителен. В целом результаты экзаменов по округам можно считать стабильными.

Выводы

В ходе анализа данных были сделаны следующие выводы:

Первый график распределения баллов показал разброс оценок по предметам, что позволяет увидеть, по каким дисциплинам результаты более стабильны, а по каким наблюдаются большие различия.

Второй график среднего балла по округам выявил округа-лидеры и округа-аутсайдеры, а также показал, что разница между ними не является критической.

Третья круговая диаграмма отразила популярность предметов среди учащихся и наглядно показала, какие предметы выбираются чаще всего.

Четвертая горизонтальная гистограмма выделила округа с наивысшими показателями среднего балла, что позволило определить лучшие округа по результатам ОГЭ.

В целом использование различных типов графиков помогло наглядно проанализировать данные и сделать обоснованные выводы о результатах экзамена.