Семен Єсилевський: Садись, сорок два!

Урок русского языка в грузинской школе:
— Вано, проспрягай глагол КУРИЦ в прощедшем времени!
— Я — цыпленок, ты — цыпленок, он, она, они — цыпленок.
— Садысь 4!
— А почему 4?
— За акцент!
(из анекдота)

Однажды ко мне в личку постучался человек и спросил: «Семен, а вы можете объяснить как ученый, почему в школе именно 12-и бальная система оценок? Почему 12, а не 10 и не 15?»

Очень хороший вопрос, надо сказать, поскольу поднимает сразу две проблемы.

Первая проблема — политическая. Была черт-знает сколько лет пятибальная система. Нормально себе работала, особых проблем с ней не возникало. Потом академия педнаук, смысл существования которой — имитация бурной деятельности для прокорма плагиаторов из госбюджета, поменяла ее на 12-и бальную. Вопрос «зачем» тут вообще не стоит т.к. практически все, что делает НАПНУ — никому не нужная имитация по определению.

Вторая проблема — научная. Когда у вас есть некая величина (в нашем уровень знаний учеников) и вы хотите описать ее категориально (несколькими дискретными уровнями оценок), то вам нужно как-то рационально определить, сколько же уровней вам необходимо. Является ли число 12 оптимальным? Возможно, для правильного оценивания учеников нужно 42 уровня (что попутно ответило бы на главный вопрос Жизни, Вселенной и Всего Такого)?

Когда ученый сталкивается с необходимостью категориальной оценки, он пытается сначала ответить на такие вопросы:

Является ли величина изначально дискретной или непрерывной? Если она дискретна и число вариантов невелико (порядка 10), то они и будут вашими категориями by design. Если величина непрерывна или число дискретных вариантов слишком большое, то см. пункт 2.
Каково статистическое распределение вашей величины? В зависимости от его вида можно выбрать определенную схему его «нарезания» на дискретные категории. Например, нормальное распределение можно нарезать по сигме: в пределах 1 сигмы, в предела 2 сигм и т.д.
Каковы цели и критерии нарезки на категории? Хотим ли мы отсеять худшие 50%? Поощрить 10% лучших? Вместе с видом распределения это позволяет лучше определить границы категорий.
Насколько точно мы вообще можем измерить нашу величину? «Ширина» категории должна быть как минимум на порядок больше погрешности измерения, иначе ошибочное отнесение к конкретной категории будет происходить слишком часто.

Теперь вернемся к школьной успеваемости:

Величина эта явно дискретная т.к. в программе есть, грубо говоря, ограниченное число параграфов для заучивания и задачек для решения. В то же время, число таких дискретных вариантов слишком велико — порядка сотен или тысяч для каждого предмета.
Статистическое распределение — неизвестно, но оно ограничено снизу нулем, а сверху максимумом.
Теперь цели оценки. Нам надо понять насколько успешно ребенок усвоил материал. Понятно, что излишне большой точности тут не нужно — это не расчет орбиты спутника и не отбор в космонавты.
И наконец точность измерения — она удручающе небольшая. У нас есть фиксированное число «точек контроля» (контрольных, проверочных, опросов) в каждой из которых ребенок может заболеть, быть в плохом настроении или не выспаться. Оценки ставит учитель, который субъективен и часто предвзят.

Еще еще один очень важный момент: школьные оценки успеваемости не являются «ранжирующими» — нет никакого «рейтинга» учеников, никакого конкурса оценок по которому детей куда-то отбирают или жестко отсеивают. Сейчас, кажется, даже на второй год не оставляют если двоечник. Поэтому тонкие градации просто никому нафиг не нужны — достаточно очень грубой чисто качественной оценки «знает/не знает». Существует отдельный ранжирующий тест — ЗНО. Вот там континуальные 200 баллов и доли балла имеют значение, но речь не о нем.

Минимально подумав, становится понятно, что особой прецизионности ждать от оценивания успеваемости не стоит и для большого количества категорий оценок просто неоткуда набрать данные. Субъективное оценивание знаний физически не может давать такой большой точности, чтобы наскрести больше 3-4 категорий. Вариантов тут, в общем-то, четыре: «вообще ничего не знает», «знает недостаточно», «что-то знает, что-то нет» и «знает все».

Де-факто так и получается. Даже в пятибальной советской системе «единица» в журналах не использовалась практически никогда, а «двойка» ставилась карандашом и очень редко. Система была по-сути «3.5 бальная» — от «хрен с тобой, три» до «отлично». В современной «типа как 12-бальной» системе оценки ниже 6, насколько я понимаю, никогда не ставятся, а все, что выше 6 все равно де-факто разбито на интервалы «удовлетворительно», «хорошо» и «отлично». Когда учитель ставит одному ученику 11, а другому 12, то чаще всего это не реальная разница в знаниях, а какие-то малозначимые вторичные факторы вроде «отвечал не запинаясь» или, как в эпиграфе, «за акцент».

Собственно, вот и ответ: 12-бальная система ничего особо «умного» под собой не несет. Число 12 выбрано, по большому счету, от фонаря в ходе имитации бурной деятельности в НАПНУ. Объективно хватает 3-4 градаций оценок.

Семен Єсилевський

Садись, сорок два!

Теги