Семен Єсилевський: Как правильно считать среднюю зарплату по больнице

Я часто сталкиваюсь с таким странным заблуждением, что усреднять можно все, что имеет одинаковую размерность. Откуда берется это убеждение не очень понятно, но видимо все от того же — от полной профанации школьного математического образования. Так или иначе, а сравнивать средние величины можно только тогда, когда:

Сами средние имеют смысл
Статистические распределения в усредняемых выборках сопоставимы

Возьмем простой пример. Есть две больницы. В каждой работает 20 санитарок, 10 врачей, и главврач с такими зарплатами (в тысячах грн., числа условны):

Должность	Кол-во	Больница №1	Больница №2
Главврач	1	100	10
Врач	10	2	6
Медсестра	20	1	3.5
Средняя з/п:		(100+102+201)/31=4.51	(10+106+203.5)/31=4.51

Средняя зарплата в обеих больницах ~4,5 тыс. но фактически в первой больнице врачи и сестры нищие, а главный в шоколоде, а во второй все более-менее ровно, с плавной справедливой прогрессией в зависимости от квалификации.

Ошибка этого расчета в том, что не смотря на то, что все зарплаты измеряются в гривнах, нельзя тупо усреднять зарплаты работников разной квалификации. Т.е. усреднять, конечно, можно, но это не даст вам ровным счетом никакой объективной информации.

Давайте задумаемся, что мы вообще хотим получить анализом зарплат в нескольких разных больницах? Очевидно, мы хотим понять:

Где получают больше на одинаковой должности;
Где распределение оплаты по должностям справедливее;
Где главврач зажрался, а где нет.

Ясно, что на эти вопросы в принципе нельзя ответить одним единственным числом. Значение имеет вся шкала зарплат по должностям и сравнивать надо одну шкалу в целом с другой аналогичной шкалой. Т.е. сравнивать надо векторные величины. На этом месте у большинства людей возникает "fatal error" поскольку сравнивать векторы ни в школе ни в университете по-хорошему не учат.

На самом деле ничего особо сложного для понимания в этом нет. Надо просто вспомнить, что трехкомпонентный вектор можно представить как точку в обычном трехмерном пространстве, а N-компонентный — как точку в N-мерном. Мерять надо расстояние между этими точками и густоту их расположения. Все эти забавные вещи делает кластерный анализ (гугл в помощь).

Например, в случае с больницами кластерный анализ большого их колическтва может показать, что представляющие их точки разделяются на несколько обособленных кластеров (фантазирую для примера):

Тип «несправедливая богадельня» — смешные зарплаты персонала и зажравшийся главврач
Тип «справедливая богадельня» — смешные зарплаты у всех
Тип «частная клиника» — хорошие зарплаты у всех, главврач не в обиде но не пижонит
Тип «хамская частная клиника» — главврач офигел, но остальных обижает не так как в богадельне, и т.п.

Вообще кластерный анализ — основа основ для сравнения сложных многокомпонентных систем и явлений, но в школе его вообще не вспоминают, а в университетах если и проходят, то как-то мимо. В итоге все естественники учат его самостоятельно, а гуманитарии вообще понятия о нем не имеют и продолжают радостно усреднять все, что измеряется в одинаковых единицах.

Как все сказанное относится к официальной статистике зарплат в Украине додумайте сами.