Семен Єсилевський: Что не так с 0.888? Объяснение на пальцах.

За последние пару дней скандал с «электронной переписью» и «константой Дубилета 0.888» оброс множеством интерпретаций и подробностей. Люди, которые далеки от науки и анализа данных, во всем этом запутались с самого начала, что в общем-то не удивительно. Давайте я очень кратко поясню в чем, собственно, зрада и почему объяснения Дубилета можно принимать только частично.

Перепись населения в Украине не проводилась очень давно, поэтому единственные более-менее объективные данные о населении, которые есть в природе, это электронные реестры разных ведомств. На основе этих реестров держстат регулярно формирует различную статистику как в целом по стране, так и по регионам. В частности, это возрастной и половой состав населения — количество мужчин и женщин разных возрастных групп.

Таким образом у нас есть первичные данные — электронные реестры ведомств, которые держстат, по определенной процедуре пересчитывает в это возрастное распределение. Если данные реестров обозначить как R, процедуру пересчета как F1, а возрастное распределение как h1 (1 — означает, что это делает именно держстат, 2 будет для Дубилета), то получается:

h1 = F1(R)

Поехали дальше. Приходит Дубилет, берет те же самые исходные данные реестров (других-то нет), добавляет к ним дополнительно данные мобильных операторов и еще что-то (на самом деле, не важно что) и разрабатывает какую-то свою процедуру статистического анализа всего этого добра. Таким образом на входе у него то самое R (данные реестров) плюс некое M (данные мобильных операторов и еще что-то там), методика рассчета у него другая — F2, а на выходе получается возрастное распределение h2. Имеем:

h2 = F2(R,M)

Т.е. у Дубилета на входе два набора данных и другой алгоритм. Зададимся вопросом — насколько могут при этом получиться похожи h1 и h2?

Предположим, что h1 и h2 получились абсолютно одинаковыми. Это означало бы, что функция F2 тупо игнорирует дополнительные данные M, а данные R обрабатывает точно так же как функция держстата F1.

Если бы h1 и h2 получились достаточно разными, то можно было бы сделать вывод о том, что данные М таки задействованы, а сама функция какая-то хитрая и не идентична той, что у держстата.

В реальности мы получили нечто среднее: h2 = 0.888*h1 с точностью до ошибок округления. Какие выводы можно сделать из этого? А такие, что функция обработки данных Дубилета F2 учитывает дополнительные данные мобильных операторов, но делает это наипримитивнейшим образом — просто умножает то, что было бы без этих данных, на 0.888. Т.е. в сухом остатке получается

F2 = 0.888*F1

Это то, что мы видим извне. Для нас все, что происходило в процессе обработки данных — это черный ящик. Мы не знаем как реально происходил анализ данных и какие реально были алгоритмы. Тем не менее, мы видим вход и выход. Какой бы сложной не была в реальности «функция Дубилета» в практическом смысле она тупо эквивалентна обработке, которую делает рутинно держстат, помноженной на 0.888.

Теперь вводы:

Данные, полученные, Дубилетом — это не фейк. Они не взяты с потолка. Некий расчет за ними, безусловно, стоит.
Распределение населения по полу и возрасту Дубилет либо не рассчитывал вообще (просто взяв данные держстата), либо рассчитывал по точно таким же алгоритмам, как это делает держстат.
Возможно, программный код там совсем другой, но если два разных кода дают на выходе тождественно то же самое, то какая, нахрен, разница? С практической точки зрения это один и тот же метод.
Роль дополнительных данных мобильных операторов в сухом остатке свелась к тому, что была оценена общая численность населения. Она не совпала с тем, что выходит у держстата. Я не знаю что у Дубилета с этой разницей делали, но все это оказалось эквивалентно умножению на 0.888. Там может в реальности быть 10 страниц сложного программного кода, но все, что это код делает, эквивалентно умножению на один коэффициент

В чем заключаются ошибки команды Дубилета?

Увидев полное совпадение распределений с точностью до множителя любой нормальный исследователь пришел бы к однозначному выводу: алгоритмы обработки никуда не годятся. И не важно насколько эти алгоритмы сложны и замороченны. Раз они в итоге оказались полностью эквивалентны давно существующим алгоритмам держстата, то они не дают никакой дополнительной полезной информации.
При уменьшении общего числа людей все возрастные группы сокращаются по разному. Это аксиома, для понимания которой не надо быть социологом. Абсолютно синхронное сокращение всех возрастных групп, полученное Дубилетом, это однозначно артефакт! По-простому — это глюк, неправильный и неправдоподобный результат, который противоречит природе исследуемых процессов. Выносить артефакт в пресс-релиз для широкой публики — это, как минимум, непрофессионализм и головотяпство.
Попытки Дубилета объяснить, что, дескать, так и должно быть, не выдерживают критики. Артефакт он и есть артефакт. Надо было либо признать, что новый метод оказался эквивалентен методам держстата при оценке возрастного состава и никакой дополнительной информации не дает, либо сказать, что метод вообще не сработал и поэтому данные держстата тупо отмасштабировали. Это было бы нормально. Но попытки протолкнуть дичь о том, что такое чудесное совпадение отражает реальное распределение населения — это очковтирательство и искажение фактов.
Реального распределения населения по полу и возрасту мы как не знали так и не знаем.
Общая численность населения, полученная Дубилетом, должна быть точнее той, что получается у держстата, но насколько точнее — сказать невозможно. Для этого надо видеть конкретные алгоритмы расчета по данным мобильных операторов, а их так никто и не показал и, судя по всему, не собирается (кстати, почему?).
Без проведения нормальной переписи населения все это так и будет оставаться гаданием на кофейной гуще.

Disclaimer: все сказанное в этой статье — личное оценочное суждение автора, сделанное на основе данных из публичных источников.

Если вы хотите увидеть материал на какую-то конкретную тему, то вы можете поучаствовать в его создании. Перечислите небольшую сумму (сколько не жалко) на карточку ПриватБанка 5168742223114541 и напишите мне в личные сообщения какая тема вас интересует. А можете просто таким образом сказать спасибо автору.

Проголосували

Семен Єсилевський

Что не так с 0.888? Объяснение на пальцах.

Теги

Коментарі

Інші пости автора