Про що тут йдеться мова — читайте в попередньому дописі. Там же є посилання на наукові праці, які являються основою даного аналізу.
В цьому ж дописі я спробую у спрощеному вигляді описати методи аналізу результатів виборів. На жаль, зовсім просто не виходить... Без дискретної математики, математичного аналізу та теорії ймовірностей це зрозуміти неможливо.
Припустімо, що впродовж голосування явка виборців склала 70%. Це означає, що частіш за все на окремих виборчих дільницях явка була близькою до 70%. Трохи рідше зустрічалися дільниці з явкою близькою до 69% або 71%. Ще трохи рідше — 68% та 72%. Тощо. В теорії (дивіться центральну граничну теорему) розподілення явки на окремих виборчих дільницях збігається до нормального розподілу.
Щоб перевірити, чи збігається теорія з практикою, побудуємо, наприклад, гістограму явки виборців для виборів до Бундестагу 2017-го року.
Помаранчевим кольором позначені реальні дані, які достатньо близькі до теоретичних. Хоча, звичайно, розбіжності є (це реальне життя, що поробиш).
А тепер уявімо, що якийсь кандидат зухвало вкидає бюлетені на свою користь. Або влаштовує «каруселі». Або ще якимось чином організовує собі додаткові голоси. Що відбудеться з явкою і як це відобразиться на гістограмі? На тих дільницях, де відбуваються маніпуляції, явка буде штучно завищена і ці дільниці перемістяться вправо. Гістограма втратить симетричність і справа з'являться піки (локальні максимуми) або навіть своєрідний довжелезний «хвіст». За прикладом давайте сходимо до нашого східного сусіда. Це гістограма явки на дільницях впродовж виборів президента Росії 2018 року.
Зверніть увагу на те, що графік після досягнення максимуму не падає симетрично до свого зростання (як це ми бачили на прикладі Германії), а після певного падіння починає коливатись і навіть наприкінці зростає. Це являється ознакою можливих маніпуляцій.
Тут же ми можемо побачити ще одну ознаку. Зверніть увагу на локальні максимуми (піки) графіка, які я позначив червоними стрілками. Вони сталися на «круглих» числах — 70%, 75%, 80%, 85%, 90%, 95%. Це неприродно. Природному виборчому процесу абсолютно все рівно, чи буде явка на дільниці 75%, чи 76%, чи 77%... А ось люди часто обирають числа, які закінчуються на 0 та 5 через те, що людському розуму легше з такими числами працювати.
Наскільки ці локальні максимуми являються природними, можна перевірити за допомогою ресемплінгу. Не буду вдаватись в деталі того, як це робиться — це описано в підручниках. Наведу лише результат.
Якщо жодних втручань в процес виборів не було, то p-value має бути рівномірно розподілене на цьому графіці. Але, як можемо бачити, p-value результатів Путіна для явки 65%, 70%, 80%, 85% та 90% виглядають більш впорядковано і наближаються до нуля. Більш того, p-value для 65%, 80%, 85% виходить за 95% довірчий інтервал (позначені жовтими квадратами).
Просто кажучи, це означає, що кількість дільниць з явкою 65%, 70%, 80%, 85% та 90% була штучно завищена і результати Путіна на цих дільницях являються аномально високими. Вірогідність виникнення таких результатів природним шляхом є надзвичайно низькою (це, грубо кажучи, десятитисячні долі відсотка).
Тут треба зауважити, що всі ті ж ознаки, перераховані стосовно явки виборців, можна застосовувати і для відсотка голосів за певного кандидата (що ми в подальшому і побачимо).
Ну і якщо ми вже завели мову про «круглі» числа, до використання яких люди дуже схильні, то поговоримо й про інші недоліки людського мислення.
Випишемо кількість виборців, зареєстрованих на виборчих дільницях та порахуємо скільки чисел закінчується цифрою "1", скільки — цифрою "2", тощо. Теоретично, на "1" має закінчуватись 10% чисел, на "2" — теж 10%, і взагалі — всі цифри рівнозначні в цьому контексті й на кожну має припадати 10%. В реальності рівно по 10% ніколи не буває, але значення коливаються десь поблизу 10%-их відміток.
Якщо говорити про дві останні цифри, то вони мають збігатися у 10% випадків, передостання цифра має бути більшою за останню у 45% випадків і у 45% — навпаки.
Якщо спостерігаються сильні відхилення від описаного розподілу (які ми будемо характеризувати за допомогою p-value), то це може означати, що у виборчий процес були втручання.
Для порівняння знову візьмемо Германію (розподіл останньої та двох останніх цифр у кількості електорату в округах Баварії).
Суцільна горизонтальна лінія на графіку — це очікуване значення. Пунктирна лінія — межа 95% довірчого інтервалу. Як бачимо, значення коливаються, але не виходять за межі довірчого інтервалу. Загалом p-value для розподілу останньої цифри дорівнює 96% (абсолютно типовий розподіл). А останніх двох — 21% (більш рідкий розподіл, але в рамках довірчого інтервалу).
І візьмемо кількість голосів за Путіна на дільницях в республіці Дагестан.
Кількість дільниць, на яких виявилось «кругле» (остання цифра яких — нуль) число голосів за Путіна, не лише вийшла за 95% довірчий інтервал, а навіть вилетіла з 98% довірчого інтервалу (позначеного напівпрозорим пунктиром). Окрім того спостерігається і завищена кількість дільниць, де передостання цифра є більшою за останню. Відповідно, p-value розподілу останньої та двох останніх цифр — 2.8% та 3.6%.
З мови математики те, що відбулося у Дагестані, можна перекласти модним нині словом «зашквар».
І останній метод аналізу. Як кажуть англійці: the last but not the least. Я вже казав, що як явка, так і результат кандидата, згідно з центральною граничною теоремою збігаються до нормального розподілу. Більш того — явка на дільниці й результат кандидата на цій дільниці є двома незалежними випадковими величинами. Що відбувається, коли певний кандидат вкидає бюлетені на дільниці? На дільниці зростає його результат... і зростає явка! Таким чином між цими двома величинами виникає залежність, яку можна не лише виявити, а й оцінити кількісно.
Щоб було зрозуміліше, про що йдеться, залежність між явкою та результатом можна візуалізувати. Побудуємо графік, вісь X якого відповідає явці на дільницях, вісь Y — результату кандидата. Кожна крапка (мітка) відображає одну виборчу дільницю з певною явкою і певним результатом голосування. Оскільки явка та результат — незалежні нормально розподілені величини, то сукупність дільниць на такому графіку повинні вписуватись у овал, що може бути витягнутий вздовж осі X або Y — але ні в якому разі не по діагоналі.
Якщо на якійсь дільниці відбуваються маніпуляції на користь кандидата, то на ній збільшується як явка, так і результат. І дільниця на графіку зміщується вправо-вгору від своєї нормальної позиції. Таким чином овал розмивається і стає схожим на комету, хвіст якої направлений вправо-вгору.
На картинці зліва — Соціал-демократична партія Німеччини на виборах до Бундестагу 2017-го року. Порівняйте лівий графік з графіком по центру. Це результати Путіна в Курській області на виборах 2018. Маніпуляції видно навіть неозброєним оком (зверніть увагу на витягнутий вправо-вгору «хвіст»), хоча результати підрахунків кажуть, що вони були не надто великими. В Курській області було вкинуто приблизно 20000 бюлетенів, що дозволило Путіну покращити свій результат на один відсоток.
Графік справа — це ті самі вибори в Росії, але в Улянівській області. Тут маніпуляції ще більш очевидні. 60000 додаткових бюлетенів та ще й коло 15000 бюлетенів переписаних на користь Путіна за рахунок інших кандидатів. Що дозволило збільшити результат Путіна приблизно на 6%.
Загалом на президентських виборах 2018-го року в Росії на користь Путіна було вкинуто приблизно 9.7 мільйонів бюлетенів. Відповідно, результат Путіна в дійсності був не 77%, а 67%.
Що, до речі, майже збігається з оцінкою Шпількіна (10 мільйонів). Якщо два абсолютно різних методи показують схожі результати, то думаю, ми на вірному шляху.
Чи відбуваються такі маніпуляції в
Україні? Чи наздогнав Янукович Путіна
за рівнем фальсифікацій? Дізнаємось
про це в наступних серіях серіалу
«Україна. Історія фальсифікацій.»
А ось і наступна серія: Україна. Історія фальсифікацій. Парламентські вибори 2002.