site.ua
член клубу
  • 3 місяці тому
  • Наука
  • 3 051
  • 35
  • 3
  • 10

На тему обманчивости статистики и того, с какой лёгкостью можно попасть впросак с цифрами (видеть паттерны и закономерности там, где их нет - привет теории больших чисел) или купиться на неверно посчитанные “факты”, написано немало книг и статей. Очень рекомендую “Как никогда не ошибаться: сила математического мышления” – книга ориентирована на широкую публику, а не отличников-математиков.

В последнее время, в связи с пандемией COVID-19, отовсюду на нас сыплются чьи-то анализы, статистические подсчёты и т.п. – как через официальные СМИ, так и от блоггеров и лидеров мнений. Данные – это прекрасно, однако их интерпретация и какие-либо последующие умозаключения являются делом тонким: уследить за всеми взаимосвязями не всегда просто, перепроверять расчёты (особенно при неявных формулах) удосужится не каждый. Вот и выходит, что сухая статистика, а в особенности её визуализация, превращаются в эффективный инструмент манипулирования читателем.

Ниже привожу перевод довольно детальной подборки о графиках и тактиках манипуляции с их помощью.


В нынешнюю эпоху политики постправды графики как никогда используются для искажения данных и подмены понятий. Особенно с учётом того, с какой скоростью расходятся подобные темы по социальным сетям.

Достаточно взять какую-нибудь диаграммку из более чем сомнительного источника, закинуть её списку фоловеров и вот она уже разлетается по всему свету как брехня по селу.

Для этого даже не нужно плохих данных – их всего лишь можно отобразить таким образом, чтобы они вводили в заблуждение. На википедии этой теме посвящена целая страница, на Reddit существует сообщество “Данные уродливы”, опубликованы сотни других статей о том, как дезинформируют читателей при помощи графиков.

И хотя я не могу остановить этих манипуляторов, я могу помочь вам подмечать подобные искажения. Ниже включены примеры правильного оформления данных. Также следование лучшим практикам по визуализации данных поможет вашим графикам всегда оставаться ясными и понятными.


1. Опустим точку отсчёта

Убирание с графика точки отсчёта или осей является одним из наиболее распространённых способов манипулирования. Эта тактика введения в заблуждение часто используется для того, чтобы показать, что одна группа лучше другой.

В мире визуализации данных этот приём зовётся “усечённый график”.

Усечение графика создаёт эффект огромной разницы для чего-то не особо значительного.

Взгляните на первый пример ниже и сравните позицию партий Демократов, Республиканцев и Независимых по некоему вопросу.

Заголовок: Процент согласных с решениями суда сточник)

Если вы бросите беглый взгляд на этот график, у вас может сложиться впечатление, что Демократы соглашаются в три раза больше, чем Республиканцы и Независимые. Но при более тщательном рассмотрении становится видно, что разница составляет лишь около 14% (Прим. пер.: здесь и далее у автора что-то пошло не так с расчётом процентной разницы :) Возможно, он оперировал какими-то более точными числами, но судя по приведённой картинке разница – 8%). График несомненно нарисован, чтобы подталкивать к неверному представлению о конкретной группе.

Если авторы по-настоящему хотелипоказать различия или просто объективно констатировать факты, они бы нарисовали более аккуратный график, как этот:

Ух-ты! Так куда лучше!

Другой пример использования верных данных, но вводящих в заблуждение графиков с целью одурачивания читателей приводит Fox News (которые могли вообще взять приз за множество своих обманчивых диаграмм и графиков

Заголовок: Если истечёт срок действия уменьшения налогов, введённого Бушем (источник)

Подзаголовок: Верхний уровень налога

На этой картинке пытаются проделать тот же фокус, что и на предыдущей: обмануть аудиторию. Ведь планка намного ближе, всего 11%-е повышение (упс, и снова та же беда: в отсутствие исходных данных не совсем понятно, почему автор говорит об 11%, хотя разница между колонками составляет 4.6% – прим. пер).

Однако это не удержало Fox от публикации графика, показывающего одну налоговую ставку почти вчетверо больше другой.

Да, ну и маленькие цифры, которые они использовали как на подписях к осям, так и в качестве подписей к графикам, практически подтверждают их намерение ввести аудиторию в заблуждение.

Вот как это должно было выглядеть (как видите, разница не столь драматична):

Авторы также загоняют сами себя в ловушку, когда стараются сделать слишком уникальный или креативный график.

Прежде всего они убирают точку отсчёта или оси. Вероятно авторы считают, что это отвлекает внимание от самих данных. Но на самом деле это затрудняет их чтение.

Как видно на следующем графике, точка отсчёта отсутствует вовсе! И теперь эта картинка создаёт впечатление, будто бы президент номинировал в два или три раза больше судей, чем его предшественники.

Если подправить график и добавить оси, открывается реальная картина. Да, Трамп определённо номинировал больше кандидатов, но не в таких безумных масштабах, как кажется в начальном варианте:

Важно помнить, что манипулирование осями наподобие этого не ограничивается одной политикой или горячими вопросами. Даже музыкальные журналисты иногда оказываются на тёмной стороне обманчивых или плохих графиков. Взгляните хотя бы на этот:

Заголовок: Лучший артист года (источник)

(Прим.: исполнитель на первой позиции обходит второго почти вдвое).

Дрейку на первой позиции наверняка было приятно видеть такую диаграмму, но в действительности она должна была быть такой:

Извини, Дрейк.


Вы можете видеть подобного рода искажения и в области технологий:


На совещаниях:

И даже в информации о питательности продукции:

Серьёзно, всякий раз когда люди используют визуализацию данных, чтобы подкрепить свои заявления, вы почти наверняка найдёте чьи-нибудь обманчивые диаграммы наподобие вышеприведённых.


2. Манипулирование осью Y

Ещё один распространённый фокус манипуляторов – это раздуть масштаб графика, чтобы минимизировать или максимизировать динамику изменений. В мире визуализации данных это по-простому зовётся “изменением оси”.

Манипулирование осью почти обратно усечению данных, т.к. при этом приёме вы видите и оси и точку отсчёта, однако они будут изменены настолько, что потеряют смысл.

Это мощный инструмент общественных медиа, который используется для проталкивания ложных убеждений.

Для примера взгляните на следующий график с данными о глобальном потеплении от National Review:

Заголовок: Среднегодовая глобальная температура по Фаренгейту

Они намеренно включают температуры от -10 до 110 градусов, чтобы создать кривую настолько плоской, на сколько это возможно. И всё ради того, чтобы продвинуть идею о том, что глобальное потепление – это что-то вроде фикции. К счастью нашлись люди, более ответственно относящиеся к обращению с данными, которые моментально указали на эту дезинформацию.

А другие добрые люди решили поправить эти диаграммы:

Самое печальное – то, что эти организации точно знают, что именно они делают.

А что ещё должно вас, как читателя, огорчить, так это то, что обе упомянутые организации имели доступ к тем же данным и инструментам. Но только одна из них решилась представить их во внушающем доверие виде.

Я тоже могу такое делать, например, для своей любимой футбольной команды Arkansas Razorbacks.

В следующем примере я взял их победы за последние 15 с лишним лет и расположил на линейном графике. Но потом я воспользовался тем же подходом и поманипулировал осью Y:

Пример плохого графика

Такими изменениями я создал видимость того, что Razorbacks выигрывали почти постоянно на протяжении последних нескольких лет.

Великолепно!

Но если вы следите за результатами игр, то наверняка знаете, что они почти не выигрывали, и график должен выглядеть так:

Хороший график

Этот уже не такой захватывающий…

И снова, тот же набор данных, показанный при помощи того же способа визуализации, однако диаграммы показывают совершенно разную картину.

Чтобы полностью поменять картину достаточно лишь одного небольшого изменения. Это должно заставить вас поёжиться.

Например, можно напугать вас плохим кредитным рейтингом и заставить нервничать:

Если использование 700 в качестве максимума не делает его для вас чересчур плохим, сделаем так:

Даже если взять максимальное значение 850, использованная диаграмма выглядит довольно заблуждающе:

И хотя данная уловка выглядит довольно простой на общем фоне, этот подход можно использовать для введения людей в заблуждение относительно их текущей ситуации. Или для впаривания им чего-нибудь.

Я хотел показать на вышеприведённом примере, что не все обманчивые диаграммы имеют вид кривых или гистограмм. Некоторые из них могут оказаться невинными круговыми диаграммами, попавшими в руки каких-нибудь “мутил”.

Как видите, тактика введения в заблуждение используется в политике, общественных медиа и бизнесе, чтобы продавить какую-то идею или повестку.


3. Избирательный подход к данным

Другой способ исказить данные – включить лишь определённые наборы данных в диаграмму. Обычно это участок данных, который выставит вашу точку зрения в позитивном свете, а позицию ваших оппонентов – в негативном.

Примером может служить показ данных только за тот месяц, в котором был скачок продаж, без учёта остальной части года.

Или публикация только тех результатов опроса, которые покажут всеобщую поддержку определённого кандидата. Однако при более пристальном взгляде на эту диаграмму мы увидим, что она показывает только его однопартийцев:

Заголовок: Одобрение работы президента Трампа (источник)

Подпись маленьким шрифтом “среди республиканцев”

И эта партия уменьшается с каждым днём. Перед нами определённо искажённая картина, особенно когда остальная её часть выглядит так:

Заголовок: Уровень одобрения / неодобрения Трампа по партиям (источник)
Все зарегистрированные голоса

Тот, кто мельком увидит первую диаграмму, решит, что президент Трамп купается во всеобщей любви. Хотя всего 35% населения страны одобряет его управление.

Чисто технически, данные правильные, однако искажающие картину. Это часто называется “неверное извлечение”, когда для отображения выбирается лишь определённый фрагмент.

Особенно это распространено на диаграммах, где на одной из осей отображается время. Ведь легче всего начать с того года, который сможет подтвердить ваши слова.

Также это можно назвать тактикой опущенных данных. Когда, как вы уже догадались, часть данных попросту остаётся за кадром.

Вам следует остерегаться обоих этих приёмов.

Начнём с примера неверного извлечения, т.к. думаю вам не стоит демонстрировать как выглядят опущенные данные. В данном случае я замучался искать реальные примеры, т.к. кто же в здравом уме сознается, что опустил часть информации? Немногие, правда?

Однако я наткнулся на отличный пример преподавателя экономики Тежвана Петтингера, показывающего как некоторые люди избирательно собирают данные, чтобы подкрепить ими своё обманчивое заявление.

Глядя на первую кривую, читатель бесспорно будет введён в заблуждение, будто бы национальный долг Великобритании ещё никогда не был так высок! Этот график можно использовать для того, чтобы склонить голоса политиков в сторону закона об уменьшении уровня долга.

Заголовок: Национальный долг Великобритании в % от ВВП

Но если вы взглянете на последовательность за полный период, вы увидите, что национальный долг вообще-то довольно низок по сравнению с предыдущими его уровнями.

Здесь предполагаемый автор решил начать отсчёт сразу из низкой точки и ложно изобразить, будто бы он поднимается от нуля до этих значений. Он также забил диаграмму кучей случайных точек, чтобы создать впечатление намного большего набора данных, в то время как они покрывают лишь 10 лет!

Если хотите увидеть другие примеры неверного извлечения, обратите внимание на рынок ценных бумаг.

Биржевые аналитики смотрят на тысячи фрагментов данных, прежде чем совершить сделку или порекомендовать другим приобрести что-нибудь. Так что есть множество вещей, которые они могут опустить, чтобы выставить акции определённой компании в лучшем или в худшем свете.

Но чем легче всего ввести в заблуждение читателей на мой взгляд, так это ценой на акции. Для примера взгляните на следующий график, показывающий, как Твиттер оказался на взлёте.


Как случайный свидетель, имея в своём распоряжении только этот график, я бы решил, что компания в последнее время делала что-то определённо очень правильное.

Но это было бы заблуждением.

Источник – данные Google.

Акции находятся на беспрецедентном спаде весь последний год или около того, и этот подъём – лишь маленький бугорок на долгосрочном графике.

Если бы я был нечестным трейдером, то попытался бы втюхать тонну акций Твиттера, просто используя тот график.

Подобный тип дезинформации можно использовать для манипуляций с практически любым фрагментом данных, которые вы хотите подогнать под свои цели.

Как в следующем примере, который пытается доказать, что изменения климата – фикция:

Заголовок: Площадь арктического льда с 1989 по 2009 гг по месяцам (источник)

Обведённый фрагмент был выбран Хартлэндским Институтом (Heartland Institute), чтобы раздуть полемику, будто бы в 2009-м было больше льда (красная линия), чем в 1989-м (синяя линия).

Во многом потому, что люди не любят смотреть на сырые исходные данные, они считают графики эталоном честности.

Ну типа с чего бы кому-то в интернете обманывать, да?


4. Использование не того графика

До сих пор я говорил о тактиках намеренной дезинформации, которые использовались различными авторами для навязывания их точки зрения.

Теперь, полагаю, стоит взглянуть на типы дезинформации, которые могут возникнуть в результате абсолютной некомпетентности.

Обычно это происходит когда берётся тип графика или диаграмма, не соответствующие данным, которые вы пытаетесь изобразить. И чаще всего виновата во всём неверно истрактованная круговая диаграмма. Это конечно не её вина, что она так часто вводит в заблуждение, а людей, которые считают, что её можно использовать для любого типа данных.

Для примера взглянем на график отбора NHL:

Не совсем понятно, чего они пытались добиться этой диаграммой, но у многомиллиардной компании наверняка должен быть какой-то толковый специалист по графикам.

Во-первых, в каком это мире 64 кандидата составляют половину от 69-ти? А во-вторых, чего они не использовали гистограмму для этих данных?

Если бы вы пролистывали ленту в Твиттере и увидели такую вот диаграммку, вы бы логично предположили, что USC выбили всех остальных.

Если NHL хотели продемонстрировать более точный график, они бы создали столбиковую гистограмму наподобие этой:

Заголовок: Большинство игроков, выбранных в первом раунде

Она, конечно, не такая блестящая, как первая, но, по меньшей мере, точная.

Вот ещё один сомнительный график из мира университетского футбола. На этот раз авторы попытались изобразить прогноз по общим победам (источник):

Авторы расположили каждую команду правильным образом, от большего количества к меньшему, однако добавление столбиковой диаграммы озадачило многих.

Перевод: Этот график демонстрирует полное неуважение к концепции гистограмм. Кто сотворил это? Как тебе спится по ночам?

Если название вашего учебного заведения было длиннее, то согласно графику, оно бы выигрывало больше других. Беглый взгляд на реакцию соцсетей подтвердил бы это умозаключение.

Так намного лучше, хотя по-прежнему больно видеть мой родной Арканзас на дне обеих картинок.

Ещё один способ, каким бренды нечаянно вводят в заблуждение, – это когда они стараются быть чересчур “инновационными” со своими графиками и диаграммами.

В нашем следующем примере используется круговая диаграмма-пицца (источник), и я не понимаю, зачем.

Ведь на деле это должна была быть временная шкала или даже простая таблица:

Да и что они вообще пытались показать этой жуткой диаграммой? На ней даже нету внятных подписей, чтобы помочь читателю разобраться в происходящем. Возможно она круто выглядит, но функциональность должна быть на первом месте.

Следующий пример от Майкрософт, в попытках выглядеть концептуально они создали обманчивую визуализацию данных:

Заголовок: Сравнение браузера Microsoft Edge с его конкурентами (источник)

Даже если Эдж и быстрее Хрома или Файерфокс, то ненамного. Не в четверть быстрее Хрома или в половину, чем Файерфокс, как утверждает картинка.

Им следовало бы использовать колонки, если они хотели быть точными с данными:


Ну или если им хотелось использовать что-то менее занудное, можно было бы взять пузырьковую диаграмму, вроде такой:

Раз уж я так раскритиковал круговую диаграмму в примерах выше, приведу такой, где ей самое место.

Ниже онлайн медиа Intercept (название можно перевести как “Перехвачено” или “Подслушано”, – прим. пер.) пыталось изобразить, как новости, связанные с Россией, заполонили эфир:

На графике соотношение эфирного времени, посвящённого Российским вопросам и другим темам (источник)

У них как-то не очень вышло, в основном из-за того, что выбранные подписи не особо внятные.

И до тех пор, пока вы сами не подсчитаете, приходится гадать, каково же разделение на самом деле.

Если бы я занимался визуализацией, то сразу бы вооружился круговой диаграммой:

Она не только передаёт ту же информацию, но и позволяет любому быстро заметить разницу.

Целью всякой визуализации должна быть помощь читателю быстро интерпретировать данные.


5. Отступая от канонов

Мне показалось хорошей идеей завершить наш список обманных тактик диаграммами, которые подменяют сложившиеся устои и ассоциации.

Если вам пока не очень понятно, о чём это я, представьте себе картинку, где красным были бы изображены Демократы, а голубым – Республиканцы. Вот был бы скандал!

Ну или пример попроще – зелёным показаны потери, а красным – прибыль.

Это смотрелось бы дико для опытного составителя графиков, но стало бы отличным инструментом манипулирования аудиторией.

На карте ниже, демонстрирующей уровень распространения венерических заболеваний по стране, авторы выбрали тёмный цвет для отображения низких уровней и светлый – для высоких:

Заголовок: В каких штатах больший уровень ЗППП (источник)

Подобное использование цветов идёт вразрез практически со всеми визуализациями данных на карте, которые я когда-либо видел. Поэтому, на мой взгляд, диаграмма была нарочно создана так, чтобы обмануть читателя.

Ну а чтобы совсем заморочить голову, авторы решили, что чем выше число, тем ниже уровень заболеваний. Карта настолько запутанная, что глядя на неё кто-нибудь может справедливо решить, будто Айдахо – это рассадник ЗППП, хотя на самом деле ими являются южные штаты.

Вот как эта карта должна была бы выглядеть (доступа к исходным данным у меня не было, посему я нашёл нечто похожее):

Диаграмма 1: Процент изменения населения для 50 штатов, района Коламбия и Пуэрто-Рико с 1990 по 2000 гг

Тёмные цвета используются для отображения более высоких значений, а светлые – для низких.

А вот пример карты, где используется какая-то немыслимая цветовая палитра:

Заголовок: Какие из возрастных групп демонстрировали рост уровня бедности с 2006 по 2016 гг

Вы вообще можете проследить за их мыслью? Я – нет.

Как я указывал выше, этим “картографам” стоило использовать единую цветовую палитру с оттенками и тонами. Такого рода карты практически каждый умеет расшифровывать.

Далее, вот у нас есть диаграмма, где автор совершенно очевидно пытался впихнуть ложную идею в голову аудитории. По правде говоря, это один из наиболее вопиющих примеров графической манипуляции из тех, что я видел, судя по наглости их намерений.

Авторы перевернули график вверх ногами. Это создало иллюзию того, что число смертей от огнестрельного оружия пошло вниз, хотя по факту оно взлетело, сразу после принятия закона о самозащите:

Заголовок: Смерть от огнестрельного оружия во Флориде:

Отмеченная точка - дата принятия закона.


Видите о чём я? Это было явно сделано с целью навязывания мнения.

Простой поворот или зеркальное отражение диаграммы покажет, на что она должна была быть похожа:

Вот так. Как новая… ну почти.

И последний пример от моих любимых манипуляторов – Fox News.

Попробуйте-ка догадаться, как эта диаграмма попала в мой список?

Заголовок: Поквартальный уровень безработицы(источник)

Ну что, заметили? Если нет – не страшно, многие их зрители тоже. На то и было рассчитано.

Если посмотрите на ось Х, вы увидите, что они поместили туда набор случайных временных значений. Не то, чтобы они выбрали месяца или кварталы наугад, они специально выбрали кварталы, которые вписывались в их повествование. Это также может служить примером опускания части данных.

Худшее в этом примере не то, что перед нами плохой график, а то, что они рассчитывали одурачить своих лояльных зрителей. Если компания настолько низкого мнения о ваших умственных способностях, что всовывает вам подобные графики, я бы рекомендовал поискать другой источник информации.

Примечание переводчика: обратите также внимание на пропорции на оси Y: как далеко 7 миллионов отстоят от 15-ти. Если соблюсти пропорции, картина будет не такой драматичной.

В заключение

Вы предполагали, что столь многие компании так небрежно и халатно распоряжаются графиками? Я нет.

Для любой новости я рекомендую вначале проверить, откуда происходит показанный там график, а потом взглянуть на данные.

Как я говорил в предисловии, на уме у большинства людей, распространяющих обманчивые диаграммы, вовсе не ваши интересы.

К примеру, если график, показывающий преимущества кокосового масла, распространяется компанией, которая, ну как бы случайно, продаёт кокосовое масло, он может передавать искажённую картину. Стоит проверить другие источники, прежде чем заказывать себе упаковку.

Ещё один красный флажок – если определённую картинку шарит всего один человек или одна группа.

Будьте бдительны и всегда проверяйте свои источники. Оставайтесь скептически настроенными и если уличите автора во лжи – тыкайте его носом!


Изображение-превью: Alex Yomare
Фото к статье: Septimiu Balica

dmitry.vaskovskyi
Dmitry Vaskovskyi

Коментарі доступні тільки зареєстрованим користувачам

вхід / реєстрація

Рекомендації