Как лгать с помощью статистики. Выбирайте результаты, которые подтверждают ваши идеи

", в котором детям дают советы, а дети, как известно, всё делают наоборот и получается всё как раз правильно. Может быть и со всем остальным так получится?

Статистика, инфографика, big data, анализ данных и data science - этим сейчас кто только не занят. Все знают как правильно всем этим заниматься, осталось только кому-то написать как НЕ нужно этого делать. В данной статье мы именно этим и займемся.

Народное творчество о данном феномене:

По данным интернет-голосования 100% людей пользуются интернетом.

Зарплата выпускников

Никого не удивляло, что когда мы слышим о зарплатах выпускников ВУЗов, то почему-то всегда это неправдоподобно высокие цифры? В США сейчас доходит дело даже до судов , где выпускники утверждают, что данные по зарплатам искусственно завышены.

(картинка из How to Lie with Statistics)

Это довольно старая проблема, согласно Darrell Huff, подобный вопрос возникал у выпускников Yale 24-го года. И на самом деле все говорят правду, да только не всю. Сбор статистики происходил в виде опросов (а в те годы с помощью бумажной почты). Отправляют ответ далеко не все, а только небольшая часть всех выпускников; активнее других отвечают те, у кого дела идут хорошо (что часто выражается в неплохой зарплате), поэтому мы видим только «хорошую» часть картины. Это-то и создаёт предвзятость выборки и делает результаты подобных опросов абсолютно бесполезными.

Правильно выбираем среднее (Well-chosen average)

Представим себе компанию, в которой руководитель получает 25 тысяч, его заместитель 7,6 тысяч, топ-менеджеры по 5,5 тысяч, менеджеры среднего звена по 3,5 тысячи, младшие менеджеры по 2,5 тысячи, а обычные работники по 1,4 тысячи (абстрактных фунтиков) в месяц.

И наша задача представить информацию о компании в положительном свете. Мы можем написать средняя заработная плата в компании составляет X, но что означает среднее ? Рассмотрим возможные варианты (см. схему ниже):

(картинка из How to Lie with Statistics)

Арифметическое среднее некоторого конечного множества X={x i } - это такое число m равное mean(X) из уравнения:

Это самая бесполезная информация с точки зрения работника - 3,472 средняя зарплата, но за счет чего получается такая высокая цифра? За счет высоких зарплат руководства, что создает иллюзию, что работник будет получать столько же. С точки зрения работника данная величина не является особо информативной.

Конечно же народное творчество не обошло стороной эту особенность «средней величины» в виде средне арифметического

Чиновники едят мясо, я - капусту. В среднем мы едим голубцы.

Медиана некоторого распределения P(X) (X={x i }), это такая величина m, что она удовлетворяет следующему уравнению:

Проще говоря, половина работников получает больше данной величины, а половина меньше - ровно середина распределения! Данная статистика достаточно информативна для работников компании, так как она позволяет определить как зарплата сотрудника соотносится с большинством сотрудников.

Мода конечного множества X={x i }, это число m, которое встречается в X чаще всего. В данном случае, мода может быть наиболее информативна для человека, который собирается начать работать в данной компании.

Таким образом в зависимости от ситуации под средним значением может пониматься любая из указанных выше величин (в принципе и не только из них). Поэтому принципиально важно понять, как же рассчитывается это среднее значение.

И еще 10 неудачных экспериментов, про которые мы не написали

Опустим обычную газету в серную кислоту, а журнал ТВ Парк - в дистиллированную воду! Почувствовали разницу? С журналом ничего не произошло - бумага как новая! (Весь ролик .)

Наши исследования сообщают, что зубная паста Doake"s на 23% процента эффектнее конкурентов, и всё это благодаря Dr Cornish"s Tooth Powder! (Который наверняка содержал β-каротин и секретную формулу леса - прим. автора.) Вы наверное удивитесь, но исследование действительно провели и даже выпустили технический отчет. И эксперимент действительно показал, что зубная паста на 23% процента эффективнее конкурентов (чтобы это не значило). Но только вся ли это история?

В действительности выборка для эксперимента составляла всего лишь дюжину человек (согласно Darrell Huff и уже упомянутой книге). Это именно та выборка, которая нужна, чтобы получить любые результаты! Представим, что мы подбрасываем монетку пять раз. Какова вероятность, что все пять раз выпадет орел? (1/2) 5 = 1/32. Всего лишь одна тридцать вторая, это не может быть просто совпадением, если выпадут все пять орлов, ведь так? А теперь представим, что мы повторяем этот эксперимент 50 раз. Хоть одна из этих попыток увенчается успехом. О ней-то мы и напишем в отчете, а все другие эксперименты никуда не пойдут. Таким образом мы получим исключительно случайные данные, которые отлично вписываются в нашу задачу.

Играем со шкалой

Предположим, завтра нужно показать на совещании, что мы догнали конкурентов, но числа немного не сходятся, что же делать? Давайте немного подвигаем шкалой! Даже известный своей качественной работой с данными New York Times выпустил подобный совершенно сбивающий с толку график (обратите внимание на скачок с 800к до 1,5м в центре шкалы).

Скрываем нужные числа

Лучший способ что-то скрыть - это отвлечь внимание. Например, рассмотрим зависимость количества частных и публичных школ (в тысячах штук) по годам. Из графика видно, что число публичных школ сокращается, а число частных существенно не изменяется.

На самом деле рост числа частных школ скрыт на фоне числа публичных школ. Так как они отличаются на порядок, то фактически любые изменения будут не заметны на шкале с достаточно большим шагом. Перерисуем число частных школ отдельно; теперь мы отчетливо видим существенный рост числа частных школ, который был «скрыт» на предыдущем графике.

(пример и графики из How to Display Data Badly, Howard Wainer . The American Statistician, 1984.)

Визуальная метафора

Если сравнивать не с чем, а запутать очень хочется, то самое время для непонятных визуальных метафор. Например, если мы изобразим вместо длины площадь на графике, то любой рост будет казаться гораздо более значительным.

Рассмотрим потребление количества пива в США за 1970-1978 годы в миллионах баррелей и долю рынка компании Schlitz (см. график ниже). Неплохо выглядит, внушительно. Не правда ли?

А теперь давайте избавимся от ненужного «мусора» на данном графике и перерисуем его в нормальном виде. Уже как-то не так внушительно и серьезно выходит.

(графики и примеры из John P. Boyd, lecture notes How to Graph Badly or What. NOT to Do)

Первая картинка не врет, все числа в ней верные, только она неявно преподносит данные в совершенно ином свете.

(картинка из How to Lie with Statistics).

Пример качественной визуализации

Качественная визуализация прежде всего преподносит результаты, избегая неоднозначности, и передает достаточное количество информации в сжатом объеме. Про работу Шарль-Жозефа Минара хорошо сказано :

Тут прекрасно совершенно все, зрителя не держат за идиота, и не тратят его время на втыкание в censored . Широкая бежевая полоса показывает размер армии в каждой точке похода. В правом верхнем углу - Москва, куда приходит французская армия и откуда начинается отступление, показанное черной полосой. К маршруту отступления для дополнительного интереса привязан график времени и температуры.
Вывод в итоге: изумленный зритель сравнивает размер армии на старте с тем, что вернулось домой. Зритель весь в чувствах, он узнал новое, он ощутил масштаб, он заворожен, он понял, что в школе ничего не узнал.

(Charles Joseph Minard: Napoleon"s Retreat From Moscow (The Russian Campaign 1812-1813), 1869.)

Заключение и дальнейшее чтение

76% всей статистики взято из головы

Данная подборка покрывает далеко не полный список приемов, которые осознанно, а также не осознанно искажают данные. Данная статья прежде всего демонстрирует, что мы должны очень внимательно следить за предоставленными нам статистическими данными и выводами сделанными на их основе.

Короткий список к дальнейшему чтению:
How to Lie with Statistics - замечательная небольшая книга, невероятно интересно и хорошо написанная, читается на одном дыхании. Демонстрирует основные «ошибки», которые допускают СМИ (и не только они) при работе с данными.
How to Display Data Badly. Howard Wainer. The American Statistician (1984) - сборник типичных ошибок и общих «вредных» правил, чаще всего встречающихся в работах с визуализацией данных.

Теги:

статистика
вредные советы

Добавить метки (англ.) русск. в 1954 году. Она рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования её мнением. Рассмотрено множество конкретных примеров, в основном из американской жизни (реклама, политика, пропаганда и агитация).

Первым эпиграфом к книге выбрана цитата из графа Би́консфилда (Б. Дизраэли) о статистике: «Существуют три вида лжи: ложь, наглая ложь и статистика».

Книга ориентирована на читателя-неспециалиста и снабжена яркими иллюстрациями. Материал излагается живо и в доступной форме, что обеспечило высокую популярность книги - она является одной из самых многотиражных публикаций, посвященных статистике, за вторую половину XX века .

Выборка изначально необъективна

Использование графических объектов, ассоциативно связанных с представляемой информацией, открывает широкие возможности для злоупотреблений. Это утверждение поясняется рядом примеров:

Для сравнения двух заработных плат можно использовать инфографику и нарисовать два мешка с деньгами. Если вторая заработная плата выше первой в два раза, то второй мешок будет не только выше, но и шире в два раза (что необходимо для сохранения пропорции). А поскольку мешок - это трёхмерный объект, то и контур второго мешка будет в два раза толще, чем первого. В результате наше зрение воспринимает второй мешок, как мешок в 8 (а не в 2!) раз больший, чем первый. Этот прием был использован журналом Newsweek.
В рекламе американского института стали и сплавов была использована инфографика для показа увеличения выплавки стали между 1930 и 1940 гг на 4.25 млн тон (с 10 млн до 14,25 млн). Техника инфографики (к рассмотренным ранее методам добавилось преднамеренное искажение пропорций) привело к тому, что указанное увеличение выплавки визуально воспринималось как 1500 %. Автор замечает, что это тот случай, когда «арифметика превращается в фантазию».
Использование изображения коров разного размера для показа различных показателей удоев по годам. В добавление к уже рассмотренным эффектам, этот метод приводит к еще одному недоразумению - читатель может подумать, что не только удои стали выше, но и коровы больше.

На рисунке ниже показан пример злоупотребления инфографикой - второй объект визуально больше в 8 раз.

Первый шаг при сборе статистических данных - определить, что вы хотите анализировать. Специалисты по статистике называют информацию на этом этапе генеральной совокупностью . Затем нужно определить подкласс данных, которые при анализе должны представлять всё население в целом. Чем больше и точнее выборка, тем вернее будут результаты исследования.

Конечно, есть разные способы испортить статистическую выборку случайно или намеренно:

Систематическая ошибка отбора. Такая ошибка происходит, когда люди, принимающие участие в исследовании, сами относят себя к группе, не представляющей всё население.
Случайная выборка. Имеет место, когда анализируют легкодоступную информацию, а не пытаются собрать репрезентативные данные. Например, новостной канал может провести политический опрос среди своих зрителей. Не опросив людей, которые смотрят другие каналы (или вообще не смотрят телевизор), нельзя сказать, что результаты такого исследования будут отражать действительность.
Отказ респондентов от участия. Такая статистическая ошибка случается, когда часть людей не отвечает на вопросы, задаваемые в статистическом исследовании. Это приводит к неверному отображению результатов. Например, если в исследовании задаётся вопрос: «Изменяли ли вы когда-нибудь супругу/супруге?», некоторые просто не захотят признаться. В результате будет казаться, что измены происходят редко.
Опросы со свободным доступом. В таких опросах может принять участие любой человек. Часто даже не проверяется, сколько раз один и тот же человек отвечал на вопросы. Примером служат различные опросы в интернете. Проходить их очень интересно, но они не могут считаться объективными.

Прелесть ошибок отбора в том, что кто-нибудь где-нибудь наверняка проводит ненаучный опрос, который подтвердит любую вашу теорию. Так что просто поищите нужный опрос в Сети или создайте свой собственный.

Выбирайте результаты, которые подтверждают ваши идеи

Так как статистика использует числа, нам кажется, что она убедительно доказывает любую идею. Статистика опирается на сложные математические , которые при неправильном обращении могут привести к совершенно противоположным результатам.

Чтобы продемонстрировать изъяны анализа данных, английский математик Фрэнсис Энскомб создал квартет Энскомба . Он состоит из четырёх наборов числовых данных, которые на графиках выглядят совершенно по-разному.

На рисунке X1 - стандартная диаграмма рассеяния; X2 - кривая, которая сначала поднимается вверх, а потом опускается вниз; X3 - линия, немного поднимающаяся вверх, с одним выбросом на оси Y; X4 - данные на оси X, кроме одного выброса, расположенного высоко на обеих осях.

Для каждого из графиков верны следующие высказывания:

Среднее значение переменной x для каждого набора данных равно 9.
Среднее значение переменной y для каждого набора данных равно 7,5.
Дисперсия (разброс) переменной x - 11, переменной y - 4,12.
Корреляция между переменными x и y для каждого набора данных равна 0,816.

Если бы мы видели эти данные только в форме текста, мы бы подумали, что ситуации полностью одинаковы, хотя графики это опровергают.

Поэтому Энскомб предложил сначала визуализировать данные, а только потом делать выводы. Конечно, если вы хотите ввести кого-то в заблуждение, пропустите этот шаг.

Составляйте графики, которые подчеркнут желаемые результаты

У большинства людей нет времени проводить собственный статистический анализ. Они ждут, что вы предъявите им графики, обобщающие все ваши исследования. Правильно составленные графики должны отражать идеи, которые соответствуют реальности. Но также они могут подчеркнуть те данные, которые вы хотите показать.

Опускайте названия некоторых параметров, немного поменяйте шкалу на оси координат, не объясняйте контекст. Так вы сможете убедить всех в свой правоте.

Всеми средствами скрывайте источники

Если вы открыто указываете свои источники, людям легко проверить ваши выводы. Конечно, если вы стремитесь обвести всех вокруг пальца, ни за что не рассказывайте, как вы пришли к своим выводам.

Обычно в статьях и исследованиях всегда указывают ссылки на источники. При этом оригинальные работы могут предоставляться не полностью. Главное, чтобы источник отвечал на следующие вопросы:

Теперь вы знаете, как манипулировать числами и с помощью статистики доказать практически что угодно. Это поможет вам распознавать ложь и опровергать сфабрикованные теории.

Народное творчество о данном феномене:

По данным интернет-голосования 100% людей пользуются интернетом.

Зарплата выпускников

(картинка из How to Lie with Statistics)

Правильно выбираем среднее (Well-chosen average)

(картинка из How to Lie with Statistics)

Арифметическое среднее некоторого конечного множества X={x i } - это такое число m равное mean(X) из уравнения:

Чиновники едят мясо, я - капусту. В среднем мы едим голубцы.

Медиана некоторого распределения P(X) (X={x i }), это такая величина m, что она удовлетворяет следующему уравнению:

И еще 10 неудачных экспериментов, про которые мы не написали

Играем со шкалой

Скрываем нужные числа

(пример и графики из How to Display Data Badly, Howard Wainer . The American Statistician, 1984.)

Визуальная метафора

(графики и примеры из John P. Boyd, lecture notes How to Graph Badly or What. NOT to Do)

Первая картинка не врет, все числа в ней верные, только она неявно преподносит данные в совершенно ином свете.

(картинка из How to Lie with Statistics).

Пример качественной визуализации

Тут прекрасно совершенно все, зрителя не держат за идиота, и не тратят его время на втыкание в censored . Широкая бежевая полоса показывает размер армии в каждой точке похода. В правом верхнем углу - Москва, куда приходит французская армия и откуда начинается отступление, показанное черной полосой. К маршруту отступления для дополнительного интереса привязан график времени и температуры.
Вывод в итоге: изумленный зритель сравнивает размер армии на старте с тем, что вернулось домой. Зритель весь в чувствах, он узнал новое, он ощутил масштаб, он заворожен, он понял, что в школе ничего не узнал.

(Charles Joseph Minard: Napoleon"s Retreat From Moscow (The Russian Campaign 1812-1813), 1869.)

Заключение и дальнейшее чтение

76% всей статистики взято из головы

Теги: Добавить метки

Дарелл Хафф

Как лгать при помощи статистики

Переводчик Е. Лалаян

Редактор А. Черникова

Научный редактор В. Ионов

Руководитель проекта А. Деркач

Корректор Е. Аксёнова

Компьютерная верстка К. Свищёв

Дизайн обложки Ю. Буга

Все права защищены. Произведение предназначено исключительно для частного использования. Никакая часть электронного экземпляра данной книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети Интернет и в корпоративных сетях, для публичного или коллективного использования без письменного разрешения владельца авторских прав. За нарушение авторских прав законодательством предусмотрена выплата компенсации правообладателя в размере до 5 млн. рублей (ст. 49 ЗОАП), а также уголовная ответственность в виде лишения свободы на срок до 6 лет (ст. 146 УК РФ).

* * *

Существуют три вида лжи: ложь, наглая ложь и статистика.

Бенджамин Дизраэли

Придет время, и статистическое мышление станет таким же необходимым качеством для истинного гражданина, как умение читать и писать.

Герберт Уэллс

Нам досаждают не столько те вещи, о которых мы не знаем, сколько те, о которых мы знаем, что с ними что-то не так.

Артемус Уорд

Круглые числа всегда лгут.

Сэмюэл Джонсон

У меня есть обширная тема [статистика] и есть много, что написать по этой теме, но со всей остротой я осознаю, что мне не хватит литературных талантов, чтобы изложить ее просто и доходчиво, не жертвуя при этом точностью и основательностью.

Сэр Фрэнсис Гальтон

К читателю

Будь моя воля, я бы назвал эту книгу еще короче – «Как лгать», потому что ложь приобрела убедительность, логику и, что еще важнее, цифры, за которыми может скрываться все что угодно в «умелых руках». А «умелых рук» очень много.

В наше время вопросы лжи и правды все так же актуальны. Помимо прямого обмана появилось множество способов «огибать правду» или же показывать реальность таким образом, что даже знающему человеку сложно распознать скрывающуюся за ней ложь.

В искажении статистики заинтересованы все, кто ищет способы исказить общественное мнение и воспользоваться этим в целях собственного обогащения. Немало и таких, кто хочет скрыть настоящие цифры, потому как они отражают крайне неприглядные факты. Наконец, статистика оказывается объектом прямого манипулирования во всех случаях, когда она является частью процессов принятия решений государственного масштаба.

В России ситуация со статистикой никогда не была столь печальной, как сейчас. Если в 80-х и 90-х гг. прошлого столетия официальная статистика в России страдала от тотального недофинансирования, то сегодня сами принципы государственного и муниципального управления в России таковы, что статистика стремительно превращается из инструмента доверия в инструмент распределения государственных средств.

В последних исследованиях Фонда «Хамовники» Ольга Моляренко очень подробно разобрала примеры искажения муниципальной статистики в России. Из-за отсутствия кооперации между органами власти, использования статистических данных как основы для принятия решений о выделении бюджетных средств и многих других российских особенностей мы оказываемся перед острой необходимостью реорганизации сбора государственной статистики в целом.

Книга Даррелла Хаффа хороша не выводами и даже не огромным числом примеров, а тем, что она учит критическому мышлению, она учит отношению к цифрам не как к «сакральному знанию», а как к инструменту, с помощью которого осуществляется манипулирование нашим мнением.

И я могу сказать, что именно критического взгляда нам остро не хватает в последние годы. Вот лишь один пример. Одна общественная организация в России решила публиковать свой рейтинг восприятия коррупции. Дабы придать этому рейтингу «научности», в качестве критериев было решено использовать абсолютные статистические показатели, такие как статистика преступлений, публикуемая МВД и Генеральной прокуратурой. Хотя благое намерение отслеживать ситуацию с коррупцией в нашей стране можно только приветствовать, сам подход является ошибочным, потому как ошибочны изначально заложенные в нем метрики.

В исследовательском отчете «Криминальная статистика: механизмы формирования, причины искажения, пути реформирования», подготовленном сотрудниками Института проблем правоприменения, очень подробно разобраны и описаны проблемы и последствия искажения правовой статистики в Российской Федерации. Для человека, вооруженного выводами этого исследования, совершенно очевидно, что рейтинги, построенные на современной правовой статистике, не могут быть достоверными.

Официальная статистика используется как минимум:

При определении бюджетных субсидий;

При оценке деятельности публичных компаний;

При выделении финансирования бюджетным учреждениям;

В городском и районном планировании;

В финансово-экономическом обосновании государственных и частных инвестиций;

В оценке эффективности государственных программ;

В результате даже малая ошибка в показателях превращается в просчет в фундаменте, на котором строится огромное число умозаключений и решений.

Другой важной проблемой существующей практики статистического учета является технологическое отставание современной статистики. В ситуации, когда государство все более автоматизируется и сбор многих показателей не требует выборочных опросов организаций или их тотальной переписи, все острее встает вопрос автоматизации извлечения статистических данных из государственных информационных систем.

Книгу Даррелла Хаффа можно порекомендовать как тем, кто хочет докопаться до правды, так и тем, кто ищет способы ее скрыть или осознанно исказить. Она – подспорье для всех, кто часто участвует в дискуссиях о достоверности цифр. Она поможет и тем, кто ищет способ придать недостоверным данным больше «легальности».

Хотя в ней отсутствует многое из того, к чему мы привыкли в современном мире, – нет ни слова об информационных системах, о возможностях Интернета, о больших данных, тем не менее эта классическая книга все так же актуальна.

Статистика по-прежнему остается областью интерпретаций и относительных оценок, описание цифр и форма их представления имеют колоссальное значение, а примеры, приводимые в этой книге, не потеряют своего значения еще не один десяток лет.

Я рекомендую эту книгу не только тем, кто хочет разбираться в статистике, но и тем, кто интересуется правдой и ложью, а также логикой, на которой они могут быть построены. Книгу, без сомнения, стоит прочитать журналистам, пишущим об экономике и любой отрасли, где важны цифры и оценки, сотрудникам пресс-служб и всем, кто работает со статистикой в любой форме.

Иван Бегтин, директор некоммерческого партнерства «Информационная культура», член общественного совета при Федеральной службе государственной статистики

Предисловие к русскому изданию

Человеку свойственно ошибаться, и особенно серьезные ошибки случаются, когда умозаключения строятся на основе статистических данных, «холодных цифр». Наше сознание странным образом признает за математикой право на абсолютную истину.

Статистика, как рассказывает нам Даррелл Хафф в своем бестселлере «Как лгать при помощи статистики», это такая хитрая, закамуфлированная отрасль математики. С одной стороны, она оперирует цифрами, пользуется четкой логикой и понятными методами расчетов. С другой стороны, предметом той статистики, которая нас обманывает, всегда является поведение человека (или отношение человека к чему-то, вплоть до отношения к другим людям). Цифры продают нам нас же самих, завернутых в формулы, статистические распределения и байесовские множества.