Jak lhát se statistikami. Vyberte výsledky, které podporují vaše představy

", ve kterém se dětem radí, a děti, jak víte, dělají všechno obráceně a všechno dopadne tak, jak má. Možná to bude se vším ostatním?

Statistiky, infografika, velká data, analýza dat a věda o datech – tím se teď nikdo nezabývá. Tohle všechno správně ví každý, zbývá jen, aby někdo napsal, jak se to NEDĚLÁ. V tomto článku to uděláme.

Lidové umění o tomto fenoménu:

Podle online hlasování používá internet 100 % lidí.
Platy absolventů
Překvapilo někoho, že když slyšíme o platech absolventů vysokých škol, z nějakého důvodu jsou tato čísla vždy neuvěřitelně vysoká? V USA se nyní případ dokonce dostává k soudům, kde absolventi tvrdí, že platové údaje jsou uměle nafouknuté.


(obrázek z Jak lhát se statistikou)

Toto je poměrně starý problém; podle Darrella Huffa měl Yale '24 podobnou otázku. A ve skutečnosti všichni mluví pravdu, ale ne celou pravdu. Statistiky byly sbírány formou průzkumů (a v těchto letech i papírovou poštou). Odpověď neposílá každý, ale jen malá část všech absolventů; Ti, kterým se daří dobře (což se často odráží v dobrém platu), reagují aktivněji než ostatní, takže vidíme jen tu „dobrou“ část obrázku. To vytváří zkreslení výběru a činí výsledky takových průzkumů zcela nepoužitelnými.

Výběr správného průměru (dobře zvolený průměr)

Představme si firmu, ve které manažer dostává 25 tisíc, jeho zástupce 7,6 tisíce, vrcholoví manažeři 5,5 tisíce, střední manažeři 3,5 tisíce, junior manažeři 2,5 tisíce a řadoví zaměstnanci 1,4 tisíce (abstraktní libry) měsíčně.

A naším úkolem je prezentovat informace o společnosti v pozitivním světle. Můžeme psát průměrná mzda ve společnosti je X, ale co to znamená průměrný? Zvažme možné možnosti (viz obrázek níže):


(obrázek z Jak lhát se statistikou)

Aritmetický průměr nějaké konečné množiny X=(x i ) je číslo m rovné průměru (X) z rovnice:

To je z pohledu zaměstnance nejzbytečnější informace - průměrná mzda je 3 472, ale co odpovídá za tak vysoké číslo? Kvůli vysokým platům vedení, které vytváří iluzi, že zaměstnanec dostane stejnou částku. Z pohledu zaměstnance není tato hodnota nijak zvlášť vypovídající.

Tuto vlastnost „průměrné hodnoty“ v podobě aritmetického průměru samozřejmě neobešlo ani lidové umění.

Úředníci jedí maso, já zelí. Průměrně jíme zelí.

Medián nějakého rozdělení P(X) (X=(xi)), je hodnota m taková, že splňuje následující rovnici:

Jednoduše řečeno, polovina pracovníků dostává více, než je tato hodnota, a polovina méně – přesně uprostřed distribuce! Tato statistika je pro zaměstnance společnosti poměrně informativní, protože vám umožňuje určit, jak je mzda zaměstnance v porovnání s většinou zaměstnanců.

Mód konečné množiny X=(x i ) je číslo m, které se v X vyskytuje nejčastěji. Móda může být v tomto případě pro člověka, který se chystá začít pracovat v dané firmě, nejinformativnější.

Tedy v závislosti na situaci pod průměrná hodnota lze chápat kteroukoli z výše uvedených veličin (v principu a nejen jich). Proto je zásadně důležité pochopit, jak se tato průměrná hodnota počítá.

A 10 dalších neúspěšných experimentů, o kterých jsme nepsali

Do kyseliny sírové dáme obyčejné noviny a do destilované vody časopis TV Park! Cítili jste ten rozdíl? Časopisu se nic nestalo - papír je jako nový! (Celé video.)

Náš výzkum uvádí, že zubní pasta Doake je o 23 % účinnější než konkurence, a to vše díky zubnímu prášku Dr Cornish's Tooth Powder! (Který pravděpodobně obsahoval β-karoten a tajný vzorec lesa - pozn. autora.) Možná vás to překvapí, ale ve skutečnosti studii provedli a dokonce vydali technickou zprávu. A experiment skutečně ukázal, že zubní pasta je o 23 % účinnější než její konkurenti (ať už to znamená cokoli). Ale je to celý příběh?

Ve skutečnosti byla velikost vzorku pro experiment pouze tucet lidí (podle Darrella Huffa a již zmíněné knihy). To je přesně ten vzorek, který potřebujete k dosažení jakýchkoli výsledků! Představme si, že si pětkrát hodíme mincí. Jaká je pravděpodobnost, že dostanete hlavy všech pětkrát? (1/2) 5 = 1/32. Je to jen jedna třicet dva, nemůže to být jen náhoda, když se objeví všech pět hlav, ne? Nyní si představte, že tento experiment opakujeme 50krát. Alespoň jeden z těchto pokusů bude úspěšný. Napíšeme o tom ve zprávě, ale všechny další experimenty nikam nevedou. Získáme tak výhradně náhodná data, která dokonale zapadají do našeho úkolu.

Hraní si s měřítkem

Předpokládejme, že zítra musíme na schůzce ukázat, že jsme dohnali naše konkurenty, ale čísla se trochu nesčítají, co bychom měli dělat? Trochu posuneme číselník! Dokonce i New York Times, známé svou kvalitní prací s daty, vytvořily podobný, zcela matoucí graf (všimněte si skoku z 800k na 1,5m ve středu stupnice).

Skrytí požadovaných čísel

Nejlepší způsob, jak něco skrýt, je odvést pozornost. Zvažte například závislost počtu soukromých a veřejných škol (v tisících) podle roku. Z grafu je patrné, že počet veřejných škol klesá, zatímco počet soukromých se výrazně nemění.

Ve skutečnosti je růst počtu soukromých škol skryt v pozadí počtu škol veřejných. Vzhledem k tomu, že se liší řádově, prakticky žádné změny nebudou na stupnici s dostatečně velkým krokem patrné. Překreslíme počet soukromých škol samostatně; Nyní jasně vidíme výrazný nárůst počtu soukromých škol, který byl „skryt“ v předchozím grafu.


(příklad a grafy z How to Display Data Badly, Howard Wainer. The American Statistician, 1984.)

Vizuální metafora

Pokud nemáte s čím srovnávat, ale opravdu chcete věci zmást, pak je čas na nepochopitelné vizuální metafory. Pokud například vykreslíme do grafu plochu místo délky, jakýkoli růst se bude jevit mnohem větší.

Podívejme se na spotřebu piva v USA v letech 1970-1978 v milionech barelů a podíl společnosti Schlitz na trhu (viz graf níže). Vypadá dobře, působivě. Není to ono?

Nyní se zbavme zbytečných „odpadků“ na tomto grafu a překreslíme jej do normální podoby. Už to nějak nevypadá tak působivě a vážně.


(grafy a příklady od Johna P. Boyda, poznámky k přednášce Jak špatně grafovat aneb co. NEDĚLAT)

První obrázek nelže, všechna čísla na něm jsou správná, ale implicitně prezentuje data ve zcela jiném světle.


(obrázek z Jak lhát se statistikou).

Příklad kvalitní vizualizace

Kvalitní vizualizace především prezentuje výsledky, vyhýbá se nejednoznačnostem a zprostředkovává dostatečné množství informací ve stručném objemu. O díle Charlese-Josepha Minarda se dobře říká:
Vše je zde perfektní, s divákem se nejedná jako s idiotem a neztrácí čas cenzurou. Široký béžový pruh ukazuje velikost armády v každém bodě pochodu. V pravém horním rohu je Moskva, kam přichází francouzská armáda a odkud začíná ústup, zobrazená jako černý pruh. Pro větší zajímavost je k ústupové cestě připojen graf času a teploty.

Závěrečný závěr: užaslý divák porovnává velikost armády na startu s tím, co se vrátilo domů. Divák je plný pocitů, naučil se něco nového, cítil měřítko, byl hypnotizovaný, uvědomil si, že se ve škole nic nenaučil.


(Charles Joseph Minard: Napoleonův ústup z Moskvy (Ruské tažení 1812-1813), 1869.)

Závěr a další čtení

76 % všech statistik je převzato z hlavy

Tento výběr zdaleka nepokrývá úplný seznam technik, které vědomě i nevědomě zkreslují data. Tento článek především ukazuje, že musíme velmi pečlivě sledovat statistické údaje, které nám jsou poskytovány, a závěry na jejich základě vyvozované.

Krátký seznam pro další čtení:
Jak lhát se statistikou je nádherná malá knížka, neuvěřitelně zajímavá a dobře napsaná, přečtená jedním dechem. Ukazuje hlavní „chyby“, kterých se média (a nejen ona) při práci s daty dopouštějí.
Jak špatně zobrazovat data. Howard Wainer. The American Statistician (1984) – soubor typických chyb a obecných „škodlivých“ pravidel, které se nejčastěji vyskytují při práci s vizualizací dat.

Štítky:

  • statistika
  • špatná rada
Přidat štítky (Angličtina) ruština v roce 1954. Hovoří o různých způsobech, jak lze statistiky použít k oklamání publika a manipulaci s jejich názory. Uvažuje se o mnoha konkrétních příkladech, především z amerického života (reklama, politika, propaganda a agitace).

První epigraf knihy je citát Earla Beaconsfielda (B. Disraeli) o statistice: „Existují tři druhy lží: lži, do očí bijící lži a statistiky.“

Kniha je určena pro laického čtenáře a je vybavena pestrými ilustracemi. Materiál je prezentován živě a přístupnou formou, což knize zajistilo vysokou popularitu – jde o jednu z nejrozšířenějších publikací o statistice druhé poloviny 20. století.

Vzorek je ze své podstaty zkreslený

Použití grafických objektů spojených s prezentovanými informacemi otevírá široké možnosti zneužití. Toto tvrzení je ilustrováno řadou příkladů:

  • Chcete-li porovnat dva platy, můžete použít infografiku a vylosovat dva pytle peněz. Pokud je druhý plat dvakrát vyšší než první, pak bude druhý pytel nejen vyšší, ale také dvakrát širší (což je nutné pro zachování poměru). A protože je taška trojrozměrný objekt, bude obrys druhé tašky dvakrát silnější než první. Výsledkem je, že naše vidění vnímá druhou tašku jako tašku 8 (ne 2!) krát větší než první. Tuto techniku ​​použil časopis Newsweek.
  • Reklama pro American Steel and Alloy Institute pomocí infografiky ukazovala nárůst výroby oceli mezi lety 1930 a 1940 o 4,25 milionu tun (z 10 milionů na 14,25 milionů). Infografická technika (k dříve diskutovaným metodám bylo přidáno záměrné zkreslení proporcí) vedla k tomu, že naznačené zvýšení natavení bylo vizuálně vnímáno jako 1500 %. Autor poznamenává, že to je případ, kdy se „aritmetika změní ve fantazii“.
  • Použití obrázků krav různých velikostí k zobrazení různých výnosů mléka v průběhu let. Kromě již diskutovaných účinků vede tato metoda k dalšímu nedorozumění – čtenář si může myslet, že je vyšší nejen dojivost, ale i větší krávy.

Na obrázku níže je příklad zneužití infografiky – druhý objekt je vizuálně 8x větší.

Prvním krokem při shromažďování statistických dat je určit, co chcete analyzovat. Statistici označují informace v této fázi jako populaci. Poté musíte definovat podtřídu dat, která by při analýze měla reprezentovat celou populaci. Čím větší a přesnější vzorek, tím přesnější budou výsledky výzkumu.

Samozřejmě existují různé způsoby, jak zkazit statistický vzorek, ať už náhodně nebo úmyslně:

  • Předpojatost výběru. K této chybě dochází, když se lidé účastnící se studie identifikují jako součást skupiny, která není reprezentativní pro celou populaci.
  • Náhodné vzorkování. Vyskytuje se, když jsou snadno dostupné informace analyzovány spíše než snaha shromáždit reprezentativní data. Zpravodajský kanál může například provést politický průzkum mezi svými diváky. Bez průzkumu lidí, kteří sledují jiné kanály (nebo televizi nesledují vůbec), nelze říci, že výsledky takové studie budou odrážet realitu.
  • Odmítnutí účasti respondentů. K této statistické chybě dochází, když někteří lidé neodpovídají na otázky položené ve statistické studii. To způsobí, že se výsledky zobrazí nesprávně. Pokud například studie položí otázku: „Podváděl jsi někdy svého manžela?“, někteří lidé to prostě nebudou chtít přiznat. V důsledku toho se bude zdát, že podvádění je vzácné.
  • Průzkumy s volným přístupem. Takových průzkumů se může zúčastnit každý. Často se ani nekontroluje, kolikrát stejná osoba odpověděla na otázky. Příkladem jsou různé ankety na internetu. Je velmi zajímavé je projít, ale nelze je považovat za objektivní.

Krása výběrového zkreslení spočívá v tom, že někdo někde pravděpodobně provede nevědecký průzkum, který potvrdí jakoukoli vaši teorii. Stačí si tedy na internetu vyhledat průzkum, který potřebujete, nebo si vytvořit svůj vlastní.

Vyberte výsledky, které podpoří vaše nápady

Protože statistika používá čísla, myslíme si, že poskytují přesvědčivý důkaz jakékoli myšlenky. Statistiky spoléhají na složitou matematiku, která při nesprávném zacházení může vést ke zcela opačným výsledkům.

Aby ukázal nedostatky v analýze dat, anglický matematik Francis Anscombe vytvořil Anscombe Quartet. Skládá se ze čtyř sad číselných údajů, které na grafech vypadají úplně jinak.

Na obrázku X1 je standardní bodový graf; X2 je křivka, která nejprve stoupá a pak klesá; X3 - čára stoupající mírně nahoru, s jednou odlehlou hodnotou na ose Y; X4 - údaje na ose X, kromě jedné odlehlé hodnoty umístěné vysoko na obou osách.

Pro každý z grafů platí následující tvrzení:

  • Proměnný průměr X pro každý soubor dat je 9.
  • Proměnný průměr y pro každý datový soubor je 7,5.
  • Disperze (rozptyl) proměnné X- 11, variabilní y - 4,12.
  • Korelace mezi proměnnými X A y pro každý soubor dat je 0,816.

Pokud bychom tato data viděli pouze v textové podobě, mysleli bychom si, že situace jsou úplně stejné, ačkoli to grafy vyvracejí.

Proto Anscombe navrhl nejprve vizualizovat data a teprve potom vyvozovat závěry. Pokud chcete někoho uvést v omyl, tento krok samozřejmě přeskočte.

Vytvořte grafy, které zvýrazňují požadované výsledky.

Většina lidí nemá čas na vlastní statistickou analýzu. Očekávají, že jim ukážete grafy shrnující celý váš výzkum. Správně navržené grafy by měly odrážet představy, které odpovídají skutečnosti. Mohou však také zvýraznit data, která chcete zobrazit.

Vynechejte názvy některých parametrů, mírně změňte měřítko na souřadnicové ose a nevysvětlujte souvislosti. Tímto způsobem můžete všechny přesvědčit, že máte pravdu.

Skryjte své zdroje všemi prostředky.

Pokud budete o svých zdrojích transparentní, lidé si vaše zjištění snadno ověří. Samozřejmě, pokud se snažíte všechny oklamat, nikdy nám neříkejte, jak jste ke svým závěrům došli.

Články a studie obvykle vždy obsahují odkazy na zdroje. Původní díla však nemusí být poskytnuta v plném rozsahu. Hlavní věc je, že zdroj odpovídá na následující otázky:

Nyní víte, jak manipulovat s čísly a používat statistiky k prokázání téměř čehokoli. To vám pomůže rozpoznat lži a vyvrátit smyšlené teorie.

", ve kterém se dětem radí, a děti, jak víte, dělají všechno obráceně a všechno dopadne tak, jak má. Možná to bude se vším ostatním?

Statistiky, infografika, velká data, analýza dat a věda o datech – tím se teď nikdo nezabývá. Tohle všechno správně ví každý, zbývá jen, aby někdo napsal, jak se to NEDĚLÁ. V tomto článku to uděláme.

Lidové umění o tomto fenoménu:

Podle online hlasování používá internet 100 % lidí.
Platy absolventů
Překvapilo někoho, že když slyšíme o platech absolventů vysokých škol, z nějakého důvodu jsou tato čísla vždy neuvěřitelně vysoká? V USA se nyní případ dokonce dostává k soudům, kde absolventi tvrdí, že platové údaje jsou uměle nafouknuté.


(obrázek z Jak lhát se statistikou)

Toto je poměrně starý problém; podle Darrella Huffa měl Yale '24 podobnou otázku. A ve skutečnosti všichni mluví pravdu, ale ne celou pravdu. Statistiky byly sbírány formou průzkumů (a v těchto letech i papírovou poštou). Odpověď neposílá každý, ale jen malá část všech absolventů; Ti, kterým se daří dobře (což se často odráží v dobrém platu), reagují aktivněji než ostatní, takže vidíme jen tu „dobrou“ část obrázku. To vytváří zkreslení výběru a činí výsledky takových průzkumů zcela nepoužitelnými.

Výběr správného průměru (dobře zvolený průměr)

Představme si firmu, ve které manažer dostává 25 tisíc, jeho zástupce 7,6 tisíce, vrcholoví manažeři 5,5 tisíce, střední manažeři 3,5 tisíce, junior manažeři 2,5 tisíce a řadoví zaměstnanci 1,4 tisíce (abstraktní libry) měsíčně.

A naším úkolem je prezentovat informace o společnosti v pozitivním světle. Můžeme psát průměrná mzda ve společnosti je X, ale co to znamená průměrný? Zvažme možné možnosti (viz obrázek níže):


(obrázek z Jak lhát se statistikou)

Aritmetický průměr nějaké konečné množiny X=(x i ) je číslo m rovné průměru (X) z rovnice:

To je z pohledu zaměstnance nejzbytečnější informace - průměrná mzda je 3 472, ale co odpovídá za tak vysoké číslo? Kvůli vysokým platům vedení, které vytváří iluzi, že zaměstnanec dostane stejnou částku. Z pohledu zaměstnance není tato hodnota nijak zvlášť vypovídající.

Tuto vlastnost „průměrné hodnoty“ v podobě aritmetického průměru samozřejmě neobešlo ani lidové umění.

Úředníci jedí maso, já zelí. Průměrně jíme zelí.

Medián nějakého rozdělení P(X) (X=(xi)), je hodnota m taková, že splňuje následující rovnici:

Jednoduše řečeno, polovina pracovníků dostává více, než je tato hodnota, a polovina méně – přesně uprostřed distribuce! Tato statistika je pro zaměstnance společnosti poměrně informativní, protože vám umožňuje určit, jak je mzda zaměstnance v porovnání s většinou zaměstnanců.

Mód konečné množiny X=(x i ) je číslo m, které se v X vyskytuje nejčastěji. Móda může být v tomto případě pro člověka, který se chystá začít pracovat v dané firmě, nejinformativnější.

Tedy v závislosti na situaci pod průměrná hodnota lze chápat kteroukoli z výše uvedených veličin (v principu a nejen jich). Proto je zásadně důležité pochopit, jak se tato průměrná hodnota počítá.

A 10 dalších neúspěšných experimentů, o kterých jsme nepsali

Do kyseliny sírové dáme obyčejné noviny a do destilované vody časopis TV Park! Cítili jste ten rozdíl? Časopisu se nic nestalo - papír je jako nový! (Celé video.)

Náš výzkum uvádí, že zubní pasta Doake je o 23 % účinnější než konkurence, a to vše díky zubnímu prášku Dr Cornish's Tooth Powder! (Který pravděpodobně obsahoval β-karoten a tajný vzorec lesa - pozn. autora.) Možná vás to překvapí, ale ve skutečnosti studii provedli a dokonce vydali technickou zprávu. A experiment skutečně ukázal, že zubní pasta je o 23 % účinnější než její konkurenti (ať už to znamená cokoli). Ale je to celý příběh?

Ve skutečnosti byla velikost vzorku pro experiment pouze tucet lidí (podle Darrella Huffa a již zmíněné knihy). To je přesně ten vzorek, který potřebujete k dosažení jakýchkoli výsledků! Představme si, že si pětkrát hodíme mincí. Jaká je pravděpodobnost, že dostanete hlavy všech pětkrát? (1/2) 5 = 1/32. Je to jen jedna třicet dva, nemůže to být jen náhoda, když se objeví všech pět hlav, ne? Nyní si představte, že tento experiment opakujeme 50krát. Alespoň jeden z těchto pokusů bude úspěšný. Napíšeme o tom ve zprávě, ale všechny další experimenty nikam nevedou. Získáme tak výhradně náhodná data, která dokonale zapadají do našeho úkolu.

Hraní si s měřítkem

Předpokládejme, že zítra musíme na schůzce ukázat, že jsme dohnali naše konkurenty, ale čísla se trochu nesčítají, co bychom měli dělat? Trochu posuneme číselník! Dokonce i New York Times, známé svou kvalitní prací s daty, vytvořily podobný, zcela matoucí graf (všimněte si skoku z 800k na 1,5m ve středu stupnice).

Skrytí požadovaných čísel

Nejlepší způsob, jak něco skrýt, je odvést pozornost. Zvažte například závislost počtu soukromých a veřejných škol (v tisících) podle roku. Z grafu je patrné, že počet veřejných škol klesá, zatímco počet soukromých se výrazně nemění.

Ve skutečnosti je růst počtu soukromých škol skryt v pozadí počtu škol veřejných. Vzhledem k tomu, že se liší řádově, prakticky žádné změny nebudou na stupnici s dostatečně velkým krokem patrné. Překreslíme počet soukromých škol samostatně; Nyní jasně vidíme výrazný nárůst počtu soukromých škol, který byl „skryt“ v předchozím grafu.


(příklad a grafy z How to Display Data Badly, Howard Wainer. The American Statistician, 1984.)

Vizuální metafora

Pokud nemáte s čím srovnávat, ale opravdu chcete věci zmást, pak je čas na nepochopitelné vizuální metafory. Pokud například vykreslíme do grafu plochu místo délky, jakýkoli růst se bude jevit mnohem větší.

Podívejme se na spotřebu piva v USA v letech 1970-1978 v milionech barelů a podíl společnosti Schlitz na trhu (viz graf níže). Vypadá dobře, působivě. Není to ono?

Nyní se zbavme zbytečných „odpadků“ na tomto grafu a překreslíme jej do normální podoby. Už to nějak nevypadá tak působivě a vážně.


(grafy a příklady od Johna P. Boyda, poznámky k přednášce Jak špatně grafovat aneb co. NEDĚLAT)

První obrázek nelže, všechna čísla na něm jsou správná, ale implicitně prezentuje data ve zcela jiném světle.


(obrázek z Jak lhát se statistikou).

Příklad kvalitní vizualizace

Kvalitní vizualizace především prezentuje výsledky, vyhýbá se nejednoznačnostem a zprostředkovává dostatečné množství informací ve stručném objemu. O díle Charlese-Josepha Minarda se dobře říká:
Vše je zde perfektní, s divákem se nejedná jako s idiotem a neztrácí čas cenzurou. Široký béžový pruh ukazuje velikost armády v každém bodě pochodu. V pravém horním rohu je Moskva, kam přichází francouzská armáda a odkud začíná ústup, zobrazená jako černý pruh. Pro větší zajímavost je k ústupové cestě připojen graf času a teploty.

Závěrečný závěr: užaslý divák porovnává velikost armády na startu s tím, co se vrátilo domů. Divák je plný pocitů, naučil se něco nového, cítil měřítko, byl hypnotizovaný, uvědomil si, že se ve škole nic nenaučil.


(Charles Joseph Minard: Napoleonův ústup z Moskvy (Ruské tažení 1812-1813), 1869.)

Závěr a další čtení

76 % všech statistik je převzato z hlavy

Tento výběr zdaleka nepokrývá úplný seznam technik, které vědomě i nevědomě zkreslují data. Tento článek především ukazuje, že musíme velmi pečlivě sledovat statistické údaje, které nám jsou poskytovány, a závěry na jejich základě vyvozované.

Krátký seznam pro další čtení:
Jak lhát se statistikou je nádherná malá knížka, neuvěřitelně zajímavá a dobře napsaná, přečtená jedním dechem. Ukazuje hlavní „chyby“, kterých se média (a nejen ona) při práci s daty dopouštějí.
Jak špatně zobrazovat data. Howard Wainer. The American Statistician (1984) – soubor typických chyb a obecných „škodlivých“ pravidel, které se nejčastěji vyskytují při práci s vizualizací dat.

Štítky: Přidat štítky

Darell Huff

Jak lhát pomocí statistik

Překladatel E. Lalayan

Editor A. Černiková

Vědecký redaktor V. Ionov

Projektový manažer A. Derkach

Korektor E. Aksenová

Rozložení počítače K. Sviščev

Design krytu Yu Buga


© Darrell Huff a Irving Geis, 1954

© Publikace v ruštině, překlad, design. Alpina Publisher LLC, 2015


Všechna práva vyhrazena. Dílo je určeno výhradně pro soukromé použití. Žádná část elektronické kopie této knihy nesmí být reprodukována v žádné formě nebo jakýmikoli prostředky, včetně zveřejňování na internetu nebo v podnikových sítích, pro veřejné nebo kolektivní použití bez písemného souhlasu vlastníka autorských práv. Za porušení autorských práv zákon stanoví výplatu náhrady držiteli autorských práv ve výši až 5 milionů rublů (článek 49 zákoníku o správních deliktech), jakož i trestní odpovědnost ve formě odnětí svobody až do výše 6 let (článek 146 trestního zákoníku Ruské federace).

* * *

Existují tři druhy lží: lži, zatracené lži a statistiky.

Benjamin Disraeli

Přijde čas, kdy se statistické myšlení stane pro skutečného občana stejně nezbytnou kvalitou jako schopnost číst a psát.

H. G. Wells

Nezlobí nás ani tak věci, o kterých nevíme, jako věci, o kterých víme, že jsou špatné.

Artemus Ward

Kulatá čísla vždy lžou.

Samuel Johnson

Mám rozsáhlé téma [statistiky] a hodně toho, co bych o tom mohl napsat, jsem si však plně vědom toho, že postrádám literární talent na to, abych je podal jednoduše a přehledně, aniž bych obětoval přesnost a důkladnost.

Sir Francis Galton

Ke čtenáři

Kdybych měl po svém, nazval bych tuto knihu ještě stručněji – „Jak lhát“, protože lež získala přesvědčivost, logiku a hlavně čísla, za kterými se v „šikovných rukách“ schová cokoli. A existuje spousta „šikovných rukou“.

V naší době jsou otázky lži a pravdy stále aktuální. Kromě přímého klamu se objevilo mnoho způsobů, jak „ohnout pravdu“ nebo ukázat realitu tak, že i znalý člověk těžko rozpozná lež, která se za tím skrývá.

Na zkreslování statistik má zájem každý, kdo hledá způsoby, jak deformovat veřejné mínění a využívat toho ke svému obohacení. Je také mnoho těch, kteří chtějí skrýt skutečná čísla, protože odrážejí extrémně nevzhledná fakta. A konečně, statistiky jsou předmětem přímé manipulace, kdykoli jsou součástí vládních rozhodovacích procesů.

V Rusku nebyla situace se statistikami nikdy tak tristní jako nyní. Pokud v 80. a 90. letech. Zatímco v minulém století trpěly oficiální statistiky v Rusku totálním podfinancováním, dnes jsou samotné principy státní a obecní správy v Rusku takové, že statistika se rychle mění z nástroje důvěry v nástroj rozdělování veřejných prostředků.

V nedávném výzkumu Khamovniki Foundation zkoumala Olga Molyarenko velmi podrobně příklady zkreslení komunálních statistik v Rusku. Kvůli nedostatečné spolupráci mezi vládními orgány, používání statistických údajů jako základu pro rozhodování o přidělování rozpočtových prostředků a mnoha dalším ruským charakteristikám čelíme naléhavé potřebě reorganizovat sběr státních statistik jako celku .

Kniha Darrella Huffa není dobrá pro své závěry nebo dokonce pro obrovské množství příkladů, ale protože učí kritickému myšlení, učí nás zacházet s čísly nikoli jako s „posvátnou znalostí“, ale jako s nástrojem, s jehož pomocí je náš názor manipulováno.

A mohu říci, že je to právě kritický pohled, který nám v posledních letech velmi chyběl. Zde je jen jeden příklad. Jedna veřejná organizace v Rusku se rozhodla zveřejnit své hodnocení vnímání korupce. Aby bylo toto hodnocení „vědecké“, bylo rozhodnuto použít jako kritéria absolutní statistické ukazatele, jako jsou statistiky kriminality zveřejněné ministerstvem vnitra a generální prokuraturou. I když dobrý úmysl monitorovat situaci s korupcí u nás lze jen uvítat, samotný přístup je chybný, protože metriky v něm původně vložené jsou chybné.

Výzkumná zpráva „Statistika kriminality: Mechanismy utváření, příčiny zkreslení, způsoby reformy“, připravená zaměstnanci Institutu pro problémy vymáhání práva, analyzuje a velmi podrobně popisuje problémy a důsledky zkreslování právních statistik v Ruské federaci. . Pro člověka vyzbrojeného zjištěními této studie je zcela zřejmé, že hodnocení založená na moderních právních statistikách nemohou být spolehlivá.

Oficiální statistiky se používají minimálně:

Při stanovení rozpočtových dotací;

Při posuzování výkonnosti veřejných obchodních společností;

při přidělování finančních prostředků rozpočtovým institucím;

V městském a regionálním plánování;

Ve finančním a ekonomickém zdůvodnění veřejných a soukromých investic;

Při hodnocení účinnosti vládních programů;


Výsledkem je, že i malá chyba v ukazatelích se změní v nesprávný výpočet základu, na kterém je postaveno obrovské množství závěrů a rozhodnutí.

Dalším významným problémem současné praxe statistického účetnictví je technologické zpoždění moderní statistiky. V situaci, kdy je stát stále více automatizován a sběr mnoha ukazatelů nevyžaduje výběrová šetření organizací ani jejich celkové sčítání, je otázka automatizace získávání statistických dat z vládních informačních systémů stále naléhavější.

Knihu Darrella Huffa lze doporučit jak těm, kteří chtějí přijít na kloub pravdě, tak těm, kteří hledají způsoby, jak ji skrýt nebo záměrně překroutit. Je to zdroj pro každého, kdo se často zapojuje do diskusí o spolehlivosti čísel. Pomůže také těm, kteří hledají způsob, jak dát nespolehlivým údajům větší „legálnost“.

Sice v ní chybí mnoho z toho, na co jsme v moderním světě zvyklí – není tam ani slovo o informačních systémech, o možnostech internetu, o velkých datech, přesto je tato klasická kniha stále aktuální.

Statistika stále zůstává polem interpretace a relativního hodnocení, popis čísel a forma, v níž jsou prezentovány, mají obrovský význam a příklady uvedené v této knize neztratí svůj význam ani v příštích desetiletích.

Tuto knihu doporučuji nejen těm, kteří chtějí porozumět statistice, ale i těm, kteří se zajímají o pravdu a lež a o logiku, na které se dají stavět. Kniha bezesporu stojí za přečtení pro novináře píšící o ekonomii a všech odvětvích, kde jsou důležitá čísla a odhady, tiskové mluvčí a každého, kdo pracuje se statistikou v jakékoli podobě.

Ivan Begtin, Ředitel neziskového partnerství „Information Culture“, člen veřejné rady Federální státní statistické služby

Předmluva k ruskému vydání

Je lidskou přirozeností dělat chyby a zvláště závažné chyby se stávají, když se vyvozují závěry na základě statistických údajů, „studených čísel“. Naše vědomí podivně uznává, že matematika má právo na absolutní pravdu.

Statistika, jak nám říká Darrell Huff ve své bestsellerové knize Jak lhát se statistikou, je ošidné, maskované odvětví matematiky. Jednak operuje s čísly, používá jasnou logiku a srozumitelné výpočetní metody. Na druhou stranu, předmětem statistik, které nás klamou, je vždy lidské chování (nebo postoj člověka k něčemu, dokonce i jeho postoj k druhým lidem). Čísla nás prodávají sami, zabalení do vzorců, statistických rozdělení a bayesovských množin.