Cum să minți cu statisticile. Alegeți rezultate care vă susțin ideile

„, în care copiilor li se dau sfaturi, iar copiii, după cum știți, fac totul invers și totul iese corect. Poate că se va rezolva cu orice altceva?

Statistici, infografice, date mari, analiza datelor și știința datelor - asta face toată lumea acum. Toată lumea știe să facă corect toate acestea, rămâne doar ca cineva să scrie cum NU să facă asta. În acest articol, vom face exact asta.

Arta populară despre acest fenomen:

Potrivit votului pe internet, 100% dintre oameni folosesc internetul.
Salariu de absolvent
Nimeni nu a fost surprins că atunci când auzim de salariile absolvenților de facultate, din anumite motive acestea sunt întotdeauna cifre incredibil de mari? În SUA, se ajunge chiar la tribunale, unde absolvenții susțin că datele salariale sunt umflate artificial.


(poza din Cum să minți cu statistici)

Aceasta este o problemă destul de veche, potrivit lui Darrell Huff, o întrebare similară a fost pusă de absolvenții Yale 24th. Și, de fapt, toată lumea spune adevărul, dar nu toți. Colectarea statisticilor s-a desfășurat sub formă de anchete (și în acei ani cu ajutorul poștalei pe hârtie). Departe de toate trimiteți răspunsul, dar doar o mică parte din toți absolvenții; cei care se descurcă bine (ceea ce adesea se traduce prin salarii bune) răspund mai activ decât alții, așa că vedem doar partea „bună” a imaginii. Acesta este ceea ce creează prejudecăți de eșantionare și face ca rezultatele unor astfel de anchete să fie complet inutile.

Alegerea mediei potrivite (Media bine aleasă)

Imaginați-vă o companie în care șeful primește 25 mii, adjunctul său 7,6 mii, managerii de top 5,5 mii, managerii de mijloc 3,5 mii, managerii juniori 2,5 mii și angajații obișnuiți 1,4 mii (lire abstracte) pe lună.

Și sarcina noastră este să prezentăm informațiile despre companie într-o lumină pozitivă. Putem scrie salariu mediuîn companie este X, dar ce face in medie? Luați în considerare opțiunile posibile (vezi diagrama de mai jos):


(poza din Cum să minți cu statistici)

Media aritmetică a unei mulțimi finite X=(x i ) este un număr m egal cu media(X) din ecuație:

Aceasta este cea mai inutilă informație din punctul de vedere al unui angajat - 3.472 este salariul mediu, dar ce explică o cifră atât de mare? Datorita salariilor mari ale managementului, care creeaza iluzia ca angajatul va primi aceeasi suma. Din punctul de vedere al angajatului, această valoare nu este deosebit de informativă.

Desigur, arta populară nu a ocolit această caracteristică a „valorii medii” sub forma mediei aritmetice

Oficialii mănâncă carne, eu mănânc varză. În medie, mâncăm sarmale.

Mediana unei distribuții P(X) (X=(x i )), este o astfel de valoare m încât satisface următoarea ecuație:

Mai simplu spus, jumătate dintre muncitori primesc mai mult decât această valoare și jumătate mai puțin - exact mijlocul distribuției! Această statistică este destul de informativă pentru angajații companiei, deoarece vă permite să determinați cum se compară salariul angajatului cu majoritatea angajaților.

Modul set finit X=(x i ), este numărul m care apare cel mai des în X. În acest caz, moda poate fi cea mai informativă pentru o persoană care urmează să înceapă să lucreze în această companie.

Astfel, in functie de situatie in medie oricare dintre cantitățile de mai sus poate fi înțeleasă (în principiu, și nu numai din ele). Prin urmare, este esențial important să înțelegem cum se calculează această valoare medie.

Și încă 10 experimente eșuate despre care nu am scris

Să scufundăm un ziar obișnuit în acid sulfuric și o revistă TV Park în apă distilată! Simte diferenta? Nu s-a întâmplat nimic cu revista - ziarul este ca nou! (Întregul videoclip.)

Cercetarea noastră arată că pasta de dinți Doake este cu 23% mai eficientă decât concurenții și totul se datorează pudrei de dinți Dr Cornish's! (Care probabil conținea β-caroten și formula secretă a pădurii - nota autorului.) S-ar putea să fiți surprins, dar studiul a fost într-adevăr făcut și chiar a lansat un raport tehnic. Iar experimentul a arătat cu adevărat că pasta de dinți este cu 23% mai eficientă decât concurenții (indiferent ce înseamnă asta). Dar aceasta este toată povestea?

De fapt, eșantionul pentru experiment a fost de doar o duzină de oameni (conform lui Darrell Huff și a cărții deja menționate). Acesta este exact eșantionul necesar pentru a obține orice rezultat! Imaginează-ți că aruncăm o monedă de cinci ori. Care este probabilitatea ca capetele să apară de cinci ori? (1/2) 5 = 1/32. Doar unu treizeci și doi, nu poate fi doar o coincidență dacă toate cele cinci capete ies, nu-i așa? Acum imaginați-vă că repetăm ​​acest experiment de 50 de ori. Cel puțin una dintre aceste încercări va avea succes. Vom scrie despre asta în raport și toate celelalte experimente nu vor merge nicăieri. Astfel, vom obține date extrem de aleatorii care se potrivesc perfect sarcinii noastre.

Jucându-se cu cântarul

Să presupunem că mâine trebuie să arătăm la o întâlnire că am ajuns din urmă cu concurenții, dar cifrele nu converg puțin, ce ar trebui să facem? Să mișcăm puțin cântarul! Chiar și New York Times, cunoscut pentru munca sa de calitate cu date, a lansat un grafic similar complet confuz (observați saltul de la 800k la 1,5 m în centrul scalei).

Ascunderea numerelor potrivite

Cel mai bun mod de a ascunde ceva este de a distrage atenția. De exemplu, luați în considerare dependența numărului de școli private și publice (în mii) de-a lungul anilor. Graficul arată că numărul școlilor publice este în scădere, în timp ce numărul celor private nu se modifică semnificativ.

De fapt, creșterea numărului de școli private este ascunsă de numărul de școli publice. Deoarece diferă printr-un ordin de mărime, de fapt, orice modificări nu vor fi observate la o scară cu un pas suficient de mare. Să redesenăm separat numărul de școli private; acum vedem clar o creștere semnificativă a numărului de școli private, care a fost „ascunsă” în graficul anterior.


(exemplu și grafice din How to Display Data Badly, Howard Wainer. The American Statistician, 1984.)

metaforă vizuală

Dacă nu există nimic cu care să comparați, dar chiar doriți să faceți confuzie, atunci este timpul pentru metafore vizuale de neînțeles. De exemplu, dacă trasăm aria în loc de lungime pe un grafic, atunci orice creștere va apărea mult mai semnificativă.

Luați în considerare consumul de bere din SUA 1970-1978 în milioane de barili și cota de piață a lui Schlitz (vezi graficul de mai jos). Arata bine, minunat. Nu-i așa?

Și acum să scăpăm de „gunoaiele” inutile de pe această diagramă și să o redesenăm în forma sa normală. Deja, cumva, nu atât de impresionant și iese serios.


(grafice și exemple de la John P. Boyd, note de prelegere Cum să grafic rău sau ce. NU trebuie făcut)

Prima poză nu minte, toate numerele din ea sunt corecte, doar că implicit prezintă datele într-o cu totul altă lumină.


(poza din Cum să minți cu statistici).

Un exemplu de vizualizare de înaltă calitate

Vizualizarea de înaltă calitate prezintă în primul rând rezultate, evită ambiguitatea și transmite o cantitate suficientă de informații într-o manieră concisă. Este bine spus despre opera lui Charles-Joseph Minard:
Totul este perfect aici, privitorul nu este luat drept un idiot, și nu-și pierde timpul lipindu-se în cenzură. O dungă bej largă arată dimensiunea armatei în fiecare punct al marșului. În colțul din dreapta sus - Moscova, de unde vine armata franceză și de unde începe retragerea, arătată de dunga neagră. Un grafic de timp și temperatură este atașat traseului de retragere pentru un interes suplimentar.

Concluzia: privitorul uluit compară dimensiunea armatei de la început cu cea care s-a întors acasă. Privitorul este plin de sentimente, a învățat ceva nou, a simțit scara, a fost fascinat, și-a dat seama că nu a învățat nimic la școală.


(Charles Joseph Minard: Retragerea lui Napoleon de la Moscova (Campania Rusiei 1812-1813), 1869.)

Concluzie și lectură ulterioară

76% din toate statisticile sunt luate de la cap

Această colecție acoperă o listă departe de a fi completă de tehnici care distorsionează conștient și inconștient datele. Acest articol demonstrează în primul rând că trebuie să monitorizăm cu atenție statisticile care ni se oferă și concluziile desprinse din acestea.

Lista scurta pentru citiri suplimentare:
Cum să minți cu statisticile este o carte minunată, incredibil de interesantă și bine scrisă, ușor de citit. Demonstrează principalele „greșeli” pe care mass-media (și nu numai ei) le fac atunci când lucrează cu date.
Cum să afișați prost datele. Howard Wainer. The American Statistician (1984) este o colecție de greșeli comune și reguli comune „dăunătoare” întâlnite cel mai des în activitatea de vizualizare a datelor.

Etichete:

  • statistici
  • sfat prost
Adaugă etichete (Engleză) Rusăîn 1954. Ea vorbește despre diferitele moduri în care statisticile pot fi folosite greșit pentru a înșela publicul și pentru a le manipula opiniile. Sunt luate în considerare multe exemple specifice, în principal din viața americană (reclamă, politică, propagandă și agitație).

Prima epigrafă a cărții este un citat din Earl Beaconsfield (B. Disraeli) despre statistică: „Există trei feluri de minciuni: minciuni, minciuni, minciuni obscure și statistici”.

Cartea se adresează cititorului nespecialist și este prevăzută cu ilustrații vii. Materialul este prezentat viu și într-o formă accesibilă, ceea ce a asigurat popularitatea ridicată a cărții - este una dintre publicațiile de statistică cu cea mai mare circulație din a doua jumătate a secolului XX.

Eșantionul este inițial părtinitor

Utilizarea obiectelor grafice asociate cu informațiile prezentate deschide largi oportunități de abuz. Această afirmație este ilustrată de o serie de exemple:

  • Pentru a compara două salarii, poți folosi infografice și trage două pungi de bani. Dacă al doilea salariu este de două ori mai mare decât primul, atunci a doua geantă nu va fi doar mai mare, ci și de două ori mai largă (ceea ce este necesar pentru a menține proporția). Și întrucât geanta este un obiect tridimensional, conturul celui de-al doilea sac va fi de două ori mai gros decât primul. Drept urmare, viziunea noastră percepe a doua geantă ca pe o pungă de 8 (nu de 2!) ori mai mare decât prima. Această tehnică a fost folosită de revista Newsweek.
  • O reclamă pentru Institutul American de Oțel și Aliaje a folosit un infografic pentru a arăta o creștere a producției de oțel între 1930 și 1940 cu 4,25 milioane de tone (de la 10 milioane la 14,25 milioane). Tehnica infografică (la metodele discutate anterior a fost adăugată distorsiunea deliberată a proporțiilor) a condus la faptul că creșterea indicată a topirii a fost percepută vizual ca 1500%. Autorul notează că acesta este cazul când „aritmetica se transformă în fantezie”.
  • Utilizarea imaginilor cu vaci de diferite dimensiuni pentru a arăta producții diferite de lapte de-a lungul anilor. Pe lângă efectele deja discutate, această metodă duce la o altă neînțelegere – cititorul s-ar putea gândi că nu doar producția de lapte este mai mare, ci vacile sunt mai mari.

Figura de mai jos arată un exemplu de abuz infografic - al doilea obiect este vizual de 8 ori mai mare.

Primul pas în colectarea datelor statistice este să determinați ce doriți să analizați. Statisticienii se referă la informația din această etapă ca populație. Apoi trebuie să definiți o subclasă de date care, atunci când sunt analizate, ar trebui să reprezinte întreaga populație ca întreg. Cu cât eșantionul este mai mare și mai precis, cu atât rezultatele studiului vor fi mai precise.

Desigur, există diferite modalități de a distruge un eșantion statistic accidental sau intenționat:

  • Prejudecăți de selecție. Această eroare apare atunci când persoanele care participă la un studiu se identifică ca aparținând unui grup care nu reprezintă întreaga populație.
  • Eșantion aleatoriu. Apare atunci când se analizează informații ușor disponibile, mai degrabă decât să încerce să colecteze date reprezentative. De exemplu, un canal de știri poate efectua un sondaj politic în rândul telespectatorilor săi. Fără a intervieva oameni care urmăresc alte canale (sau nu se uită deloc la televizor), nu se poate spune că rezultatele unui astfel de studiu vor reflecta realitatea.
  • Refuzul respondenților de a participa. O astfel de eroare statistică apare atunci când unele persoane nu răspund la întrebările puse într-un studiu statistic. Acest lucru are ca rezultat afișarea incorectă a rezultatelor. De exemplu, dacă un studiu pune întrebarea: „Ți-ai înșelat vreodată soțul?”, unii pur și simplu nu vor dori să recunoască acest lucru. Drept urmare, se va părea că înșelarea este rară.
  • Sondaje cu acces gratuit. Oricine poate participa la aceste sondaje. Adesea nici măcar nu se verifică de câte ori a răspuns aceeași persoană la întrebări. Un exemplu sunt diversele sondaje de pe Internet. Este foarte interesant să le parcurgem, dar nu pot fi considerate obiective.

Frumusețea părtinirii de selecție este că cineva, undeva, este sigur că va efectua un sondaj neștiințific care va confirma orice teorie aveți. Așa că doar căutați pe web sondajul potrivit sau creați-l pe al dvs.

Alegeți rezultate care vă susțin ideile

Deoarece statisticile folosesc cifre, credem că acestea sunt un argument convingător pentru orice idee. Statistica se bazează pe matematică complexă care, dacă este manipulată greșit, poate duce la rezultate complet opuse.

Pentru a demonstra defectele analizei datelor, matematicianul englez Francis Anscombe a creat Cvartetul Anscombe. Este format din patru seturi de date numerice, care arată complet diferit pe grafice.

În figura X1 este un grafic de dispersie standard; X2 este o curbă care mai întâi urcă și apoi coboară; X3 - o linie care se ridică ușor, cu un outlier pe axa Y; X4 - date pe axa x, cu excepția unui vârf înalt pe ambele axe.

Pentru fiecare dintre grafice, următoarele afirmații sunt adevărate:

  • Medie variabilă X pentru fiecare set de date este 9.
  • Medie variabilă y pentru fiecare set de date este 7,5.
  • Dispersia (împrăștierea) unei variabile X- 11, variabilă y - 4,12.
  • Corelația dintre variabile XȘi y pentru fiecare set de date este 0,816.

Dacă am vedea aceste date doar sub formă de text, am crede că situațiile sunt exact aceleași, deși graficele infirmă acest lucru.

Prin urmare, Anscombe a propus să vizualizeze mai întâi datele și abia apoi să tragă concluzii. Desigur, dacă vrei să induci în eroare pe cineva, sări peste acest pas.

Creați grafice care evidențiază rezultatele dorite

Majoritatea oamenilor nu au timp să-și facă propria analiză statistică. Ei așteaptă să le arăți grafice care rezumă toate cercetările tale. Graficele desenate corect ar trebui să reflecte idei care corespund realității. Dar ele pot sublinia și datele pe care doriți să le afișați.

Omiteți numele unor parametri, schimbați ușor scara pe axele de coordonate, nu explicați contextul. Așa că poți convinge pe toată lumea că ai dreptate.

Ascundeți sursele prin toate mijloacele

Dacă sunteți deschis cu privire la sursele dvs., este ușor pentru oameni să vă verifice concluziile. Desigur, dacă încerci să-i păcăli pe toată lumea, nu spune nimănui cum ai ajuns la concluziile tale.

De obicei, articolele și studiile oferă întotdeauna link-uri către surse. În același timp, este posibil ca lucrările originale să nu fie furnizate în întregime. Principalul lucru este că sursa răspunde la următoarele întrebări:

Acum știi cum să manipulezi numerele și să folosești statisticile pentru a dovedi aproape orice. Acest lucru vă va ajuta să recunoașteți minciunile și să infirmați teoriile fabricate.

„, în care copiilor li se dau sfaturi, iar copiii, după cum știți, fac totul invers și totul iese corect. Poate că se va rezolva cu orice altceva?

Statistici, infografice, date mari, analiza datelor și știința datelor - asta face toată lumea acum. Toată lumea știe să facă corect toate acestea, rămâne doar ca cineva să scrie cum NU să facă asta. În acest articol, vom face exact asta.

Arta populară despre acest fenomen:

Potrivit votului pe internet, 100% dintre oameni folosesc internetul.
Salariu de absolvent
Nimeni nu a fost surprins că atunci când auzim de salariile absolvenților de facultate, din anumite motive acestea sunt întotdeauna cifre incredibil de mari? În SUA, se ajunge chiar la tribunale, unde absolvenții susțin că datele salariale sunt umflate artificial.


(poza din Cum să minți cu statistici)

Aceasta este o problemă destul de veche, potrivit lui Darrell Huff, o întrebare similară a fost pusă de absolvenții Yale 24th. Și, de fapt, toată lumea spune adevărul, dar nu toți. Colectarea statisticilor s-a desfășurat sub formă de anchete (și în acei ani cu ajutorul poștalei pe hârtie). Departe de toate trimiteți răspunsul, dar doar o mică parte din toți absolvenții; cei care se descurcă bine (ceea ce adesea se traduce prin salarii bune) răspund mai activ decât alții, așa că vedem doar partea „bună” a imaginii. Acesta este ceea ce creează prejudecăți de eșantionare și face ca rezultatele unor astfel de anchete să fie complet inutile.

Alegerea mediei potrivite (Media bine aleasă)

Imaginați-vă o companie în care șeful primește 25 mii, adjunctul său 7,6 mii, managerii de top 5,5 mii, managerii de mijloc 3,5 mii, managerii juniori 2,5 mii și angajații obișnuiți 1,4 mii (lire abstracte) pe lună.

Și sarcina noastră este să prezentăm informațiile despre companie într-o lumină pozitivă. Putem scrie salariu mediuîn companie este X, dar ce face in medie? Luați în considerare opțiunile posibile (vezi diagrama de mai jos):


(poza din Cum să minți cu statistici)

Media aritmetică a unei mulțimi finite X=(x i ) este un număr m egal cu media(X) din ecuație:

Aceasta este cea mai inutilă informație din punctul de vedere al unui angajat - 3.472 este salariul mediu, dar ce explică o cifră atât de mare? Datorita salariilor mari ale managementului, care creeaza iluzia ca angajatul va primi aceeasi suma. Din punctul de vedere al angajatului, această valoare nu este deosebit de informativă.

Desigur, arta populară nu a ocolit această caracteristică a „valorii medii” sub forma mediei aritmetice

Oficialii mănâncă carne, eu mănânc varză. În medie, mâncăm sarmale.

Mediana unei distribuții P(X) (X=(x i )), este o astfel de valoare m încât satisface următoarea ecuație:

Mai simplu spus, jumătate dintre muncitori primesc mai mult decât această valoare și jumătate mai puțin - exact mijlocul distribuției! Această statistică este destul de informativă pentru angajații companiei, deoarece vă permite să determinați cum se compară salariul angajatului cu majoritatea angajaților.

Modul set finit X=(x i ), este numărul m care apare cel mai des în X. În acest caz, moda poate fi cea mai informativă pentru o persoană care urmează să înceapă să lucreze în această companie.

Astfel, in functie de situatie in medie oricare dintre cantitățile de mai sus poate fi înțeleasă (în principiu, și nu numai din ele). Prin urmare, este esențial important să înțelegem cum se calculează această valoare medie.

Și încă 10 experimente eșuate despre care nu am scris

Să scufundăm un ziar obișnuit în acid sulfuric și o revistă TV Park în apă distilată! Simte diferenta? Nu s-a întâmplat nimic cu revista - ziarul este ca nou! (Întregul videoclip.)

Cercetarea noastră arată că pasta de dinți Doake este cu 23% mai eficientă decât concurenții și totul se datorează pudrei de dinți Dr Cornish's! (Care probabil conținea β-caroten și formula secretă a pădurii - nota autorului.) S-ar putea să fiți surprins, dar studiul a fost într-adevăr făcut și chiar a lansat un raport tehnic. Iar experimentul a arătat cu adevărat că pasta de dinți este cu 23% mai eficientă decât concurenții (indiferent ce înseamnă asta). Dar aceasta este toată povestea?

De fapt, eșantionul pentru experiment a fost de doar o duzină de oameni (conform lui Darrell Huff și a cărții deja menționate). Acesta este exact eșantionul necesar pentru a obține orice rezultat! Imaginează-ți că aruncăm o monedă de cinci ori. Care este probabilitatea ca capetele să apară de cinci ori? (1/2) 5 = 1/32. Doar unu treizeci și doi, nu poate fi doar o coincidență dacă toate cele cinci capete ies, nu-i așa? Acum imaginați-vă că repetăm ​​acest experiment de 50 de ori. Cel puțin una dintre aceste încercări va avea succes. Vom scrie despre asta în raport și toate celelalte experimente nu vor merge nicăieri. Astfel, vom obține date extrem de aleatorii care se potrivesc perfect sarcinii noastre.

Jucându-se cu cântarul

Să presupunem că mâine trebuie să arătăm la o întâlnire că am ajuns din urmă cu concurenții, dar cifrele nu converg puțin, ce ar trebui să facem? Să mișcăm puțin cântarul! Chiar și New York Times, cunoscut pentru munca sa de calitate cu date, a lansat un grafic similar complet confuz (observați saltul de la 800k la 1,5 m în centrul scalei).

Ascunderea numerelor potrivite

Cel mai bun mod de a ascunde ceva este de a distrage atenția. De exemplu, luați în considerare dependența numărului de școli private și publice (în mii) de-a lungul anilor. Graficul arată că numărul școlilor publice este în scădere, în timp ce numărul celor private nu se modifică semnificativ.

De fapt, creșterea numărului de școli private este ascunsă de numărul de școli publice. Deoarece diferă printr-un ordin de mărime, de fapt, orice modificări nu vor fi observate la o scară cu un pas suficient de mare. Să redesenăm separat numărul de școli private; acum vedem clar o creștere semnificativă a numărului de școli private, care a fost „ascunsă” în graficul anterior.


(exemplu și grafice din How to Display Data Badly, Howard Wainer. The American Statistician, 1984.)

metaforă vizuală

Dacă nu există nimic cu care să comparați, dar chiar doriți să faceți confuzie, atunci este timpul pentru metafore vizuale de neînțeles. De exemplu, dacă trasăm aria în loc de lungime pe un grafic, atunci orice creștere va apărea mult mai semnificativă.

Luați în considerare consumul de bere din SUA 1970-1978 în milioane de barili și cota de piață a lui Schlitz (vezi graficul de mai jos). Arata bine, minunat. Nu-i așa?

Și acum să scăpăm de „gunoaiele” inutile de pe această diagramă și să o redesenăm în forma sa normală. Deja, cumva, nu atât de impresionant și iese serios.


(grafice și exemple de la John P. Boyd, note de prelegere Cum să grafic rău sau ce. NU trebuie făcut)

Prima poză nu minte, toate numerele din ea sunt corecte, doar că implicit prezintă datele într-o cu totul altă lumină.


(poza din Cum să minți cu statistici).

Un exemplu de vizualizare de înaltă calitate

Vizualizarea de înaltă calitate prezintă în primul rând rezultate, evită ambiguitatea și transmite o cantitate suficientă de informații într-o manieră concisă. Este bine spus despre opera lui Charles-Joseph Minard:
Totul este perfect aici, privitorul nu este luat drept un idiot, și nu-și pierde timpul lipindu-se în cenzură. O dungă bej largă arată dimensiunea armatei în fiecare punct al marșului. În colțul din dreapta sus - Moscova, de unde vine armata franceză și de unde începe retragerea, arătată de dunga neagră. Un grafic de timp și temperatură este atașat traseului de retragere pentru un interes suplimentar.

Concluzia: privitorul uluit compară dimensiunea armatei de la început cu cea care s-a întors acasă. Privitorul este plin de sentimente, a învățat ceva nou, a simțit scara, a fost fascinat, și-a dat seama că nu a învățat nimic la școală.


(Charles Joseph Minard: Retragerea lui Napoleon de la Moscova (Campania Rusiei 1812-1813), 1869.)

Concluzie și lectură ulterioară

76% din toate statisticile sunt luate de la cap

Această colecție acoperă o listă departe de a fi completă de tehnici care distorsionează conștient și inconștient datele. Acest articol demonstrează în primul rând că trebuie să monitorizăm cu atenție statisticile care ni se oferă și concluziile desprinse din acestea.

Lista scurta pentru citiri suplimentare:
Cum să minți cu statisticile este o carte minunată, incredibil de interesantă și bine scrisă, ușor de citit. Demonstrează principalele „greșeli” pe care mass-media (și nu numai ei) le fac atunci când lucrează cu date.
Cum să afișați prost datele. Howard Wainer. The American Statistician (1984) este o colecție de greșeli comune și reguli comune „dăunătoare” întâlnite cel mai des în activitatea de vizualizare a datelor.

Etichete: Adăugați etichete

Darell Huff

Cum să minți cu statisticile

Traducător E. Lalayan

Editor A. Cernikova

Editor științific V. Ioanov

Manager de proiect A. Derkach

Corector E. Aksenova

Dispunerea computerului K. Svișciov

Design coperta Y. Buga


© 1954 Darrell Huff și Irving Geis

© Ediție în rusă, traducere, design. Alpina Publisher LLC, 2015


Toate drepturile rezervate. Lucrarea este destinată exclusiv uzului privat. Nicio parte a copiei electronice a acestei cărți nu poate fi reprodusă sub nicio formă sau prin orice mijloc, inclusiv postarea pe Internet și în rețelele corporative, pentru uz public sau colectiv, fără permisiunea scrisă a proprietarului drepturilor de autor. Pentru încălcarea drepturilor de autor, legislația prevede plata unei despăgubiri deținătorului drepturilor de autor în valoare de până la 5 milioane de ruble (articolul 49 din LOAP), precum și răspunderea penală sub formă de închisoare de până la 6 ani (articolul 146 din Codul penal al Federației Ruse).

* * *

Există trei feluri de minciuni: minciuni, minciuni blestemate și statistici.

Benjamin Disraeli

Va veni vremea când gândirea statistică va deveni o calitate la fel de necesară pentru un adevărat cetățean ca și capacitatea de a citi și de a scrie.

H. G. Wells

Nu atât lucrurile pe care nu le știm despre noi ne enervează, ci lucrurile pe care le știm că e ceva în neregulă cu ele.

Artemus Ward

Numerele rotunde mint întotdeauna.

Samuel Johnson

Am un subiect vast [statistică] și multe despre care să scriu pe acest subiect, dar sunt foarte conștient că îmi lipsește talentul literar de a o prezenta simplu și lucid, fără a sacrifica acuratețea și minuțiozitatea.

Sir Francis Galton

Pentru cititor

Dacă aș avea drumul meu, aș numi această carte și mai scurtă - „Cum să minți”, pentru că minciuna a căpătat persuasivitate, logică și, mai important, cifre, în spatele cărora orice poate fi ascuns în „mâinile pricepute”. Și există o mulțime de „mâini pricepute”.

În vremea noastră, întrebările minciunii și adevărului sunt încă relevante. Pe lângă înșelăciunea totală, există multe modalități de a „încercui adevărul” sau de a arăta realitatea în așa fel încât chiar și unei persoane informate îi este greu să recunoască minciuna din spatele lui.

Toți cei care caută modalități de a denatura opinia publică și de a o folosi pentru propria lor îmbogățire sunt interesați de distorsionarea statisticilor. Sunt și mulți care doresc să ascundă numerele reale, deoarece reflectă fapte extrem de inestetice. În cele din urmă, statisticile sunt supuse manipulării directe ori de câte ori fac parte din procesele naționale de luare a deciziilor.

În Rusia, situația cu statisticile nu a fost niciodată atât de tristă ca acum. Dacă în anii 80 și 90. al secolului trecut, statisticile oficiale din Rusia au suferit de subfinanțare totală, dar astăzi înseși principiile guvernării de stat și municipale din Rusia sunt de așa natură încât statistica se transformă rapid dintr-un instrument de încredere într-un instrument de distribuire a fondurilor publice.

În cercetările recente ale Fundației Khamovniki, Olga Molyarenko a analizat în detaliu exemple de denaturare a statisticilor municipale din Rusia. Din cauza lipsei de cooperare între autorități, a utilizării datelor statistice ca bază pentru luarea deciziilor privind alocarea fondurilor bugetare și a multor alte caracteristici rusești, ne confruntăm cu necesitatea urgentă de a reorganiza colectarea statisticilor de stat în ansamblu. .

Cartea lui Darrell Huff nu este bună pentru concluziile sale sau chiar pentru un număr imens de exemple, ci pentru faptul că învață gândirea critică, învață atitudinea față de numere nu ca „cunoaștere sacră”, ci ca instrument cu care să ne manipulăm opinia. .

Și pot spune că tocmai viziunea critică ne-a lipsit foarte mult în ultimii ani. Iată doar un exemplu. Un ONG din Rusia a decis să-și publice Indexul de percepție a corupției. Pentru ca acest clasament să fie „științific”, s-a decis să se utilizeze ca criterii indicatori statistici absoluti, precum statisticile criminalității publicate de Ministerul Afacerilor Interne și Parchetul General. Deși buna intenție de a monitoriza situația cu corupția din țara noastră nu poate fi decât salutată, abordarea în sine este eronată, deoarece metricile stabilite inițial în aceasta sunt eronate.

Raportul de cercetare „Statistică penală: mecanisme de formare, cauze de denaturare, modalități de reformă”, întocmit de personalul Institutului pentru problemele de aplicare a legii, analizează și descrie în detaliu problemele și consecințele distorsionării statisticilor juridice în limba rusă. Federaţie. Pentru o persoană înarmată cu concluziile acestui studiu, este destul de evident că evaluările bazate pe statisticile juridice moderne nu pot fi de încredere.

Statisticile oficiale sunt utilizate cel puțin:

La stabilirea subvențiilor bugetare;

La evaluarea activităților companiilor publice;

La alocarea fondurilor către instituțiile bugetare;

În planificarea orașului și a districtului;

În justificarea financiară și economică a investițiilor publice și private;

În evaluarea eficacității programelor guvernamentale;


Drept urmare, chiar și o mică eroare a indicatorilor se transformă într-o greșeală de calcul în fundația pe care se construiesc un număr mare de concluzii și decizii.

O altă problemă importantă a practicii existente a contabilității statistice este înapoierea tehnologică a statisticii moderne. Într-o situație în care statul devine din ce în ce mai automatizat și colectarea multor indicatori nu necesită anchete selective ale organizațiilor sau recensământul total al acestora, problema automatizării extragerii datelor statistice din sistemele informaționale ale statului devine din ce în ce mai acută.

Cartea lui Darrell Huff poate fi recomandată atât celor care vor să ajungă la fundul adevărului, cât și celor care caută modalități de a-l ascunde sau de a-l denatura în mod deliberat. Este un ajutor pentru toți cei care participă adesea la discuții despre fiabilitatea cifrelor. De asemenea, îi va ajuta pe cei care caută o modalitate de a face datele false mai „legale”.

Deși îi lipsește mult din ceea ce suntem obișnuiți în lumea modernă - nu există o vorbă despre sistemele informaționale, despre posibilitățile internetului, despre big data, totuși, această carte clasică este încă relevantă.

Statistica este încă un domeniu de interpretare și valoare relativă, descrierea numerelor și modul în care sunt prezentate sunt de mare importanță, iar exemplele date în această carte nu își vor pierde semnificația pentru deceniile următoare.

Recomand această carte nu doar celor care vor să înțeleagă statistica, ci și celor care sunt interesați de adevăr și minciună, precum și de logica pe care se pot construi. Cartea merită, fără îndoială, citită pentru jurnaliștii care scriu despre economie și orice industrie în care cifrele și estimările sunt importante, ofițerii de presă și oricine lucrează cu statistici sub orice formă.

Ivan Begtin, director al parteneriatului non-profit „Cultura informației”, membru al consiliului public la Serviciul Federal de Statistică a Statului

Prefață la ediția rusă

A greși este uman și apar erori mai ales grave atunci când concluziile se bazează pe date statistice, „numere reci”. Conștiința noastră recunoaște într-un mod ciudat dreptul matematicii la adevărul absolut.

Statistica, așa cum ne spune Darrell Huff în cea mai bine vândută carte a sa How to Lie with Statistics, este o ramură atât de complicată și camuflata a matematicii. Pe de o parte, operează cu numere, folosește o logică clară și metode de calcul ușor de înțeles. Pe de altă parte, subiectul statisticilor care ne înșală este întotdeauna comportamentul uman (sau atitudinea unei persoane față de ceva, până la atitudinea față de alți oameni). Numerele ne vinde pe noi înșine, învăluite în formule, distribuții statistice și mulțimi bayesiene.