Simpsonův paradox je jev ve statistice, při kterém lze ze stejných dat dojít k protichůdným závěrům. A jak lépe to vysvětlit než pomocí korelace mezi bohatstvím, štěstím a bytím kočkou?
Často vyhodnocujeme úspěch léčiv a sociální pomoci
podle počtu lidí, kterým pomohly. Ale to může být špatně. Když léčíme nemoc,
která zasahuje lidi i kočky, a mezi kočkou
a 4 léčenými lidmi kočka a 1 člověk
přežijí a 3 lidé zemřou. A mezi 4 kočkami
a člověkem bez léčení se 3 kočky uzdraví
a 1 kočka člověk zemře.
V opravdovém světě
ta čísla budou spíš 300 a 100, ale tady budou malé,
ať se lépe sledují. V našem vzorku
100 % léčených koček přežije, ale neléčených jen 75 %. 25 % léčených lidí přežije a neléčený nepřežije žádný. Vypadá to, že léčení
zlepšuje šance na přežití. Ale když dáme data dohromady, mezi léčenými lidmi
a kočkami přežije jen 40 %, zatímco mezi neléčenými přežije 60 %.
Vypadá to tak, že léčení
snižuje šanci na uzdravení. Jak to tedy je? Takhle vypadá Simpsonův paradox. Statistický paradox, kdy ze stejných
údajů lze vyvodit různé závěry. Jen podle rozdělení. Statistika to sama nevyřeší.
Musíme jít mimo statistiku
a zjistit kauzalitu těchto událostí. Například když je nemoc
u lidí vážnější a budou častěji léčení, dává smysl,
že méně léčených přežije. I když léčení
zvyšuje šanci na přežití. Protože ti, kteří byli léčení,
už předem měli větší šanci umřít. Kdybychom ale věděli, že lidé jsou častěji
léčení než kočky, protože kočkám nikdo neplatí zdravotní, tak to, že zemřou 4 lidé z 5 a jen 1 ze 4 koček, znamená,
že léčit se může být chyba.
Jestli máte kontrolní skupinu, musíte se ujistit, že s experimentem
nic kauzálně spojeného neovlivňuje, koho léčíte. Když kontrolní skupinu nemáte, musíte s ovlivněním počítat.
Lepší příklad je, že Wisconsin měl lepší výsledky
v testech v 8. třídě než Texas. Možná má tedy lepší školství. Ale když to porovnáte rasu od rasy, která skrz socioekonomické rozdíly
ovlivňuje školní testy, všichni Texaští studenti
Wisconsinské předčili. Černí Texaští studenti
byli lepší než černí Wisconsinští, stejně tak hispánští a běloši.
Rozdíl mezi všemi výsledky je proto, že Wisconsin má méně
černých a hispánských studentů a více bílých studentů než Texas. Ponaučení tedy není,
že Wisconsin má lepší školství než Texas. Ale má lepší socioekonomické
podmínky pro své studenty. Správné porozumění kauzalitám
statistik může mít obrovské důsledky. Někdy jde Simpsonův
paradox hezky znázornit. Jsou dva trendy,
jdou společným směrem, ale celkový trend
mezi nimi je druhým směrem.
Možná jsou bohatší lidé smutnější a stejně tak i bohatší kočky. Ale když jsou od začátku
kočky bohatší a šťastnější než lidé, celkový trend nesprávně ukazuje,
že víc peněz znamená šťastnější život. Tady vás šťastnějším dělá bytí kočkou,
které jsou ale náhodou i bohatší. Můžete to také interpretovat tak,
že víc peněz z vás udělá kočku. To ukazuje, jak je lehké lhát
nebo učinit chybný závěr používáním statistiky bez kontextu.
Samozřejmě to neznamená,
že statistika je vždy paradoxní. Je možné,
že všechno dává od začátku smysl. Kdyby kočky i lidé smutnili,
když jim dáte peníze, a kočky byly chudší
i šťastnější než lidé, celkový trend nebude paradoxní. Víc peněz znamená víc smutku. Je důležité být si vědom
existence takovýchto paradoxů.
A často potřebujeme víc kontextu,
abychom statistice opravdu porozuměli. Překlad: Šaman Bobo
www.videačesky.cz