Simpsonův paradoxMinutePhysics
13
Simpsonův paradox je jev ve statistice, při kterém lze ze stejných dat dojít k protichůdným závěrům. A jak lépe to vysvětlit než pomocí korelace mezi bohatstvím, štěstím a bytím kočkou?
Přepis titulků
Často vyhodnocujeme úspěch léčiv a sociální pomoci
podle počtu lidí, kterým pomohly. Ale to může být špatně. Když léčíme nemoc,
která zasahuje lidi i kočky, a mezi kočkou
a 4 léčenými lidmi kočka a 1 člověk
přežijí a 3 lidé zemřou. A mezi 4 kočkami
a člověkem bez léčení se 3 kočky uzdraví
a 1 kočka člověk zemře.
V opravdovém světě ta čísla budou spíš 300 a 100, ale tady budou malé, ať se lépe sledují. V našem vzorku 100 % léčených koček přežije, ale neléčených jen 75 %. 25 % léčených lidí přežije a neléčený nepřežije žádný. Vypadá to, že léčení zlepšuje šance na přežití. Ale když dáme data dohromady, mezi léčenými lidmi a kočkami přežije jen 40 %, zatímco mezi neléčenými přežije 60 %.
Vypadá to tak, že léčení snižuje šanci na uzdravení. Jak to tedy je? Takhle vypadá Simpsonův paradox. Statistický paradox, kdy ze stejných údajů lze vyvodit různé závěry. Jen podle rozdělení. Statistika to sama nevyřeší.
Musíme jít mimo statistiku a zjistit kauzalitu těchto událostí. Například když je nemoc u lidí vážnější a budou častěji léčení, dává smysl, že méně léčených přežije. I když léčení zvyšuje šanci na přežití. Protože ti, kteří byli léčení, už předem měli větší šanci umřít. Kdybychom ale věděli, že lidé jsou častěji léčení než kočky, protože kočkám nikdo neplatí zdravotní, tak to, že zemřou 4 lidé z 5 a jen 1 ze 4 koček, znamená, že léčit se může být chyba.
Jestli máte kontrolní skupinu, musíte se ujistit, že s experimentem nic kauzálně spojeného neovlivňuje, koho léčíte. Když kontrolní skupinu nemáte, musíte s ovlivněním počítat.
Lepší příklad je, že Wisconsin měl lepší výsledky v testech v 8. třídě než Texas. Možná má tedy lepší školství. Ale když to porovnáte rasu od rasy, která skrz socioekonomické rozdíly ovlivňuje školní testy, všichni Texaští studenti Wisconsinské předčili. Černí Texaští studenti byli lepší než černí Wisconsinští, stejně tak hispánští a běloši.
Rozdíl mezi všemi výsledky je proto, že Wisconsin má méně černých a hispánských studentů a více bílých studentů než Texas. Ponaučení tedy není, že Wisconsin má lepší školství než Texas. Ale má lepší socioekonomické podmínky pro své studenty. Správné porozumění kauzalitám statistik může mít obrovské důsledky. Někdy jde Simpsonův paradox hezky znázornit. Jsou dva trendy, jdou společným směrem, ale celkový trend mezi nimi je druhým směrem.
Možná jsou bohatší lidé smutnější a stejně tak i bohatší kočky. Ale když jsou od začátku kočky bohatší a šťastnější než lidé, celkový trend nesprávně ukazuje, že víc peněz znamená šťastnější život. Tady vás šťastnějším dělá bytí kočkou, které jsou ale náhodou i bohatší. Můžete to také interpretovat tak, že víc peněz z vás udělá kočku. To ukazuje, jak je lehké lhát nebo učinit chybný závěr používáním statistiky bez kontextu.
Samozřejmě to neznamená, že statistika je vždy paradoxní. Je možné, že všechno dává od začátku smysl. Kdyby kočky i lidé smutnili, když jim dáte peníze, a kočky byly chudší i šťastnější než lidé, celkový trend nebude paradoxní. Víc peněz znamená víc smutku. Je důležité být si vědom existence takovýchto paradoxů.
A často potřebujeme víc kontextu, abychom statistice opravdu porozuměli. Překlad: Šaman Bobo www.videačesky.cz
V opravdovém světě ta čísla budou spíš 300 a 100, ale tady budou malé, ať se lépe sledují. V našem vzorku 100 % léčených koček přežije, ale neléčených jen 75 %. 25 % léčených lidí přežije a neléčený nepřežije žádný. Vypadá to, že léčení zlepšuje šance na přežití. Ale když dáme data dohromady, mezi léčenými lidmi a kočkami přežije jen 40 %, zatímco mezi neléčenými přežije 60 %.
Vypadá to tak, že léčení snižuje šanci na uzdravení. Jak to tedy je? Takhle vypadá Simpsonův paradox. Statistický paradox, kdy ze stejných údajů lze vyvodit různé závěry. Jen podle rozdělení. Statistika to sama nevyřeší.
Musíme jít mimo statistiku a zjistit kauzalitu těchto událostí. Například když je nemoc u lidí vážnější a budou častěji léčení, dává smysl, že méně léčených přežije. I když léčení zvyšuje šanci na přežití. Protože ti, kteří byli léčení, už předem měli větší šanci umřít. Kdybychom ale věděli, že lidé jsou častěji léčení než kočky, protože kočkám nikdo neplatí zdravotní, tak to, že zemřou 4 lidé z 5 a jen 1 ze 4 koček, znamená, že léčit se může být chyba.
Jestli máte kontrolní skupinu, musíte se ujistit, že s experimentem nic kauzálně spojeného neovlivňuje, koho léčíte. Když kontrolní skupinu nemáte, musíte s ovlivněním počítat.
Lepší příklad je, že Wisconsin měl lepší výsledky v testech v 8. třídě než Texas. Možná má tedy lepší školství. Ale když to porovnáte rasu od rasy, která skrz socioekonomické rozdíly ovlivňuje školní testy, všichni Texaští studenti Wisconsinské předčili. Černí Texaští studenti byli lepší než černí Wisconsinští, stejně tak hispánští a běloši.
Rozdíl mezi všemi výsledky je proto, že Wisconsin má méně černých a hispánských studentů a více bílých studentů než Texas. Ponaučení tedy není, že Wisconsin má lepší školství než Texas. Ale má lepší socioekonomické podmínky pro své studenty. Správné porozumění kauzalitám statistik může mít obrovské důsledky. Někdy jde Simpsonův paradox hezky znázornit. Jsou dva trendy, jdou společným směrem, ale celkový trend mezi nimi je druhým směrem.
Možná jsou bohatší lidé smutnější a stejně tak i bohatší kočky. Ale když jsou od začátku kočky bohatší a šťastnější než lidé, celkový trend nesprávně ukazuje, že víc peněz znamená šťastnější život. Tady vás šťastnějším dělá bytí kočkou, které jsou ale náhodou i bohatší. Můžete to také interpretovat tak, že víc peněz z vás udělá kočku. To ukazuje, jak je lehké lhát nebo učinit chybný závěr používáním statistiky bez kontextu.
Samozřejmě to neznamená, že statistika je vždy paradoxní. Je možné, že všechno dává od začátku smysl. Kdyby kočky i lidé smutnili, když jim dáte peníze, a kočky byly chudší i šťastnější než lidé, celkový trend nebude paradoxní. Víc peněz znamená víc smutku. Je důležité být si vědom existence takovýchto paradoxů.
A často potřebujeme víc kontextu, abychom statistice opravdu porozuměli. Překlad: Šaman Bobo www.videačesky.cz
Komentáře (29)
jjkOdpovědět
20.01.2019 12:22:38
Mně osobně vadí, že nepoužil větší čísla. Nemyslím si, že je zrovna ve statistice příklad "1 kočka vs. 4 kočky" názornější - první situace má buď 0 % nebo 100 % a na tom ne sedá nic rozumného ukazovat.
MikeOdpovědět
18.12.2018 21:59:36
"Korelace neimplikuje kauzalitu"
Tohle se učí už na střední škole. Tak nevím, co je na tom tak překvapivého. ;)
jjkOdpovědět
20.01.2019 12:24:20
Pokud si stále pamatuješ všechno, co se učí na střední škole, pak velký obdiv. ;-)
Mimo to, na mé střední jsme tak daleko ve statistice nedošli.
Miq (anonym)Odpovědět
08.12.2018 16:15:15
U těch testů jsou ty socioekonomické podmínky zavádějící. Běloši mají jednoduše vyšší průměrné IQ než černoši.
Šaman Bobo (Překladatel)Odpovědět
09.12.2018 20:48:22
Ach ano, jak je krásné shrnout problematiku, na které se neshodne ani vědecká komunita, do jedné věty, ještě se slůvkem "jednoduše".
Tak pár mouder z wiki:
Pravda, běloši mají vyšší průměrné IQ než černoši.
Socioekonomické podmínky ale faktorem IQ testů jsou. I když hlavně ve věku do 20 let, pak rozdíl téměř vymizí.
Každopádně na otázku proč se IQ u různých ras liší a zda je to dáno právě rasou, jednoduše nemáme jednoznačnou (a nezaujatou) odpověď.
rum (anonym)Odpovědět
16.12.2018 19:24:11
+Šaman BoboTo není úplně pravda,na toto téma existuje spoustu studií a literatury. Z českých knih se dá doporučit Tabu v sociálních vědách od Petra Bakaláře. Ve zkratce, černý maj nižší IQ díky evoluci a prostředí ve kterém se vyvíjeli. V Africe nebylo vysoké IQ tolik potřeba jako například rychlejší reprodukce atd. Zatímco pro bílý a asiaty bylo vysoké IQ (kvůli době ledové) životně důležitý.
Takže jo, je to i celkem jednoduchý
Miq (anonym)Odpovědět
23.12.2018 22:37:06
+Šaman BoboAno, napsal jsem jedno slovo se slůvkem "jednoduše". Nicméně není to můj osobní názor nepodložený informacemi, ale holý fakt. Doporučuji si přečíst velmi strohou, ale informacemi nahuštěnou knihu: Lidské rasy, evoluce a chování z pohledu životní strategie. Autor knihy má i (přeložené) video na youtube, najdete pod heslem: Poznatky o rasách - IQ, kriminalita, tělesná stavba.
Můžeme tedy říct, že nevýhodné socioekonomické podmínky jsou výsledkem nižšího IQ.
Alberto123Odpovědět
26.12.2018 23:05:38
+MiqBlbost a značně veliká. Inteligenční kvocient, zkráceně IQ, je standardizované skóre používané jako výstup standardizovaných inteligenčních (a jiných výkonových) psychologických testů k vyčíslení inteligence člověka v poměru k ostatní populaci (respektive k dané skupině). Což znamená že IQ je souhrn všeho co má vliv na inteligenci v danou dobu. IQ tedy není absolutní veličina která se nemění ba právě naopak. Pro více informací doporučuji třeba wiki.
CobraOdpovědět
07.12.2018 18:44:34
mali by ste do svojho prehrávača implementovať možnosť pustiť video rýchlejšie/pomalšie, tak ako to má aj YT
KachlasOdpovědět
07.12.2018 14:40:09
Já studentům rád uvádím přiklad špatné interpretace statistických dat na případu se žraloky. Nejmenovaný článek dával do souvislosti počet napadení člověka žralokem a teplotu mořské vody. Čím byla teplota vody vyšší, tím bylo registrováno více útoků. Závěr z toho vyvodili jasný - s rostoucí teplotou vody se zvyšuje agresivita těchto zvířat. Bohužel už nikoho nenapadlo, že ve studené vodě se skoro nikdo nekoupe a útok je tedy sám o sobě méně pravděpodobný ;o)
hhh (anonym)Odpovědět
07.12.2018 21:22:16
to je tak ked vyskum nechas robit dementov bez kritickeho myslenia
statistika (anonym)Odpovědět
10.12.2018 22:50:22
Korelace neimplikuje kauzalitu. Je to zajímavá věc.
Petr ObergruberOdpovědět
06.12.2018 23:58:37
Protože mě dost děsí komentáře pod videem, tak přidám vlastní:
Video, které tu je, mluví o zvláštním případu jedné konkrétní analýzy (korelační a regresní analýza). Není to něco, co by se objevovalo v 50 % statistického výzkumu a každý statistik by si ze závěrů mohl udělat trhací kalendář. Ale i kdyby to tak bylo, lidé, kteří studují statistiku (nebo ji běžně používají) mají zájem na tom, aby byly jejich závěry správné. Proto si dávají záležet na tom, aby nepřišli s pitomostí jako "více peněz z vás udělá kočku". Tyto zkratky a absurdity jsou dílem novinářů, kteří převezmou nějakou část výzkumu, nepochopí ji, zkomolí, zjednoduší a pak napíšou titulek: "Američtí vědci zjistili, že...".
Nejen že statistika nelže, statistika je to nejpravdivější co vůbec máme k dispozici. Je to nástroj, který dovoluje objevovat objektivní pravdu. Má to však háček - statistika není intuitivní, není jednoduchá, není pro každého a detaily jsou důležité. Právě detaily a metodologické postupy, které jsou pro statistika běžné, jsou v tomto videu vynechány, protože to má být populární video, ne přednáška z matfyzu. Všechny tyhle překážky jsou důvodem, proč většina diskutujících (nehledě na to, že mnoho z nich má určitě vysokou) nemá o statistice ani páru - je nudná, komplikovaná, obtížně pochopitelná, jsou tam grafy a než začnete něco počítat, musíte splnit mraky podmínek, u kterých nevíte proč tam jsou. To, že statistika je víc, než aritmetický průměr znamená, že některé věci jsou příliš komplikované na to, aby se dali spočítat s papírem a tužkou. Zkuste si jen zadat do Googlu heslo "RStudio" a klikněte na obrázky. Vypadá to složitě? A to nevíte ani setinu.
Toto není hejt na lidi, že neumí statistiku. Většina lidí ji neumí. A dá se s tím v pohodě žít. Uvědomte si ale, že je to komplikovaný nástroj, kterému se lidé mohou věnovat i celý život. A díky statistice si ostatní mohou užívat její výsledky, jako spolehlivé léky, zdravotní pojištění, hypotéky, spolehlivé MHD, Amazon, předpověď počasí a milion dalších viditelných či neviditelných věcí.
Statistika je nuda - ok, chápu. Statistika je chladnokrevná - ano, s tím cílem byla vymyšlena. Je to pruda pro studenty a zbytečnost pro většinu lidí - ok, chápu. Ale odpusťme si kecy o lživé statistice, zfalšovaných výpočtech, flexibilních závěrech a pitomém Churchilově výroku (který nikdy neřekl btw), že nevěřím statistice, kterou si sám nesfalšuju. Zeptejte se sami sebe, čemu nejsložitějšímu rozumíte? A jak vás vytáčí, když se vám do toho montuje někdo, kdo tomu nerozumí se svými "skvělými" radami z vysoké školy života. Ok, tak statistika je pravděpodobně o hodně komplikovanější, než ta věc, která vás napadla. Tak se nemusíme všichni tvářit, jak máme ty statistiky na háku a jak my víme líp.
Omlouvám se za dlouhý příspěvek, přidal bych bramboru, ale obrázky se vložit nedají.
TStancekOdpovědět
07.12.2018 08:02:16
Ono to je ale populistické účelně. Nesnaží se to shodit statistiku, ale trochu zasvětit masy do komplexnosti statistiky a v lepším případě otevřít nezasvěceným oči, aby slepě nevěřili všemu, co se v novinách dočtou, právě proto, že misinterpretace zdánlivě jednoznačných statistických údajů je klidně možná.
Alfik (anonym)Odpovědět
07.12.2018 12:48:58
Napsal jsi to líp než bych to napsal sám. Dal jsem ti (přes to že tuto metodu nemám rád :) ) palec nahoru.
:) (anonym)Odpovědět
08.12.2018 11:23:19
Dala bych palec nahoru, i kdyby na konci nebyla zmíněná brambora. Ale za tu máš plus navíc.
MarekSVK32 (anonym)Odpovědět
06.12.2018 19:34:55
2:28 Toto je dokonalá ukážka stavu našej spoločnosti. Aj keď máte všetky dáta dostupné a priamo pred sebou. Ešte aj dielčie závery poviete správne tak záver nikdy nesmiete povedať nahlas a musíte ho politicky korektne zabaliť.
Jo mimochodom vznikla platforma kde vedci môžu publikovať svoje peer reviewed štúdie anonymne aby im už nechodili vyhrážky smrťou. Vitajte v roku 2018
Klásek (anonym)Odpovědět
06.12.2018 17:24:43
ten příklad s tím Wisconsinem a Texasem, nejde z toho udělat závěr, že běloši jsou prostě lepší studenti než studenti jiné rasy ? nikoliv socioekonomickým faktorem?
Korektorka (anonym)Odpovědět
06.12.2018 18:14:26
Gratuluji, právě jsi názorně předvedl pravdivost výroku, který zazní ve videu, a sice toho, "jak je lehké lhát nebo učinit chybný závěr používáním statistiky bez kontextu."
Klásek (anonym)Odpovědět
06.12.2018 21:52:00
+KorektorkaReaguji na čísla, nic co by blíže specifikovalo, nebo blíže vysvětlilo ten "socioekonomický faktor" nebylo vysvětleno, tudíž, ne já, ale oni předvedli názorný příklad špatného příkladu kontextu. Kde je srovnání, podle kterého se máme držet, já jenom vidím čísla odpovídající rase (ano, zní to rasisticky, přiznávám)
JardaHol (anonym)Odpovědět
07.12.2018 14:48:58
+KlásekAno, máš pravdu - v tomto příkladu jsou prostě běloši lepší, než ostatní rasy.
Nicméně nejsou lepší proto, že mají bílou kůži, ale proto, že mají lepší socioekonomické podmínky (to je tam zmíněno trochu nejasně...)
erorrek (anonym)Odpovědět
07.12.2018 21:27:52
Podle mě obojí bude mít vliv. Běloši mají lepší zázemí a také vyšší IQ.
-HoNY- (anonym)Odpovědět
06.12.2018 17:06:07
To není statistika, ale marketing. :)