Simpsonův paradox - Někdy je to naopak

Michal Dostál

leden 2016


Téměř každý má jistě zkušenost s tím, že někdy při bližším zkoumání zjistí, že se věci mají jinak, než to na první pohled vypadá. Stalo se to i před pár desítkami let na Univerzitě v Berkeley v Kalifornii, kde se předmětem interního vyšetřování stala možná diskriminace při přijímání studentů k postgraduálnímu studiu.

Na první pohled by na tom mohlo něco být: v předmětném roce 1973 bylo ke studiu přijato 44% z uchazečů mužského pohlaví a 35% z uchazečů ženského pohlaví:

Počet uchazečů Přijato ke studiu
Muži 8442 44%
Ženy 4321 35%

Bližší zkoumání ukázalo, že rozdíly v procentu přijatých uchazečů se jeví jinak, pokud se na ně díváme z jiného úhlu pohledu, v jiných souvislostech. Vezměme např. konkrétní data šesti největších fakult.

Fakulta Uchazečů - muži Přijato - muži Uchazečů - ženy Přijato - ženy
A 825 62% 108 82%
B 560 63% 25 68%
C 325 37% 375 34%
D 417 33% 375 35%
E 191 28% 393 24%
F 272 6% 341 7%

Co nyní můžeme z informací vyvodit? Rozšířením o další proměnné zjistíme, že nové výsledky již tak jednoznačně nevypadají. Výstupy jednotlivých fakult se od sebe výrazně liší - zatímco na „snadné“ fakulty A a B je přijata valná většina uchazečů, na „těžkou“ fakultu F je jich přijato jen několik procent, fakulty C, D a E jsou někde mezi. Zároveň se ale liší i poptávka mužů a žen po studiu na různých fakultách, muži se hlásí nejvíce na snadné fakulty A a B, ženy nejvíce právě na ty ostatní čtyři těžší fakulty C, D, E a F. S poznatkem dodatečných informací není velkým překvapením, že jsou muži celkově úspěšnější při přijetí ke studiu, přestože ženy jsou při pohledu na jednotlivé fakulty úspěšnější na čtyřech fakultách z šesti. V kontextu dalších informací získáme tedy zcela odlišný výstup od prvního posuzování.

K popsanému paradoxu může dojít v situaci, kdy se snažíme nějaký jev nebo proměnnou (například úspěšnosti při přijetí na školu) modelovat nebo vysvětlit jej podle druhé proměnné (zde pohlaví).Ve skutečnosti je rozhodující závislost na třetí proměnné (zde různé obory/fakulty). Stejně bychom mohli přehlédnout něco podstatného, pokud hodnotíme například zdravotnická zařízení podle úspěšnosti široké škály druhů péče a přehlédneme jejich specializaci nebo pokud hodnotíme efektivitu marketingu pomocí agregovaných dat a přehlédneme to, že jsme pokaždé prodávali něco jiného někomu jinému. Tento jev popsal britský statistik Edward H. Simpson v roce 1951 v článku The Interpretation of Interaction in Contingency Tables a nebyl prvním.

To, že při přihlédnutí k dalším faktům zjistíme, že skutečnost je složitější, než naznačuje první pohled na agregovaná data, neznamená, že agregovaný pohled je nepravdivý. Pokud bychom v roce 1973 viděli přicházet na studijní oddělení Univerzity v Berkeley dva uchazeče o postgraduální studium a nevěděli o nich nic jiného, než že jeden z nich je muž a druhá je žena, stále platí, že pravděpodobnost přijetí je větší pro muže. Pokud bychom o nich měli dodatečnou informaci, například, že se oba hlásí na fakultu A, mohli bychom dojít k opačnému závěru. Při porovnávání pravděpodobností a rozhodování je tedy důležité vždy přesně pojmenovat, co o posuzované situaci víme a jaké závěry chceme učinit.

Pro správné rozhodování potřebujete kompletní a kvalitní data. Potřeba víceúrovňového pohledu klade také vyšší nároky na nástroje, jež jsou schopné odpovídající data poskytnout. S vývojem technologií se však metody statistické práce s daty a kvantitativní analýzy stávají stále dostupnějšími. Ale vždy je potřeba nepoužívat tyto nástroje jako blackbox, neboť z neznalosti můžeme udělat mylný závěr.

Pěknou grafickou demonstraci s interaktivním appletem můžete vidět zde.

Chcete získat více informací o práci s daty a konkrétních nástrojích? Kontaktujte nás!