Hier ist ein allgemeiner Ansatz zum algebraischen Verständnis von Simpsons Paradox für Zählungsdaten.
Angenommen, wir haben Überlebensdaten für eine Exposition und erstellen eine 2x2-Kontingenztabelle. Um die Dinge einfach zu halten, werden wir in jeder Zelle die gleichen Zählungen haben. Wir könnten das lockern, aber es würde die Algebra ziemlich chaotisch machen.
AusgesetztUnerwartetIst gestorbenXXÜberlebtXXTodesrate0,50,5
In diesem Fall ist die Sterblichkeitsrate sowohl in der exponierten als auch in der nicht exponierten Gruppe gleich.
Wenn wir nun die Daten aufteilen, beispielsweise in eine Gruppe für Frauen und eine andere Gruppe für Männer, erhalten wir zwei Tabellen mit den folgenden Zählungen:
Männer:
AusgesetztUnerwartetIst gestorbenXeinXcÜberlebtXbXdTodesrateeina + bcc+ d
und für Frauen:
AusgesetztUnerwartetIst gestorbenX( a - 1 )X( c - 1 )ÜberlebtX( b - 1 )X( d- 1 )Todesratea - 1a + b - 2c - 1c +d- 2
wobei a , b , c , d∈ [ 0 , 1 ] die Anteile jeder Zelle in der aggregierten Datentabelle sind, die männlich sind.
Simpsons Paradoxon tritt auf, wenn die Sterblichkeitsrate exponierter Männer höher ist als die Sterblichkeitsrate nicht exponierter Männer UND die Sterblichkeitsrate exponierter Frauen höher ist als die Sterblichkeitsrate nicht exponierter Frauen. Alternativ dazu tritt es auch auf, wenn die Sterblichkeitsrate für exponierte Männer geringer ist als die Sterblichkeitsrate für nicht exponierte Männer UND die Sterblichkeitsrate für exponierte Frauen geringer ist als die Frauen. Das ist wenn
( aa + b< cc + d) und ( a - 1a + b - 2< c - 1c + d- 2)
Oder
( aa + b> cc + d) und ( a - 1a + b - 2> c - 1c + d- 2)
Als konkretes Beispiel sei X= 100 und a = 0,5 , b = 0,8 , c = 0,9 . Dann haben wir Simpsons Paradox, wenn:
( 0,50,8 + 0,9< 0,90,9 + d) und ( 0,5 - 10,5 + 0,8 - 2< 0,9 - 10,9 + d- 2)
( - 9 < d< 1,44 ) und ( 0,96 < d< 1.1 )
Daraus schließen wir, dass d in liegen muss ( 0,96 , 1 ]
Die 2. Menge von Ungleichungen ergibt:
( 0,50,8 + 0,9> 0,90.9+d) and (0.5−10.5+0.8−2>0.9−10.9+d−2)
(d<−0.9 or d>1.44) and (0.96<d or d>1.44)
which has no solution for d∈[0,1]
So for the three values that we chose for a,b, and c, to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of
0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group
and for Females:
(0.5−1)/(0.5+0.8−2)=71% in the exposed group
(0.9−1)/(0.9+0.99−2)=91% in the unexposed group
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.