Können Sie bitte Simpsons Paradoxon mit Gleichungen anstelle von Kontingenztabellen erklären?

14

Ich habe wahrscheinlich kein klares Verständnis für das Simpson-Paradoxon . Informell weiß ich, dass der Durchschnitt der Antwort Y1, gruppiert über alle möglichen Niveaus von Faktor A, höher sein kann als der Durchschnitt der Antwort Y2 über alle Niveaus von A, selbst wenn der Durchschnitt von Y1 für jedes Niveau von A (jede Gruppe) ist immer kleiner als der entsprechende Durchschnitt von Y2. Ich habe Beispiele gelesen, aber ich wundere mich jedes Mal, wenn ich sie sehe, vielleicht, weil ich durch bestimmte Beispiele nicht gut lerne: Ich habe Probleme, sie zu verallgemeinern. Ich lerne am besten und möchte lieber eine Erklärung in Formeln sehen. Können Sie bitte das Paradox erklären, das auf Gleichungen beruht, anstatt Tabellen zu zählen?

Ich denke auch, dass der Grund für meine Überraschung darin besteht, dass ich unbewusst einige Annahmen über die Durchschnittswerte treffen könnte, die mit dem Paradox zusammenhängen, was im Allgemeinen möglicherweise nicht zutrifft. Vielleicht habe ich vergessen, die Anzahl der Proben in jeder Gruppe zu gewichten? Aber dann möchte ich eine Gleichung sehen, die mir zeigt, dass die Schätzung des Gesamtdurchschnitts genauer ist, wenn ich jeden Gruppendurchschnitt mit der Anzahl der Stichproben in jeder Gruppe gewichte, da dies (falls dies zutrifft) nicht offensichtlich ist für mich im Allgemeinen. Naiv würde ich denken, dass die Schätzung von $\mathbf{E}[Y_1]$ einen niedrigeren Standardfehler hat, wenn ich mehr Stichproben habe, unabhängig von der Gewichtung.

mathematical-statistics simpsons-paradox

— DeltaIV
quelle

1

Ich habe einen ähnlichen Beitrag hier mit Simulationen. Die Simulation kann hilfreich sein, damit Sie Simpsons Paradoxon verstehen

— Haitao Du

Hier ist eine Maschine, die Simpsons Paradoxe nach Bedarf produziert!

— kjetil b halvorsen

11

Hier ist ein allgemeiner Ansatz zum algebraischen Verständnis von Simpsons Paradox für Zählungsdaten.

Angenommen, wir haben Überlebensdaten für eine Exposition und erstellen eine 2x2-Kontingenztabelle. Um die Dinge einfach zu halten, werden wir in jeder Zelle die gleichen Zählungen haben. Wir könnten das lockern, aber es würde die Algebra ziemlich chaotisch machen.

\begin{array}{cccc} Ist gestorben & Überlebt & Todesrate \\ Ausgesetzt & X & X & 0,5 \\ Unerwartet & X & X & 0,5 \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X & X & 0.5 \\ \hline \text{Unexposed}& X & X & 0.5\\ \hline \end{array}$

In diesem Fall ist die Sterblichkeitsrate sowohl in der exponierten als auch in der nicht exponierten Gruppe gleich.

Wenn wir nun die Daten aufteilen, beispielsweise in eine Gruppe für Frauen und eine andere Gruppe für Männer, erhalten wir zwei Tabellen mit den folgenden Zählungen:

Männer:

\begin{array}{cccc} Ist gestorben & Überlebt & Todesrate \\ Ausgesetzt & X ein & X b & \frac{ein}{ein + b} \\ Unerwartet & X c & X d & \frac{c}{c + d} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & Xa & Xb & \frac{a}{a+b} \\ \hline \text{Unexposed}& Xc & Xd & \frac{c}{c+d}\\ \hline \end{array}$

und für Frauen:

\begin{array}{cccc} Ist gestorben & Überlebt & Todesrate \\ Ausgesetzt & X (ein - 1) & X (b - 1) & \frac{ein - 1}{ein + b - 2} \\ Unerwartet & X (c - 1) & X (d - 1) & \frac{c - 1}{c + d - 2} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \\ \hline \text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\\ \hline \end{array}$

wobei $a,b,c,d \in [0,1]$ die Anteile jeder Zelle in der aggregierten Datentabelle sind, die männlich sind.

Simpsons Paradoxon tritt auf, wenn die Sterblichkeitsrate exponierter Männer höher ist als die Sterblichkeitsrate nicht exponierter Männer UND die Sterblichkeitsrate exponierter Frauen höher ist als die Sterblichkeitsrate nicht exponierter Frauen. Alternativ dazu tritt es auch auf, wenn die Sterblichkeitsrate für exponierte Männer geringer ist als die Sterblichkeitsrate für nicht exponierte Männer UND die Sterblichkeitsrate für exponierte Frauen geringer ist als die Frauen. Das ist wenn

(\frac{ein}{ein + b} < \frac{c}{c + d}) und (\frac{ein - 1}{ein + b - 2} < \frac{c - 1}{c + d - 2})

$\left(\frac{a}{a+b} < \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} < \frac{c-1}{c+d-2}\right)$

Oder

$\text{Or }$

(\frac{ein}{ein + b} > \frac{c}{c + d}) und (\frac{ein - 1}{ein + b - 2} > \frac{c - 1}{c + d - 2})

$\left(\frac{a}{a+b} > \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} > \frac{c-1}{c+d-2}\right)$

Als konkretes Beispiel sei $X=100$ und $a=0.5, b=0.8, c=0.9$ . Dann haben wir Simpsons Paradox, wenn:

(\frac{0,5}{0.8 + 0.9} < \frac{0.9}{0.9 + d}) und (\frac{0,5 - 1}{0,5 + 0.8 - 2} < \frac{0.9 - 1}{0.9 + d - 2})

$\left(\frac{0.5}{0.8+0.9} < \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} < \frac{0.9-1}{0.9+d-2}\right)$

(- 9 < d < 1,44) und (0,96 < d < 1.1)

$(-9 < d < 1.44) \text{ and } (0.96 < d < 1.1)$

Daraus schließen wir, dass d in liegen muss $(0.96,1]$

Die 2. Menge von Ungleichungen ergibt:

(\frac{0.5}{0.8 + 0.9} > \frac{0.9}{0.9 + d}) and (\frac{0.5 - 1}{0.5 + 0.8 - 2} > \frac{0.9 - 1}{0.9 + d - 2})

$\left(\frac{0.5}{0.8+0.9} > \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} > \frac{0.9-1}{0.9+d-2}\right)$

(d < - 0.9 or d > 1.44) and (0.96 < d or d > 1.44)

$(d < -0.9 \text{ or } d>1.44) \text{ and } (0.96 < d \text{ or } d > 1.44)$

which has no solution for $d \in [0,1]$

So for the three values that we chose for $a,b,$ and $c$ , to invoke Simpson's paradox, $d$ must be greater than 0.96. In the case where the value was $0.99$ then we would obtain a Death Rate for Males of

0.5 / (0.5 + 0.8) = 38 % in the exposed group

$0.5/ (0.5+0.8) = 38 \text{% in the exposed group}$

0.9 / (0.9 + 0.99) = 48 % in the unexposed group

$0.9/ (0.9+0.99) = 48 \text{% in the unexposed group}$

and for Females:

(0.5 - 1) / (0.5 + 0.8 - 2) = 71 % in the exposed group

$(0.5-1)/ (0.5+0.8-2) = 71 \text{% in the exposed group}$

(0.9 - 1) / (0.9 + 0.99 - 2) = 91 % in the unexposed group

$(0.9-1)/ (0.9+0.99-2) = 91 \text{% in the unexposed group}$

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.

— Robert Long
quelle

16

Suppose we have data on 2 variables, $x$ and $y$ , for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y = 11 - x

$y = 11 - x$

with mean values of $2$ and $9$ for $x$ and $y$ respectively.

Data in group B are such that the fitted regression line is

y = 25 - x

$y = 25 - x$

with mean values of $11$ and $14$ for $x$ and $y$ respectively.

So the regression coefficient for $x$ is $-1$ in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is $(2,9)$ for group A and $(11,14)$ for group B. Then it is easy to see that the overall regression line slope must be $(14-9)/(11-2) = 0.55$ das ist der Gesamtregressionskoeffizient für $x$ . So sehen wir Simpsons Paradoxon in Aktion - wir haben eine negative Assoziation von $x$ mit $y$ in jeder Gruppe einzeln, aber insgesamt eine positive Assoziation, wenn die Daten aggregiert werden. Wir können dies leicht in R wie folgt demonstrieren:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

Die roten Punkte und die Regressionslinie sind Gruppe A, die blauen Punkte und die Regressionslinie sind Gruppe B und die schwarze Linie ist die gesamte Regressionslinie.

— Robert Long
quelle

Hallo, danke für die Antwort, aber dies ist ein weiteres konkretes Beispiel für das Simpson-Paradoxon. Ich habe speziell nach etwas in Form eines Theorems oder einer Reihe von Gleichungen gefragt, nach einem abstrakteren und allgemeineren Ansatz. Wie auch immer, da es keine anderen Antworten gibt, werde ich Ihr Beispiel studieren und wenn ich das Gefühl habe, dass es mir hilft, das Konzept zu verallgemeinern, werde ich die Antwort akzeptieren.

— DeltaIV

3

@ DeltaIV Ich habe eine neue Antwort mit rein algebraischen Argumenten geschrieben.

— Robert Long