Deckt Simpsons Paradox alle Fälle der Umkehrung von einer versteckten Variablen ab?

Das Folgende ist eine Frage zu den vielen Visualisierungen, die als "Beweis durch Bild" für die Existenz von Simpsons Paradox angeboten werden, und möglicherweise eine Frage zur Terminologie.

Simpsons Paradoxon ist ein ziemlich einfaches Phänomen, das zu beschreiben und numerische Beispiele zu nennen ist (der Grund, warum dies passieren kann, ist tief und interessant). Das Paradoxe ist, dass es 2x2x2-Kontingenztabellen (Agresti, Categorical Data Analysis) gibt, in denen die marginale Assoziation von jeder bedingten Assoziation eine andere Richtung hat.

Das heißt, der Vergleich von Verhältnissen in zwei Subpopulationen kann beide in eine Richtung gehen, aber der Vergleich in der kombinierten Population geht in die andere Richtung. In Symbolen:

Es gibt so dass $a,b,c,d,e,f,g,h$

\frac{a + b}{c + d} > \frac{e + f}{g + h}

$\frac{a+b}{c+d} > \frac{e+f}{g+h}$

aber und

\frac{a}{c} < \frac{e}{g}

$\frac{a}{c} < \frac{e}{g}$

\frac{b}{d} < \frac{f}{h}

$\frac{b}{d} < \frac{f}{h}$

Dies wird in der folgenden Visualisierung (aus Wikipedia ) genau dargestellt :

Ein Bruch ist einfach die Steigung der entsprechenden Vektoren, und im Beispiel ist leicht zu erkennen, dass die kürzeren B-Vektoren eine größere Steigung als die entsprechenden L-Vektoren haben, der kombinierte B-Vektor jedoch eine kleinere Steigung als der kombinierte L-Vektor.

Es gibt eine sehr häufige Visualisierung in vielen Formen, insbesondere an der Vorderseite dieser Wikipedia-Referenz zu Simpson:

Dies ist ein großartiges Beispiel für die Verwirrung, wie eine versteckte Variable (die zwei Teilpopulationen trennt) ein anderes Muster zeigen kann.

Mathematisch gesehen entspricht ein solches Bild jedoch in keiner Weise einer Anzeige der Kontingenztabellen, die dem als Simpsons Paradoxon bekannten Phänomen zugrunde liegen . Erstens sind die Regressionslinien über realwertigen Punktsatzdaten und zählen keine Daten aus einer Kontingenztabelle.

Man kann auch Datensätze mit beliebiger Beziehung von Steigungen in den Regressionslinien erstellen, aber in Kontingenztabellen gibt es eine Einschränkung, wie unterschiedlich die Steigungen sein können. Das heißt, die Regressionslinie einer Population kann orthogonal zu allen Regressionen der gegebenen Subpopulationen sein. Aber in Simpsons Paradoxon können die Verhältnisse der Subpopulationen, obwohl keine Regressionssteigung, nicht zu weit von der amalgamierten Population abweichen, auch wenn sie in die andere Richtung weisen (siehe auch das Verhältnisvergleichsbild von Wikipedia).

Für mich ist das genug, um jedes Mal überrascht zu sein, wenn ich das letztere Bild als Visualisierung von Simpsons Paradoxon sehe. Aber da ich die (was ich falsch nenne) Beispiele überall sehe, bin ich neugierig zu wissen:

Fehlt mir eine subtile Transformation von den ursprünglichen Simpson / Yule-Beispielen für Kontingenztabellen in reale Werte, die die Visualisierung der Regressionslinie rechtfertigen?
Sicherlich ist Simpsons ein besonderer Fall von verwirrendem Fehler. Wurde der Begriff "Simpsons Paradoxon" nun mit einem verwirrenden Fehler gleichgesetzt , so dass unabhängig von der Mathematik jede Richtungsänderung über eine versteckte Variable als Simpsons Paradoxon bezeichnet werden kann?

Nachtrag: Hier ist ein Beispiel für eine Verallgemeinerung auf eine 2xmxn-Tabelle (oder 2 x m durch kontinuierliche Tabelle):

Wenn es über die Schussart verschmolzen ist, sieht es so aus, als würde ein Spieler mehr Schüsse abgeben, wenn die Verteidiger näher sind. Gruppiert nach Schussart (Entfernung zum Korb), tritt die intuitiv erwartete Situation auf, dass mehr Schüsse abgegeben werden, je weiter die Verteidiger entfernt sind.

Dieses Bild ist meines Erachtens eine Verallgemeinerung von Simpsons auf eine kontinuierlichere Situation (Entfernung der Verteidiger). Aber ich sehe immer noch nicht, wie das Beispiel der Regressionslinie ein Beispiel für Simpson ist.

— Mitch
quelle

Simpsons Paradoxon gilt nicht nur für kategoriale Zieldaten. Kontinuierliche Zieldaten mit einem kategorialen Faktor, der sie beeinflusst, wie in Ihrem endgültigen Diagramm, können dem Paradoxon unterliegen. Der Schlüssel ist dieser "kategoriale Faktor", nicht ob die interessierende Variable kategorisch ist oder nicht oder ob einer oder alle anderen Faktoren, die die interessierende Variable beeinflussen, kategorisch sind.

— Jbowman

@jbowman OK, ich kann möglicherweise sehen, dass SP über kategoriale Daten hinaus auf kontinuierlich verallgemeinerbar ist (ich habe diese Verallgemeinerung nicht gesehen; SP scheint immer mit Kontingenztabellen dargestellt zu werden), aber ich sehe nicht, wie das zweite Diagramm entspricht. Ich meine, ich sehe die offensichtliche, aber vage Metapher "eine versteckte Variable kann die Richtung ändern", aber ich sehe einfach nicht, wie die Verallgemeinerung mathematisch / genau funktioniert.

— Mitch

Sie haben einen versteckten kategorialen Faktor, der bewirkt, dass die "echten" Daten den zwei farbigen Linien folgen, aber ohne es zu wissen, scheinen die Daten der gepunkteten Linie zu folgen. Betrachten Sie Fahrunfälle nach Alter als Ziel- und X-Achsen-Variablen - nicht kategorisch. Sie scheinen mit dem Alter zu sinken, oder? Fügen Sie nun den "versteckten Faktor" "Fahren im betrunkenen Zustand" hinzu. Die blaue Linie wäre "Fahren im betrunkenen Zustand", die rote "Fahren im betrunkenen Zustand". Angesichts dieses versteckten Faktors, der mit der Jugend korreliert, steigen die Unfälle mit dem Alter! (Nicht das realistischste Beispiel, muss ich zugeben, aber es ist die Idee, die zählt ...)

— Jbowman

@jbowman Das klingt eher nach einer Erklärung für verwirrende Fehler als für SP. Vielleicht sagen Sie, dass SP und Verwirrung dasselbe sind. Aber das klingt in Richtung einer Antwort; Vielleicht könnten Sie es etwas formalisieren und die Verbindung mit SP expliziter machen (mathematisch berücksichtigen, wie die Regressionslinien den Verhältnisvergleichen im Fall der Kontingenztabelle ähneln).

— Mitch

x

$x$

p

$p$

Antworten:

Das Paradoxe ist, dass es 2x2x2-Kontingenztabellen gibt (Agresti, Categorical Data Analysis), in denen die Randassoziation eine andere Richtung hat als jede bedingte Assoziation. [...] Fehlt mir eine subtile Transformation von den ursprünglichen Simpson / Yule-Beispielen für Kontingenztabellen in reale Werte, die die Visualisierung der Regressionslinie rechtfertigen?

Das Hauptproblem ist, dass Sie einen einfachen Weg gleichsetzen, um das Paradoxon als das Paradoxon selbst zu zeigen. Das einfache Beispiel der Kontingenztabelle ist nicht das Paradoxon an sich. In Simpsons Paradoxon geht es um widersprüchliche kausale Intuitionen beim Vergleich von marginalen und bedingten Assoziationen, meist aufgrund von Vorzeichenumkehrungen (oder extremen Abschwächungen wie Unabhängigkeit, wie im ursprünglichen Beispiel von Simpson selbst , in dem es keine Vorzeichenumkehr gibt). Das Paradoxon entsteht, wenn Sie beide Schätzungen kausal interpretieren, was zu unterschiedlichen Schlussfolgerungen führen kann - hilft oder verletzt die Behandlung den Patienten? Und welche Schätzung sollten Sie verwenden?

$\frac{\partial E(Y|X)}{\partial X} > 0$ $\frac{\partial E(Y|X, C = c)}{\partial X} < 0, \forall c$

Sicherlich ist Simpsons ein besonderer Fall von verwirrendem Fehler.

Das ist falsch! Simpsons Paradoxon ist kein besonderer Fall von verwirrendem Fehler - wenn es nur so wäre, gäbe es überhaupt kein Paradoxon. Wenn Sie sicher sind, dass eine Beziehung verwirrt ist, werden Sie nicht überrascht sein, Vorzeichenumkehrungen oder -schwächungen in Kontingenztabellen oder Regressionskoeffizienten zu sehen - vielleicht würden Sie das sogar erwarten.

Während sich Simpsons Paradoxon auf eine Umkehrung (oder extreme Abschwächung) von "Effekten" beim Vergleich von marginalen und bedingten Assoziationen bezieht, ist dies möglicherweise nicht auf Verwirrung zurückzuführen, und a priori können Sie nicht wissen, ob die marginale oder die bedingte Tabelle die "richtige" ist "eine zu konsultieren, um Ihre kausale Frage zu beantworten. Dazu müssen Sie mehr über die kausale Struktur des Problems wissen.

Betrachten Sie die folgenden Beispiele in Pearl :

$X$ $Y$ $Z$ $Z$ $Z$ $Z$ $Z$

Perles Erklärung, warum dies als "Paradoxon" angesehen wurde und warum es die Menschen immer noch verwirrt, ist sehr plausibel. Nehmen wir zum Beispiel den in (a) dargestellten einfachen Fall: Kausale Effekte können sich nicht einfach so umkehren. Wenn wir also fälschlicherweise annehmen, dass beide Schätzungen kausal sind (die marginale und die bedingte), wären wir überrascht, wenn so etwas passiert - und die Menschen scheinen in den meisten Assoziationen dazu verdrahtet zu sein, die Kausalität zu sehen.

Also zurück zu Ihrer Hauptfrage (Titel):

Deckt Simpsons Paradox alle Fälle der Umkehrung von einer versteckten Variablen ab?

In gewissem Sinne ist dies die aktuelle Definition von Simpsons Paradoxon. Aber offensichtlich ist die Konditionierungsvariable nicht verborgen, sie muss beachtet werden, sonst würde das Paradoxon nicht auftreten. Der größte Teil des rätselhaften Teils des Paradoxons beruht auf kausalen Überlegungen, und diese "verborgene" Variable ist nicht unbedingt ein Störfaktor.

Kontingenztabellen und Regression

$y$ $x$ $z$

$y$ $x$

\frac{a + b}{c + d} - \frac{e + f}{g + h} = \frac{c o v (y, x)}{v a r (x)}

$\frac{a+b}{c+d} - \frac{e+f}{g+h} = \frac{cov(y,x)}{var(x)}$

$z$ $z=1$

\frac{a}{c} - \frac{e}{g} = \frac{c o v (y, x | z = 1)}{v a r (x | z = 1)}

$\frac{a}{c} - \frac{e}{g} = \frac{cov(y,x|z =1)}{var(x|z=1)}$

$z =0$

\frac{b}{d} - \frac{f}{h} = \frac{c o v (y, x | z = 0)}{v a r (x | z = 0)}

$\frac{b}{d} - \frac{f}{h} = \frac{cov(y,x|z=0)}{var(x|z=0)}$

$\left(\frac{cov(y,x)}{var(x)}\right)$ $\left(\frac{cov(y,x|z)}{var(x|z)}\right)$ $\left(\frac{cov(y,x)}{var(x)}\right)$

— Carlos Cinelli
quelle

Aus Ihrer Sicht bezieht sich Simpsons Paradoxon nicht nur auf die Möglichkeit eines Unterschieds zwischen Rand- und Bedingungsassoziationen, sondern auch auf die Verwirrung darüber, welche bei der Interpretation der Daten "richtig" zu verwenden ist. Und Pearl zeigt, dass die Kausalstruktur das ist, was wir verwenden sollten, um dies zu entscheiden?

— Paul

"In Simpsons Paradoxon geht es um widersprüchliche Intuitionen beim Vergleich von marginalen und bedingten Assoziationen." Ich bin hier nicht einverstanden, Simpsons Paradoxon bezieht sich speziell auf einen Flip-of-Sign beim Vergleich von rohen mit geschichteten Ergebnissen.

— AdamO

@AdamO Während die meisten Leute den Extremfall der Vorzeichenumkehr als "strenge" Definition von Simpsons Paradoxon verwenden, hatte Simpsons ursprüngliches Beispiel tatsächlich keine Vorzeichenumkehr.

— Carlos Cinelli

@ Paul das ist genau richtig.

— Carlos Cinelli

@AdamO Ich denke, Perles Erklärung, warum dies als "Paradoxon" angesehen wurde und warum es die Menschen immer noch verwirrt, ist plausibel. Im einfachen Fall von (a) zum Beispiel können kausale Effekte nicht einfach so umkehren. Wenn wir also in beiden Fällen kausal denken, wären wir überrascht, wenn so etwas passiert - und die Menschen scheinen in den meisten Assoziationen dazu verdrahtet zu sein, die Kausalität zu sehen.

— Carlos Cinelli

Fehlt mir eine subtile Transformation von den ursprünglichen Simpson / Yule-Beispielen für Kontingenztabellen in reale Werte, die die Visualisierung der Regressionslinie rechtfertigen?

Ja. Eine ähnliche Darstellung kategorialer Analysen ist möglich, indem die logarithmischen Antwortwahrscheinlichkeiten auf der Y-Achse visualisiert werden. Simpsons Paradoxon sieht ähnlich aus, wenn eine "grobe" Linie gegen die schichtenspezifischen Trends verläuft, die in der Entfernung nach den schichtbezogenen logarithmischen Quoten des Ergebnisses gewichtet sind.

Hier ist ein Beispiel mit den Berkeley-Zulassungsdaten

Hier ist das Geschlecht ein männlicher / weiblicher Code, auf der X-Achse die rohen Zulassungsprotokollquoten für Männer gegenüber Frauen, die stark gestrichelte schwarze Linie zeigt die Präferenz des Geschlechts: Die positive Steigung deutet auf eine Tendenz zu männlichen Zulassungen hin. Die Farben stehen für die Zulassung zu bestimmten Abteilungen. In allen bis auf zwei Fällen ist die Steigung der abteilungsspezifischen Geschlechtspräferenzlinie negativ. Wenn diese Ergebnisse in einem logistischen Modell zusammengefasst werden, bei dem die Interaktion nicht berücksichtigt wird, ist der Gesamteffekt eine Umkehrung, die die Aufnahme von Frauen begünstigt. Sie bewarben sich häufiger in härteren Abteilungen als Männer.

Sicherlich ist Simpsons ein besonderer Fall von verwirrendem Fehler. Wurde der Begriff "Simpsons Paradoxon" jetzt mit einem verwirrenden Fehler gleichgesetzt, so dass unabhängig von der Mathematik jede Richtungsänderung über eine versteckte Variable als Simpsons Paradoxon bezeichnet werden kann?

Kurz gesagt, nein. Simpsons Paradoxon ist lediglich das "Was", während Verwirrung das "Warum" ist. Die vorherrschende Diskussion hat sich darauf konzentriert, wo sie übereinstimmen. Verwirrung kann einen minimalen oder vernachlässigbaren Einfluss auf Schätzungen haben, und alternativ kann Simpsons Paradoxon, obwohl es dramatisch ist, durch Nicht-Störfaktoren verursacht werden. Hinweis: Die Begriffe "versteckte" oder "lauernde" Variable sind ungenau. Aus epidemiologischer Sicht sollte eine sorgfältige Kontrolle und Gestaltung der Studie die Messung oder Kontrolle möglicher Faktoren ermöglichen, die zu einer verwirrenden Verzerrung beitragen. Sie müssen nicht "versteckt" sein, um ein Problem zu sein.

Es gibt Zeiten, in denen Punktschätzungen bis zur Umkehrung drastisch variieren können, was nicht auf Verwirrung zurückzuführen ist. Collider und Mediatoren sind ebenfalls Veränderungseffekte, die sie möglicherweise umkehren. Die kausale Argumentation warnt davor, dass für die Untersuchung von Effekten der Haupteffekt isoliert untersucht werden sollte, anstatt diese zu berücksichtigen, da die geschichtete Schätzung falsch ist. (Es ist vergleichbar mit der falschen Schlussfolgerung, dass der Arztbesuch Sie krank macht oder dass Waffen Menschen töten, daher töten Menschen keine Menschen).

— AdamO
quelle

Sie würden also sagen, dass Simpsons ursprüngliches Beispiel kein Fall von "Simpsons Paradoxon" ist?

— Carlos Cinelli

@CarlosCinelli Auf welches Beispiel würden Sie sich beziehen? Ich habe keinen Zugang zu Simpsons Artikel von 1951, aber da er in JRSS veröffentlicht ist und keinen Hinweis auf ein angewandtes Beispiel in der Zusammenfassung enthält, scheint es eine rein theoretische Arbeit zu sein.

— AdamO

Es ist das numerische Beispiel in den Absätzen 9 und 10, in dem er dieselben Kontingenztabellen mit zwei verschiedenen Geschichten angibt, die zu zwei verschiedenen kausalen Interpretationen führen würden. In diesem Beispiel gibt es keine Vorzeichenumkehr, nur marginale Unabhängigkeit.

— Carlos Cinelli

Um zu sehen, warum die Vorzeichenumkehr hier keine Rolle spielt, stellen Sie sich eine Situation vor, in der eine Behandlung eine extrem starke Assoziation für Männer und Frauen zeigt, aber nur eine winzige Assoziation in der Gesamtbevölkerung. Dies wäre für die meisten Menschen immer noch paradox, wenn es kausal interpretiert würde.

— Carlos Cinelli

@CarlosCinelli Ich hätte gesagt, das war ein Beispiel für Verwirrung, aber nicht Simpsons Paradoxon an sich, aber ich werde den Punkt nicht näher erläutern. Ich denke, Sie haben ein gutes Argument vorgebracht, und vielleicht hatte ich einige falsche Annahmen darüber, was war und was nicht das schwer fassbare Phänomen von Simpsons Paradoxon.

— AdamO