Das Folgende ist eine Frage zu den vielen Visualisierungen, die als "Beweis durch Bild" für die Existenz von Simpsons Paradox angeboten werden, und möglicherweise eine Frage zur Terminologie.
Simpsons Paradoxon ist ein ziemlich einfaches Phänomen, das zu beschreiben und numerische Beispiele zu nennen ist (der Grund, warum dies passieren kann, ist tief und interessant). Das Paradoxe ist, dass es 2x2x2-Kontingenztabellen (Agresti, Categorical Data Analysis) gibt, in denen die marginale Assoziation von jeder bedingten Assoziation eine andere Richtung hat.
Das heißt, der Vergleich von Verhältnissen in zwei Subpopulationen kann beide in eine Richtung gehen, aber der Vergleich in der kombinierten Population geht in die andere Richtung. In Symbolen:
Es gibt so dass a + b
aber und
Dies wird in der folgenden Visualisierung (aus Wikipedia ) genau dargestellt :
Ein Bruch ist einfach die Steigung der entsprechenden Vektoren, und im Beispiel ist leicht zu erkennen, dass die kürzeren B-Vektoren eine größere Steigung als die entsprechenden L-Vektoren haben, der kombinierte B-Vektor jedoch eine kleinere Steigung als der kombinierte L-Vektor.
Es gibt eine sehr häufige Visualisierung in vielen Formen, insbesondere an der Vorderseite dieser Wikipedia-Referenz zu Simpson:
Dies ist ein großartiges Beispiel für die Verwirrung, wie eine versteckte Variable (die zwei Teilpopulationen trennt) ein anderes Muster zeigen kann.
Mathematisch gesehen entspricht ein solches Bild jedoch in keiner Weise einer Anzeige der Kontingenztabellen, die dem als Simpsons Paradoxon bekannten Phänomen zugrunde liegen . Erstens sind die Regressionslinien über realwertigen Punktsatzdaten und zählen keine Daten aus einer Kontingenztabelle.
Man kann auch Datensätze mit beliebiger Beziehung von Steigungen in den Regressionslinien erstellen, aber in Kontingenztabellen gibt es eine Einschränkung, wie unterschiedlich die Steigungen sein können. Das heißt, die Regressionslinie einer Population kann orthogonal zu allen Regressionen der gegebenen Subpopulationen sein. Aber in Simpsons Paradoxon können die Verhältnisse der Subpopulationen, obwohl keine Regressionssteigung, nicht zu weit von der amalgamierten Population abweichen, auch wenn sie in die andere Richtung weisen (siehe auch das Verhältnisvergleichsbild von Wikipedia).
Für mich ist das genug, um jedes Mal überrascht zu sein, wenn ich das letztere Bild als Visualisierung von Simpsons Paradoxon sehe. Aber da ich die (was ich falsch nenne) Beispiele überall sehe, bin ich neugierig zu wissen:
- Fehlt mir eine subtile Transformation von den ursprünglichen Simpson / Yule-Beispielen für Kontingenztabellen in reale Werte, die die Visualisierung der Regressionslinie rechtfertigen?
- Sicherlich ist Simpsons ein besonderer Fall von verwirrendem Fehler. Wurde der Begriff "Simpsons Paradoxon" nun mit einem verwirrenden Fehler gleichgesetzt , so dass unabhängig von der Mathematik jede Richtungsänderung über eine versteckte Variable als Simpsons Paradoxon bezeichnet werden kann?
Nachtrag: Hier ist ein Beispiel für eine Verallgemeinerung auf eine 2xmxn-Tabelle (oder 2 x m durch kontinuierliche Tabelle):
Wenn es über die Schussart verschmolzen ist, sieht es so aus, als würde ein Spieler mehr Schüsse abgeben, wenn die Verteidiger näher sind. Gruppiert nach Schussart (Entfernung zum Korb), tritt die intuitiv erwartete Situation auf, dass mehr Schüsse abgegeben werden, je weiter die Verteidiger entfernt sind.
Dieses Bild ist meines Erachtens eine Verallgemeinerung von Simpsons auf eine kontinuierlichere Situation (Entfernung der Verteidiger). Aber ich sehe immer noch nicht, wie das Beispiel der Regressionslinie ein Beispiel für Simpson ist.