Simpsons Paradoxon ist ein klassisches Rätsel, das in einführenden Statistikkursen weltweit behandelt wird. In meinem Kurs ging es jedoch nur darum, festzustellen, dass ein Problem bestand und keine Lösung lieferte. Ich würde gerne wissen, wie man das Paradoxon löst. Das heißt, wenn man mit einem Simpson-Paradoxon konfrontiert wird, bei dem zwei verschiedene Auswahlmöglichkeiten um die beste Auswahl zu konkurrieren scheinen, abhängig davon, wie die Daten partitioniert sind. Welche Auswahl sollte man treffen?
Betrachten wir zur Konkretisierung des Problems das erste Beispiel aus dem entsprechenden Wikipedia-Artikel . Es basiert auf einer echten Studie über eine Behandlung von Nierensteinen.
Angenommen, ich bin Arzt und ein Test zeigt, dass ein Patient Nierensteine hat. Anhand der in der Tabelle angegebenen Informationen möchte ich bestimmen, ob ich Behandlung A oder Behandlung B anwenden soll. Wenn ich die Größe des Steins kenne, sollten wir Behandlung A bevorzugen. Wenn nicht, dann wir sollten Behandlung B bevorzugen
Betrachten Sie jedoch einen anderen plausiblen Weg, um zu einer Antwort zu gelangen. Wenn der Stein groß ist, sollten wir A wählen, und wenn er klein ist, sollten wir wieder A wählen. Selbst wenn wir die Größe des Steins nach der Methode der Fälle nicht kennen, sehen wir, dass wir A bevorzugen sollten. Dies widerspricht unserer früheren Argumentation.
Also: Ein Patient kommt in mein Büro. Ein Test zeigt, dass sie Nierensteine haben, gibt mir aber keine Informationen über ihre Größe. Welche Behandlung empfehle ich? Gibt es eine akzeptierte Lösung für dieses Problem?
Wikipedia deutet auf eine Lösung mit "kausalen Bayes'schen Netzwerken" und einem "Hintertür" -Test hin, aber ich habe keine Ahnung, was das sind.