Weil ich sie faszinierend finde, würde ich gerne hören, was die Leute in dieser Community als das interessanteste statistische Paradoxon ansehen und warum.
Weil ich sie faszinierend finde, würde ich gerne hören, was die Leute in dieser Community als das interessanteste statistische Paradoxon ansehen und warum.
Antworten:
Es ist nicht ein Paradox per se , aber es ist eine rätselhafte Bemerkung, zumindest auf den ersten.
Während des Zweiten Weltkriegs war Abraham Wald ein Statistiker für die US-Regierung. Er sah sich die Bomber an, die von Missionen zurückgekehrt waren, und analysierte das Muster der Schusswunden in den Flugzeugen. Er empfahl der Marine, Gebiete zu verstärken, in denen die Flugzeuge keinen Schaden hatten.
Warum? Wir haben Auswahleffekte bei der Arbeit. Diese Stichprobe legt nahe, dass Schäden, die in den beobachteten Bereichen verursacht wurden, überstanden werden könnten. Entweder wurden Flugzeuge in den unberührten Gebieten nie getroffen, was unwahrscheinlich war, oder es kam zu tödlichen Angriffen auf diese Teile. Uns interessieren die Flugzeuge, die abgestürzt sind, nicht nur die, die zurückgekehrt sind. Diejenigen, die fielen, erlitten wahrscheinlich einen Angriff an einem Ort, der für die Überlebenden unberührt blieb.
Kopien seiner ursprünglichen Memoranden finden Sie hier . Eine modernere Anwendung finden Sie in diesem Blogbeitrag von Scientific American .
Die Erweiterung auf ein Thema, nach dieser Blog - Post , im Ersten Weltkrieg, die Einführung eines Zinn Helm führte zu mehr Kopfverletzungen als ein Standard - Tuchhut. War der neue Helm für Soldaten schlimmer? Nein; Obwohl die Verletzungen höher waren, waren die Todesfälle geringer.
Ein weiteres Beispiel ist der ökologische Irrtum .
Beispiel
Nehmen wir an, wir suchen nach einem Verhältnis zwischen Stimmrecht und Einkommen, indem wir den Stimmenanteil des damaligen Senators Obama am Durchschnittseinkommen eines Staates (in Tausend) zurückführen. Wir erhalten einen Achsenabschnitt von ungefähr 20 und einen Steigungskoeffizienten von 0,61.
Viele würden dieses Ergebnis so interpretieren, dass Menschen mit höherem Einkommen eher für Demokraten stimmen. In der Tat haben populäre Pressebücher dieses Argument vorgebracht.
Aber warte, ich dachte, dass reiche Leute eher Republikaner sind? Sie sind.
Diese Regression zeigt uns, dass reiche Staaten eher für einen Demokraten stimmen und arme Staaten eher für einen Republikaner. In einem bestimmten Staat wählen reiche Leute eher Republikaner und arme Leute eher Demokraten. Sehen Sie die Arbeit von Andrew Gelman und seinen Co-Autoren .
Ohne weitere Annahmen können wir keine Daten auf Gruppenebene (aggregiert) verwenden, um Rückschlüsse auf das Verhalten auf Einzelebene zu ziehen. Dies ist der ökologische Irrtum. Daten auf Gruppenebene können nur Aufschluss über das Verhalten auf Gruppenebene geben.
Um den Sprung zu Schlussfolgerungen auf individueller Ebene zu schaffen, benötigen wir die Konstanzannahme . Hier variiert die Wahl der Wahlberechtigten in den meisten Fällen nicht systematisch mit dem Durchschnittseinkommen eines Staates. Eine Person, die in einem reichen Staat $ X verdient, muss genauso wahrscheinlich für einen Demokraten stimmen wie jemand, der in einem armen Staat $ X verdient . Aber Menschen in Connecticut stimmen auf allen Einkommensebenen mit größerer Wahrscheinlichkeit für einen Demokraten als Menschen in Mississippi auf den gleichen Einkommensebenen . Daher wird die Konsistenzannahme verletzt und wir werden zu der falschen Schlussfolgerung geführt (getäuscht durch eine Aggregationsverzerrung ).
Dieses Thema war ein häufiges Steckenpferd des verstorbenen David Freedman ; siehe dieses Papier zum Beispiel. In diesem Artikel bietet Freedman ein Mittel zur Begrenzung von Wahrscheinlichkeiten auf Einzelebene mithilfe von Gruppendaten.
Vergleich mit Simpsons Paradoxon
An anderer Stelle in diesem CW schlägt @Michelle Simpsons Paradoxon als gutes Beispiel vor, so wie es tatsächlich ist. Simpsons Paradoxon und der ökologische Irrtum sind eng miteinander verbunden, unterscheiden sich jedoch voneinander. Die beiden Beispiele unterscheiden sich in der Art der angegebenen Daten und der verwendeten Analyse.
Die Standardformulierung von Simpsons Paradoxon ist eine Zwei-Wege-Tabelle. In unserem Beispiel hier nehmen wir an, dass wir über individuelle Daten verfügen und jede Person als ein hohes oder niedriges Einkommen klassifizieren. Wir würden eine 2 x 2-Kontingenztabelle der Gesamtstimmeneinkommen erhalten. Wir würden sehen, dass ein höherer Anteil von Menschen mit hohem Einkommen für den Demokraten stimmte als der Anteil von Menschen mit niedrigem Einkommen. Wenn wir jedoch für jeden Staat eine Kontingenztabelle erstellen würden, würden wir das entgegengesetzte Muster sehen.
Im ökologischen Irrtum brechen wir das Einkommen nicht in eine dichotome (oder vielleicht multichotome) Variable zusammen. Um die staatliche Ebene zu erreichen, erhalten wir das mittlere (oder mittlere) staatliche Einkommen und den staatlichen Stimmenanteil, führen eine Regression durch und stellen fest, dass Staaten mit höherem Einkommen eher für den Demokraten stimmen. Wenn wir die Daten auf Einzelebene beibehalten und die Regression nach Bundesstaaten getrennt ausführen würden, würden wir den gegenteiligen Effekt feststellen.
Zusammenfassend sind die Unterschiede:
Allgemeine Beobachtung
@NeilG kommentiert, dass dies nur zu sagen scheint, dass Sie in Ihrer Regression keine Auswahl zu nicht beobachtbaren / ausgelassenen Variablen-Bias-Problemen haben können. Stimmt! Zumindest im Kontext der Regression denke ich, dass fast jedes "Paradoxon" nur ein Sonderfall der Verzerrung ausgelassener Variablen ist.
Die Auswahlverzerrung (siehe meine andere Antwort auf diese CW) kann gesteuert werden, indem die Variablen einbezogen werden, die die Auswahl steuern. Natürlich werden diese Variablen normalerweise nicht beachtet, was das Problem / Paradoxon antreibt. Eine falsche Regression (meine andere Antwort) kann durch Hinzufügen eines Zeittrends überwunden werden. Diese Fälle besagen im Wesentlichen, dass Sie über genügend Daten verfügen, jedoch mehr Prädiktoren benötigen.
Im Falle des ökologischen Trugschlusses braucht man allerdings mehr Prädiktoren (hier zustandsspezifische Steigungen und Abschnitte). Sie benötigen jedoch mehr Beobachtungen als Beobachtungen auf Gruppenebene , um diese Beziehungen abzuschätzen.
(Übrigens: Wenn Sie eine extreme Auswahl haben, bei der die Auswahlvariable die Behandlung und die Kontrolle perfekt voneinander trennt, wie im Beispiel des Zweiten Weltkriegs, benötigen Sie möglicherweise mehr Daten, um auch die Regression zu schätzen; dort die herabgestürzten Ebenen.)
Mein Beitrag ist Simpsons Paradox, weil:
Es kann wirklich schwierig sein zu erklären, warum die Ergebnisse so sind, wie sie Menschen in einfachem Englisch darstellen.
Version des Paradoxons: Die statistische Signifikanz eines Ergebnisses scheint sich zu unterscheiden, je nachdem, wie die Daten partitioniert sind. Die Ursache scheint oft auf eine verwirrende Variable zurückzuführen zu sein.
Ein weiterer guter Abriss des Paradoxons ist hier .
In der Statistik gibt es keine Paradoxe, nur Rätsel, die gelöst werden müssen.
Trotzdem ist mein Favorit die beiden Umschläge "paradox" . Angenommen, ich lege zwei Umschläge vor dich und sage dir, dass einer doppelt so viel Geld enthält wie der andere (aber nicht welcher welcher ist). Sie argumentieren wie folgt. Angenommen, der linke Umschlag enthält , dann enthält der rechte Umschlag mit einer Wahrscheinlichkeit von 50% und mit einer Wahrscheinlichkeit von 50% , bei einem erwarteten Wert von . Natürlich können Sie die Umschläge auch einfach umkehren und daraus schließen, dass der linke Umschlag das fache des Werts des rechten Umschlags enthält. Was ist passiert?
Das Dornröschenproblem .
Dies ist eine neue Erfindung; Es wurde in den letzten zehn Jahren in einer kleinen Anzahl von philosophischen Fachzeitschriften ausführlich diskutiert. Es gibt überzeugte Befürworter für zwei sehr unterschiedliche Antworten (die "Halfer" und "Dritte"). Es wirft Fragen nach der Natur des Glaubens, der Wahrscheinlichkeit und der Konditionierung auf und hat die Menschen veranlasst, eine quantenmechanische Interpretation "vieler Welten" (unter anderen bizarren Dingen) aufzurufen.
Hier ist die Aussage von Wikipedia:
Dornröschen macht freiwillig das folgende Experiment durch und erfährt alle folgenden Details. Am Sonntag wird sie eingeschläfert. Eine faire Münze wird dann geworfen, um festzustellen, welches experimentelle Verfahren durchgeführt wird. Wenn die Münze aufgeht, wird Beauty am Montag geweckt und interviewt, und dann endet das Experiment. Kommt die Münze zum Stillstand, wird sie am Montag und Dienstag geweckt und interviewt. Aber wenn sie am Montag wieder eingeschläfert wird, bekommt sie eine Dosis eines Amnesie auslösenden Medikaments, das sicherstellt, dass sie sich nicht an ihr vorheriges Erwachen erinnern kann. In diesem Fall endet das Experiment, nachdem sie am Dienstag interviewt wurde.
Jedes Mal, wenn Dornröschen geweckt und interviewt wird, wird sie gefragt: "Was ist Ihre Glaubwürdigkeit für den Vorschlag, dass die Münze auf dem Kopf landet?"
Die Thirder-Position ist, dass SB auf "1/3" antworten sollte (dies ist eine einfache Bayes-Theorem-Berechnung), und die Halfer-Position ist, dass sie "1/2" sagen sollte (denn das ist natürlich die richtige Wahrscheinlichkeit für eine faire Münze! ). Meiner Meinung nach beruht die gesamte Debatte auf einem begrenzten Verständnis der Wahrscheinlichkeit, aber ist das nicht der springende Punkt, um offensichtliche Paradoxe zu untersuchen?
(Illustration aus dem Projekt Gutenberg .)
Obwohl dies nicht der Ort ist, um Paradoxien aufzulösen - nur um sie zu formulieren -, möchte ich die Leute nicht hängen lassen und ich bin sicher, dass die meisten Leser dieser Seite nicht durch die philosophischen Erklärungen waten wollen. Wir können einen Tipp von ET Jaynes nehmen , der die Frage „Wie können wir ein mathematisches Modell des menschlichen gesunden Menschenverstandes aufbauen?“, Die wir brauchen, um das Dornröschen-Problem zu durchdenken, durch „Wie könnten wir eine Maschine bauen?“ Ersetzt Was wäre eine sinnvolle plausible Argumentation, die klar definierten Prinzipien folgt, die einen idealisierten gesunden Menschenverstand zum Ausdruck bringen? “Wenn Sie möchten, ersetzen Sie SB also durch Jaynes 'Denkroboter. Du kannst klonenDieser Roboter verabreicht für den Dienstag-Teil des Experiments (anstelle eines phantasievollen Amnesia- kums) ein klares Modell des SB-Aufbaus, das eindeutig analysiert werden kann. Modelliert man dies auf standardmäßige Weise mit Hilfe der statistischen Entscheidungstheorie, so zeigt sich, dass hier tatsächlich zwei Fragen gestellt werden (wie groß ist die Chance, dass eine faire Münze Köpfe landet? Und wie groß ist die Chance, dass die Münze Köpfe landet, vorausgesetzt, Sie waren der Klon wer wurde geweckt? ). Die Antwort ist entweder 1/2 (im ersten Fall) oder 1/3 (im zweiten Fall nach dem Bayes-Theorem). An dieser Lösung waren keine quantenmechanischen Prinzipien beteiligt :-).
Arntzenius, Frank (2002). Reflexionen über Dornröschen . Analyse 62,1 S. 53-62. Elga, Adam (2000). Der Glaube an sich selbst und das Dornröschenproblem. Analyse 60, S. 143-7.
Franceschi, Paul (2005). Dornröschen und das Problem der Weltreduktion . Preprint.
Groisman, Berry (2007). Das Ende des Albtraums von Dornröschen .
Lewis, D. (2001). Dornröschen: Antworte Elga . Analyse 61,3, S. 171-6.
Papineau, David und Victor Dura-Vila (2008). Ein Dreier und ein Everettianer: eine Antwort auf Lewis '' Quantum Sleeping Beauty ' .
Pust, Joel (2008). Horgan über Dornröschen . Synthese 160, S. 97-101.
Vineberg, Susan (undatiert, vielleicht 2003). Die warnende Geschichte der Schönheit .
Alle sind im Web zu finden (oder wurden zumindest vor einigen Jahren gefunden).
Das St.Petersburger Paradoxon , das Sie dazu bringt, das Konzept und die Bedeutung von Expected Value anders zu denken . Die Intuition (hauptsächlich für Personen mit statistischem Hintergrund) und die Berechnungen liefern unterschiedliche Ergebnisse.
Das Jeffreys-Lindley-Paradoxon , das zeigt, dass häufig verwendete und bayesianische Hypothesentestmethoden unter Umständen völlig widersprüchliche Antworten liefern können. Es zwingt die Benutzer wirklich dazu, genau darüber nachzudenken, was diese Testformen bedeuten, und zu überlegen, ob dies das ist, was sie wirklich wollen. Ein aktuelles Beispiel finden Sie in dieser Diskussion .
Es gibt den berühmten Zwei-Mädchen-Irrtum:
Wie stehen die Chancen, dass in einer Familie mit zwei Kindern beide Kinder Mädchen sind, wenn eines der Kinder ein Mädchen ist?
Die meisten Leute sagen es intuitiv 1/2
, aber die Antwort ist 1/3
. Grundsätzlich geht es darum, dass die einheitliche Auswahl "eines Mädchens von allen Mädchen mit einem Geschwister" nicht gleichbedeutend ist mit der einheitlichen Auswahl "einer Familie von allen Familien mit zwei Kindern und mindestens einem Mädchen".
Dieser ist einfach genug, um mit der Intuition in Einklang zu kommen, wenn Sie ihn erst einmal verstanden haben, aber es gibt kompliziertere Versionen, die schwerer zu verstehen sind:
Wie stehen die Chancen, dass in einer Familie mit zwei Kindern, wenn eines der Kinder ein am Dienstag geborener Junge ist, beide Kinder Jungen sind? (Antwort: 13/27)
Wie stehen die Chancen, dass in einer Familie mit zwei Kindern beide Kinder Mädchen sind, wenn eines der Kinder ein Mädchen namens Florida ist? (Antwort: sehr nahe an 1/2, vorausgesetzt "Florida" ist ein extrem seltener Name)
Weitere Informationen zu all diesen Rätseln finden Sie in dieser Antwort .
(Auch: Mehr Infos zu Jungen, die am Dienstag geboren wurden , mehr Infos zu Mädchen namens Florida )
1/3
nicht 2/3
sicher? Nur einer vonGB, BG, GG
Tut mir leid, aber ich kann mir nicht helfen (auch ich liebe statistische Paradoxien!).
Auch dies ist vielleicht kein Paradox an sich und ein weiteres Beispiel für die Verzerrung ausgelassener Variablen.
Zufällige Verursachung / Regression
Jede Variable mit einem Zeittrend wird mit einer anderen Variablen korreliert, die ebenfalls einen Zeittrend aufweist. Zum Beispiel mein Gewicht von der Geburt bis zum Alter von 27 Jahren wird 27. Offensichtlich mit Ihrem Gewicht von Geburt bis zum Alter stark korreliert sein, wird mein Gewicht nicht verursacht durch Ihr Gewicht. Wenn ja, bitte ich Sie, öfter ins Fitnessstudio zu gehen.
Hier ist eine weggelassene Variablenerklärung. Sei mein Gewicht und dein Gewicht , wobei
Dann hat die Regression eine ausgelassene Variable, den , der mit der eingeschlossenen Variablen korreliert . Daher ist der Koeffizient voreingenommen (in diesem Fall positiv, da unsere Gewichte mit der Zeit zunehmen).
Wenn Sie eine Zeitreihenanalyse durchführen, müssen Sie sicher sein, dass Ihre Variablen stationär sind, sonst erhalten Sie diese falschen Kausalitätsergebnisse.
(Ich gebe voll zu, dass ich meine hier gegebene Antwort plagiiert habe .)
Einer meiner Favoriten ist das Monty Hall-Problem. Ich erinnere mich, wie ich es in einer Grundstufe gelernt habe und meinem Vater gesagt habe, da wir beide ungläubig waren, habe ich Zufallszahlen simuliert und wir haben das Problem ausprobiert. Zu unserem Erstaunen war es wahr.
Grundsätzlich besagt das Problem, dass, wenn Sie drei Türen in einer Spielshow hatten, hinter denen eine einen Preis und die anderen beiden nichts mehr sehen, wenn Sie eine Tür ausgewählt haben und dann erfahren haben, dass die verbleibenden beiden Türen keine Preistür waren und durfte Ihre Wahl wechseln, wenn Sie sich dafür entschieden haben, sollten Sie Ihre aktuelle Tür auf die verbleibende Tür umstellen.
Hier ist auch der Link zu einer R-Simulation: LINK
Parrondos Paradoxon:
Aus wikipdedia : "Parrondos Paradoxon, ein Paradoxon in der Spieltheorie, wurde beschrieben als: Eine Kombination von Verlierstrategien wird zu einer Gewinnstrategie. Es ist nach seinem Schöpfer Juan Parrondo benannt, der das Paradoxon 1996 entdeckte :
Es gibt Spielpaare mit einer höheren Wahrscheinlichkeit zu verlieren als zu gewinnen, für die es möglich ist, eine Gewinnstrategie zu konstruieren, indem die Spiele abwechselnd gespielt werden.
Parrondo entwickelte das Paradoxon im Zusammenhang mit seiner Analyse der Brownschen Ratsche, einem Gedankenexperiment über eine Maschine, die angeblich Energie aus zufälligen Wärmebewegungen extrahieren kann, die der Physiker Richard Feynman popularisierte. Das Paradoxon verschwindet jedoch, wenn es genau analysiert wird. "
So verlockend das Paradox für die Finanzwelt auch sein mag, es gibt Anforderungen, die in Finanzzeitreihen nicht ohne weiteres verfügbar sind. Auch wenn einige der Komponentenstrategien verlieren können, erfordern die Ausgleichsstrategien ungleiche und stabile Wahrscheinlichkeiten von viel mehr oder weniger als 50%, damit der Ratscheneffekt einsetzt. Es wäre schwierig, Finanzstrategien zu finden, bei denen man hat und das andere über lange Zeiträume.
Es gibt auch ein neueres verwandtes Paradoxon namens " Allison-Mischung ", das zeigt, dass wir zwei IID- und nicht korrelierte Reihen nehmen und sie zufällig verwürfeln können, so dass bestimmte Mischungen eine resultierende Reihe mit einer Autokorrelation ungleich Null erzeugen können.
Es ist interessant, dass das Zwei-Kinder-Problem und das Monty-Hall-Problem im Kontext des Paradoxons so oft zusammen erwähnt werden. Beide veranschaulichen ein scheinbares Paradoxon, das erstmals 1889 dargestellt wurde und als Bertrands Box-Paradoxon bezeichnet wird und das verallgemeinert werden kann, um eines von beiden darzustellen. Ich finde es ein höchst interessantes "Paradoxon", weil dieselben sehr gebildeten, sehr intelligenten Leute diese beiden Probleme in Bezug auf dieses Paradoxon auf entgegengesetzte Weise beantworten. Es ist auch mit einem Prinzip vergleichbar, das in Kartenspielen wie Bridge verwendet wird, das als Prinzip der eingeschränkten Auswahl bekannt ist und dessen Auflösung sich in der Vergangenheit bewährt hat.
Angenommen, Sie haben einen zufällig ausgewählten Artikel, den ich als "Box" bezeichnen werde. Jede mögliche Box hat mindestens eine von zwei symmetrischen Eigenschaften, einige haben jedoch beide. Ich werde die Eigenschaften "Gold" und "Silber" nennen. Die Wahrscheinlichkeit, dass eine Box nur Gold ist, ist P; und da die Eigenschaften symmetrisch sind, ist P auch die Wahrscheinlichkeit, dass eine Box nur Silber ist. Das macht die Wahrscheinlichkeit, dass eine Box nur eine Eigenschaft 2P hat, und die Wahrscheinlichkeit, dass sie beide 1–2P hat.
Wenn Sie wissen, dass eine Schachtel Gold ist, aber nicht, ob es Silber ist, könnten Sie versucht sein, zu sagen, dass die Wahrscheinlichkeit, dass es sich nur um Gold handelt, P / (P + (1-2P)) = P / (1-P) ist. Aber dann müssten Sie die gleiche Wahrscheinlichkeit für eine einfarbige Schachtel angeben, wenn Sie erfahren würden, dass es sich um Silber handelt. Und wenn diese Wahrscheinlichkeit P / (1-P) ist, wenn Ihnen nur eine Farbe gesagt wird, muss sie P / (1-P) sein, auch wenn Ihnen keine Farbe gesagt wird. Wir wissen jedoch, dass es sich um 2P aus dem letzten Absatz handelt.
Dieses offensichtliche Paradoxon wird gelöst, indem festgestellt wird, dass es keine Unklarheit darüber gibt, welche Farbe Ihnen mitgeteilt wird, wenn eine Box nur eine Farbe hat. Aber wenn es zwei hat, gibt es eine implizite Wahl. Man muss wissen, wie diese Wahl getroffen wurde, um die Frage zu beantworten, und das ist die Wurzel des offensichtlichen Paradoxons. Wenn Sie nicht informiert werden, können Sie nur annehmen, dass eine Farbe zufällig ausgewählt wurde, und die Antwort lautet P / (P + (1-2P) / 2) = 2P. Wenn Sie darauf bestehen, dass P / (1-P) die Antwort ist, gehen Sie implizit davon aus, dass es keine Möglichkeit gibt, die andere Farbe zu erwähnen, es sei denn, es war die einzige Farbe.
Im Monty-Hall-Problem ist die Analogie für die Farben nicht sehr intuitiv, aber P = 1/3. Antworten auf der Basis der zwei ungeöffneten Türen ursprünglich gleich wahrscheinlich sind haben , den Preis davon aus Monty Hall erforderlich war , um die Tür zu öffnen , tat er, auch wenn er die Wahl hätte. Diese Antwort lautet P / (1-P) = 1/2. Die Antwort, die es ihm erlaubt, zufällig zu wählen, ist 2P = 2/3 für die Wahrscheinlichkeit, dass die Umstellung gewinnen wird.
In der Zwei-Kinder-Frage lassen sich die Farben meiner Analogie gut mit denen der Geschlechter vergleichen. Bei vier Fällen ist P = 1/4. Um die Frage zu beantworten, müssen wir wissen, wie festgestellt wurde, dass ein Mädchen in der Familie war. Wenn es möglich war, mit dieser Methode etwas über einen Jungen in der Familie zu lernen, lautet die Antwort 2P = 1/2, nicht P / (1-P) = 1/3. Es ist etwas komplizierter, wenn man den Namen Florida in Betracht zieht oder "am Dienstag geboren", aber die Ergebnisse sind die gleichen. Die Antwort ist genau 1/2, wenn es eine Wahl gab, und die meisten Aussagen des Problems implizieren eine solche Wahl. Und der Grund, warum "von 1/3 auf 13/27 oder von 1/3 auf" fast 1/2 "gewechselt wird, scheint paradox und nicht intuitiv zu sein, weil die Annahme, keine Wahl zu treffen, nicht intuitiv ist.
Sagen Sie im Prinzip der eingeschränkten Auswahl, dass Sie einen Satz gleichwertiger Karten vermissen - wie den Buben, die Dame und den König derselben Farbe. Die Chancen stehen gut, dass eine bestimmte Karte einem bestimmten Gegner gehört. Aber nachdem ein Gegner eine Karte ausgespielt hat, verringert sich seine Chance, eine der anderen zu haben, weil er diese Karte hätte ausspielen können, wenn er sie hätte.
Ich mag Folgendes: Der Host verwendet eine unbekannte Verteilung auf , um unabhängig voneinander zwei Zahlen auszuwählen . Das einzige, was dem Spieler über die Verteilung bekannt ist, ist, dass . Dem Spieler wird dann die Nummer angezeigt und er wird gefragt, ob oder . Wenn der Spieler immer errät, ist der Spieler mit einer Wahrscheinlichkeit von korrekt . Zumindest überraschend, wenn nicht paradoxerweise, kann der Spieler diese Strategie verbessern. Ich fürchte, ich habe keine Verbindung zum Problem (ich habe es vor vielen Jahren während eines Workshops gehört).x , y ≤ [ 0 , 1 ] P ( x = y ) = 0 x y > x y < x y > x 0,5
Ich finde eine vereinfachte grafische Darstellung des ökologischen Trugschlusses (hier das Abstimmungsparadoxon zwischen dem reichen und dem armen Staat), die mir auf einer intuitiven Ebene hilft zu verstehen, warum sich die Abstimmungsmuster umkehren, wenn wir die Bevölkerung des Staates aggregieren:
Angenommen, Sie haben Daten zu Geburten in der königlichen Familie eines Königreichs erhalten. Im Stammbaum wurde jede Geburt vermerkt. Das Besondere an dieser Familie war, dass die Eltern erst versuchten, ein Kind zu bekommen, als der erste Junge geboren wurde und dann keine Kinder mehr hatte.
Ihre Daten sehen also möglicherweise ungefähr so aus:
G G B
B
G G B
G B
G G G G G G G G G B
etc.
Wird der Anteil der Jungen und Mädchen in dieser Stichprobe die allgemeine Wahrscheinlichkeit widerspiegeln, einen Jungen zur Welt zu bringen (etwa 0,5)? Die Antwort und Erklärung finden Sie in diesem Thread .
Dies ist wieder Simpsons Paradox, aber "rückwärts" und "vorwärts" stammt aus Judea Pearls neuem Buch Causal Inference in Statistics: A primer [^ 1]
Das klassische Simpon's Paradox funktioniert folgendermaßen: Überlegen Sie, ob Sie zwischen zwei Ärzten wählen möchten. Sie wählen automatisch diejenige mit den besten Ergebnissen. Angenommen, derjenige mit den besten Ergebnissen wählt die einfachsten Fälle aus. Die schlechtere Bilanz des anderen ist eine Folge schwierigerer Arbeit.
Wen wählst du jetzt? Betrachten Sie die Ergebnisse besser nach Schwierigkeitsgraden und entscheiden Sie dann.
Es gibt eine andere Seite der Medaille (ein anderes Paradoxon), die besagt, dass die geschichteten Ergebnisse auch dazu führen können, dass Sie die falsche Wahl treffen.
Diesmal überlegen Sie, ob Sie ein Medikament nehmen möchten oder nicht. Das Medikament hat eine toxische Nebenwirkung, aber sein therapeutischer Wirkmechanismus ist die Senkung des Blutdrucks. Insgesamt verbessert das Medikament die Ergebnisse in der Bevölkerung, aber bei einer Schichtung nach der Behandlung des Blutdrucks sind die Ergebnisse sowohl in der niedrigen als auch in der hohen Blutdruckgruppe schlechter. Wie kann das wahr sein? Weil wir uns ungewollt auf das Ergebnis geeinigt haben und in jedem Ergebnis nur noch die toxische Nebenwirkung zu beobachten ist.
Stellen Sie sich zur Verdeutlichung vor, dass die Droge dazu bestimmt ist, gebrochene Herzen zu heilen, und zwar durch Senken des Blutdrucks, und anstatt auf den Blutdruck zu schichten, schichten wir auf feste Herzen. Wenn das Medikament wirkt, ist das Herz fixiert (und der Blutdruck wird niedriger sein), aber einige Patienten bekommen auch die toxische Nebenwirkung. Da die Droge wirkt, wird die Gruppe mit dem „festen Herzen“ mehr Patienten haben, die die Droge eingenommen haben, als es Patienten gibt, die die Droge in der Gruppe mit dem „gebrochenen Herzen“ einnehmen. Mehr Patienten, die das Medikament einnehmen, haben mehr Nebenwirkungen und offenbar (aber fälschlicherweise) bessere Ergebnisse für Patienten, die das Medikament nicht einnehmen.
Die Patienten, die ohne das Medikament besser werden, haben einfach Glück. Die Patienten, die die Droge einnahmen und besser wurden, sind eine Mischung aus denen, die die Droge brauchten, um besser zu werden, und denen, die sowieso Glück gehabt hätten. Wenn nur Patienten mit „festem Herzen“ untersucht werden, bedeutet dies, dass Patienten ausgeschlossen werden, die ohne die Einnahme des Arzneimittels nicht behandelt worden wären . Das Ausschließen solcher Patienten bedeutet das Ausschließen des Schadens durch Nichteinnahme des Arzneimittels, was wiederum bedeutet, dass wir nur den Schaden durch die Einnahme des Arzneimittels sehen.
Das Paradoxon von Simpson tritt auf, wenn es eine andere Ursache für das Ergebnis als die Behandlung gibt, z. B. die Tatsache, dass Ihr Arzt nur schwierige Fälle durchführt. Das Kontrollieren für die gemeinsame Ursache (schwierige versus einfache Fälle) ermöglicht es uns, die wahre Wirkung zu erkennen. Im letzteren Beispiel haben wir uns unbeabsichtigt auf ein Ergebnis und nicht auf eine Ursache konzentriert, was bedeutet, dass die wahre Antwort in der Summe und nicht in den geschichteten Daten besteht.
[^ 1]: Pearl J. Causal Inference in Statistics. John Wiley & Sons; 2016
Einer meiner "Favoriten", was bedeutet, dass mich die Interpretation vieler Studien (und oft auch der Autoren selbst, nicht nur der Medien) verrückt macht, ist Survivorship Bias .
Eine Möglichkeit, sich das vorzustellen, ist die Annahme, dass es einen Effekt gibt, der für die Probanden sehr schädlich ist, so sehr, dass es eine sehr gute Chance hat, sie zu töten. Wenn die Probanden vor Beginn der Studie diesem Effekt ausgesetzt sind, haben die noch lebenden Probanden zu Beginn der Studie eine sehr hohe Wahrscheinlichkeit, ungewöhnlich belastbar zu sein. Buchstäblich natürliche Auslese bei der Arbeit. Wenn dies geschieht, werden Sie beobachten die Studie , dass exponierten Personen ungewöhnlich gesund sind (da alle ungesunde bereits gestorben oder sorgte dafür , dass der Wirkung ist ausgesetzt zu stoppen) .Dieses oft als was bedeutet , dass die Exposition falsch interpretiert tatsächlich ist gut für die Fächer. Dies ist ein Ergebnis des Ignorierens der Kürzung (dh Ignorieren der Probanden, die gestorben sind und es nicht in die Studie geschafft haben).
Ebenso sind Probanden, die während der Studie nicht mehr dem Effekt ausgesetzt sind, oft unglaublich ungesund. Dies liegt daran, dass sie erkannt haben, dass eine anhaltende Exposition sie wahrscheinlich töten wird. Die Studie stellt jedoch lediglich fest, dass diejenigen, die gekündigt haben, sehr ungesund sind!
@ Charlies Antwort über die Bomber des Zweiten Weltkriegs kann als Beispiel dafür angesehen werden, aber es gibt auch viele moderne Beispiele. Ein aktuelles Beispiel sind Studien, in denen berichtet wird, dass täglich mehr als 8 Tassen Kaffee getrunken werden(!!) ist bei Personen über 55 Jahren mit einer viel höheren Herzgesundheit verbunden. Viele Menschen mit einem Doktortitel interpretierten dies als "Kaffeetrinken ist gut für Ihr Herz!", Einschließlich der Autoren der Studie. Ich lese das, weil man ein unglaublich gesundes Herz haben muss, um nach 55 Jahren noch 8 Tassen Kaffee pro Tag zu trinken und keinen Herzinfarkt zu haben. Auch wenn es Sie nicht umbringt, werden Sie in dem Moment, in dem etwas gesundheitlich bedenklich erscheint, von jedem, der Sie liebt (und von Ihrem Arzt), sofort dazu aufgefordert, keinen Kaffee zu trinken. Weitere Studien ergaben, dass das Trinken von so viel Kaffee in jüngeren Gruppen keine vorteilhaften Auswirkungen hatte, was meines Erachtens eher ein Beweis dafür ist, dass wir einen Überlebenseffekt als einen positiven Kausaleffekt sehen. Dennoch rennen viele Doktoranden herum und sagen: "
Ich bin überrascht, dass noch niemand Newcombes Paradox erwähnt hat, obwohl dies in der Entscheidungstheorie stärker diskutiert wird. Es ist definitiv einer meiner Favoriten.
Sei x, y und z unkorrelierte Vektoren. Dennoch werden x / z und y / z korreliert.