Wenn das Wahrscheinlichkeitsprinzip mit der Wahrscheinlichkeit eines Frequentisten kollidiert, verwerfen wir dann eines davon?


19

In einem kürzlich hier veröffentlichten Kommentar verwies ein Kommentator auf einen Blog von Larry Wasserman, der (ohne Quellenangabe) darauf hinwies, dass frequentistische Schlussfolgerungen mit dem Wahrscheinlichkeitsprinzip in Konflikt stehen.

Das Wahrscheinlichkeitsprinzip besagt einfach, dass Experimente mit ähnlichen Wahrscheinlichkeitsfunktionen ähnliche Schlussfolgerungen liefern sollten.

Zwei Teile zu dieser Frage:

  1. Welche Teile, der Geschmack oder die Schule der frequentistischen Folgerung verstoßen spezifisch gegen das Wahrscheinlichkeitsprinzip?

  2. Wenn es zu einem Konflikt kommt, müssen wir dann den einen oder anderen wegwerfen? Wenn ja, welche? Ich möchte der Diskussion zuliebe vorschlagen, dass wir, wenn wir etwas verwerfen müssen, die Teile der frequentistischen Folgerung verwerfen, die aufeinander treffen, weil Hacking und Royall mich davon überzeugt haben, dass das Wahrscheinlichkeitsprinzip axiomatisch ist.


2
Ich habe nie verstanden, warum das Wahrscheinlichkeitsprinzip ein Axiom sein sollte.
Stéphane Laurent

6
Hallo Stéphane. Das Problem ist, dass Birnbaum bewiesen hat, dass die Wahrscheinlichkeit zwei anderen Prinzipien entspricht, die so natürlich sind, dass sie unbedingt gelten sollten. Zu diesem Ergebnis haben wir eine kurze Rezension verfasst. Hier: ime.usp.br/~pmarques/papers/redux.pdf
Zen

@ Zen Danke. Auf den ersten Blick ist der Punkt, mit dem ich nicht einverstanden bin, dieser Satz, der unter dem Konditionalitätsprinzip geschrieben ist: "Was zählt, ist, was tatsächlich passiert ist". Ich sollte stattdessen sagen "Was zählt, ist, was tatsächlich unter den Problemen passiert ist, die aufgetreten sein könnten" (sorry, wenn mein Englisch nicht korrekt ist). Das habe ich in meiner Diskussion mit gui11aume behauptet: In gewissem Sinne behauptet das Wahrscheinlichkeitsprinzip, dass die Gestaltung des Experiments keine Rolle spielt, und ich kann diesem Punkt nicht zustimmen.
Stéphane Laurent

1
@Zen Jetzt habe ich deine Zeitung genauer durchgelesen. Es ist wahr, dass es schwierig ist, dem Konditionalitätsprinzip und dem Invarianzprinzip zu widersprechen.
Stéphane Laurent

1
LP ist heutzutage aus praktischen Gründen nicht so beliebt. Indem Sie es religiös anwenden, vermeiden Sie die Verwendung von modellabhängigen Prioritäten wie den vorherigen, konjugierten Prioritäten und Hypothesentests von Jeffreys, die in vielen Zusammenhängen nützlich sein können. Ich glaube , dass die Statistiken, gleich wie Physik , können nicht in einer sinnvollen Art und Weise axiomatised werden (obwohl diese Diskussion wie auch klingen mag dies ). Es ist jedoch wichtig, Vor- und Nachteile verschiedener Paradigmen zu identifizieren.

Antworten:


12

Der Teil des frequentistischen Ansatzes, der mit dem Wahrscheinlichkeitsprinzip kollidiert, ist die Theorie des statistischen Testens (und der p-Wert-Berechnung). Es wird normalerweise durch das folgende Beispiel hervorgehoben.

Angenommen, zwei Frequentisten wollen eine voreingenommene Münze studieren, die mit unbekannter Wahrscheinlichkeit „Köpfe“ dreht . Sie vermuten , dass es in Richtung ‚Schwanz‘ vorgespannt ist, so dass sie die gleiche Nullhypothese postulieren p = 1 / 2 und die gleiche alternative Hypothese p < 1 / 2 .pp=1/2p<1/2

Der erste Statistiker wirft die Münze, bis "Köpfe" auftauchen, was zufällig sechsmal der Fall ist. Der zweite Spieler wirft die Münze sechsmal und erhält beim letzten Wurf nur einen "Kopf".

Nach dem Modell des ersten Statistikers wird der p-Wert wie folgt berechnet:

p(1p)5+p(1p)6+...=p(1p)511p=p(1p)4.

Nach dem Modell des zweiten Statistikers wird der p-Wert wie folgt berechnet:

(61)p(1p)5+(60)(1p)6=(5p+1)(1p)5.

Ersetzen von von 1 / 2 , der ersten findet einen p-Wert von gleich 1 / 2 5p1/2 , gleich die zweiten findet ein p-Wert auf 7 / 2 × 1 / 2 51/25=0.03125 .7/2×1/25=0.109375

Sie erzielen unterschiedliche Ergebnisse, weil sie unterschiedliche Dinge getan haben, richtig? Nach dem Wahrscheinlichkeitsprinzip sollten sie jedoch zu demselben Ergebnis kommen. Kurz gesagt, das Wahrscheinlichkeitsprinzip besagt, dass die Wahrscheinlichkeit alles ist, was für die Schlussfolgerung von Bedeutung ist. Der Konflikt ergibt sich hier aus der Tatsache, dass beide Beobachtungen die gleiche Wahrscheinlichkeit haben, proportional zu (Wahrscheinlichkeit wird bis zu einer Proportionalitätskonstante bestimmt).p(1p)5

Soweit ich weiß, ist die Antwort auf Ihre zweite Frage eher eine umstrittene Meinung. Ich persönlich versuche zu vermeiden, Tests durchzuführen und p-Werte zu berechnen, aus dem oben genannten Grund und für andere, die in diesem Blog-Beitrag erläutert werden .

EDIT: Nun, da ich darüber nachdenke, würden sich auch die Schätzungen von nach Konfidenzintervallen unterscheiden. Wenn sich die Modelle unterscheiden, unterscheidet sich das CI tatsächlich durch die Konstruktion.p


1
Ich habe den Eindruck, dass das Wahrscheinlichkeitsprinzip in der frequentistischen Statistik offensichtlich verletzt wird (Hypothesentest, Konfidenzintervalle), weil wir die Wahrscheinlichkeit jedes möglichen Ergebnisses berücksichtigen und nicht nur die Wahrscheinlichkeit, die auf dem tatsächlichen Ergebnis basiert. Recht ?
Stéphane Laurent

@Stéphane laurent ja so verstehe ich das auch James Berger hat ein gutes Zitat in Statistical Decision Theory und Bayesian Analysis , das besagt, dass Frequentisten Hypothesen manchmal ablehnen, weil Daten nie beobachtet wurden (es klingt besser, aber ich kann mich nicht daran erinnern).
gui11aume

Danke, gui11aume. Habe ich Recht, dies als ein Beispiel zu interpretieren, bei dem die "Bedeutung" von P-Werten mit der Absicht des Experimentators variiert? Ich nehme an, dass dies der Fall ist, wenn P-Werte als eine Art falsch-positive Fehlerrate interpretiert werden, weil sie unter der Nullhypothese gleichmäßig verteilt werden müssten. Ist dies beim Fisher-Ansatz erforderlich, bei dem P-Werte als Indizien für die Stärke der Evidenz dargestellt werden?
Michael Lew

4
(+1) Diese Art von Diskrepanzen tritt normalerweise auf, wenn in einem der Modelle eine Stoppregel vorhanden ist.

1
@Scortchi Eigentlich habe ich zu Unrecht gedacht, dass einer der P-Werte auf die richtige Wahrscheinlichkeitsfunktion hinweist und der andere nicht: beide zeigen auf die gleiche Wahrscheinlichkeitsfunktion, die die für die Wahrscheinlichkeit von Köpfen relevanten Beweise liefert. Sie sollten die letzten beiden Sätze meines vorherigen Kommentars ignorieren. (Ich kann es nicht bearbeiten, kann ich?)
Michael Lew

4

Ich mag das Beispiel von @ gui11aume (+1), aber es kann den Eindruck erwecken, dass der Unterschied in zwei p Werten nur aufgrund der unterschiedlichen Stoppregeln der beiden Experimentatoren entsteht.

Tatsächlich glaube ich, dass es ein viel allgemeineres Phänomen ist. Betrachten Sie den zweiten Experimentator in @ gui11aumes Antwort: derjenige, der sechs Mal eine Münze wirft und nur beim letzten Wurf Köpfe beobachtet. Die Ergebnisse sehen so aus:

TTTTTH,
p764p=7/640.109 .

3p=3/640.047

α=0.05 , könnte die Wahl der Teststatistik die Ergebnisse leicht signifikant machen oder nicht, und dies hat nichts mit den Stoppregeln an sich zu tun .


Spekulativer Teil

Aus philosophischer Sicht würde ich nun sagen, dass die häufigste Auswahl der Teststatistik in einem vagen Sinn der Bayes'schen Auswahl der Prior ähnelt. Wir wählen die eine oder andere Teststatistik, weil wir glauben, dass sich die unfaire Münze auf diese oder jene Weise verhält (und wir möchten die Macht haben, dieses Verhalten zu erkennen). Ist es nicht ähnlich, die Münztypen vorzuziehen?

Wenn ja, dann kollidiert das Wahrscheinlichkeitsprinzip, das besagt, dass alle Beweise in der Wahrscheinlichkeit sind, nicht mit dem ppp Wert versucht, sowohl den Beweis als auch eine Art von früheren Erwartungen (wie in der Wahl der Teststatistik dargestellt) in einer skalaren Menge zu kombinieren. Wenn ja, dann sollte es nicht mit der Wahrscheinlichkeit selbst verglichen werden, sondern vielleicht eher mit dem posterioren?

Es würde mich sehr interessieren, hier oder im Chat einige Meinungen zu diesem spekulativen Teil zu hören.


Aktualisiere folgende Diskussion mit @MichaelLew

ppp Werte unterscheiden.

Ich muss mir noch überlegen, was das für meinen "spekulativen" Teil oben bedeutet.


Interessante Gedanken. Ja, ich stimme zu, dass es keinen Konflikt zwischen LP- und P-Werten geben muss, solange die P-Werte nicht wie die Wahrscheinlichkeitsfunktion als Beweis interpretiert werden . Die Likelihood-Funktion enthält die für den Parameter von Interesse relevanten Nachweise für das statistische Modell . Wenn Sie die Teststatistik ändern, ändern Sie das Modell, sodass die Wahrscheinlichkeitsfunktion für Ihr alternatives Modell von der Wahrscheinlichkeitsfunktion für das Original abweicht.
Michael Lew

Michael, ich bin mir nicht sicher, was genau "statistisches Modell" bedeutet, aber ich bin keine Münze mit Kopfwahrscheinlichkeit pschon ein Model? Wie ändert die Änderung der Teststatistik das Modell?
Amöbe sagt Reinstate Monica

Abgesehen davon habe ich diese Frage gefunden, weil ich Ihr "To P or not to P" -Papier erneut gelesen habe (und das "Likelihood-Prinzip" gegoogelt habe). Ich mag das Papier im Allgemeinen, aber der Abschnitt 4.4 hat mich völlig verwirrt. Sie schreiben, dass die p-Werte nicht unter Berücksichtigung von Stoppregeln "angepasst" werden sollten. aber ich sehe keine Anpassungen in den Formeln 5-6. Was wären "unangepasste" p-Werte? Meinen Sie damit, dass einer von ihnen angepasst ist und ein anderer nicht? Wenn ja, welche und warum nicht umgekehrt?
Amöbe sagt Reinstate Monica

Das statistische Modell wird oft ignoriert oder stillschweigend als invariant angenommen. Für die Münzen enthält es jedoch eine festgelegte unbekannte Wahrscheinlichkeit von Köpfen, eine zufällige Auswahl von Beobachtungen und für die Teststatistik für Köpfe außerhalb von Versuchen die binomiale Verteilung möglicher Ergebnisse. Ich weiß nicht, wie die Verteilung der Ergebnisse für die Schwänze in einer Reihenteststatistik ist, aber ich vermute, dass es anders ist. Auch wenn es dasselbe ist, ist das Modell mit Ihrer Teststatistik nicht dasselbe Modell wie das Original, und daher kann die Wahrscheinlichkeitsfunktion unterschiedlich sein, obwohl sie alle Beweise enthält.
Michael Lew

Ich bin fast fertig mit der Überarbeitung des Papiers. Es ist relevant für diese Diskussion, aber noch nicht zur Einreichung bereit. (Ist das ein Chat?)
Michael Lew
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.