Ausschlussklausel: Ich glaube, diese Antwort ist der Kern des gesamten Arguments. Daher ist es eine Diskussion wert, aber ich habe das Problem nicht vollständig untersucht. Daher begrüße ich Korrekturen, Verfeinerungen und Kommentare.
Der wichtigste Aspekt betrifft die sequentiell gesammelten Daten. Angenommen, Sie haben binäre Ergebnisse beobachtet und 10 Erfolge und 5 Fehler festgestellt. Das Likelihood-Prinzip besagt, dass Sie zu derselben Schlussfolgerung über die Erfolgswahrscheinlichkeit kommen sollten, unabhängig davon, ob Sie Daten gesammelt haben, bis Sie 10 Erfolge (negatives Binomial) oder 15 Versuche durchgeführt haben, von denen 10 Erfolge (Binomial) waren .
Warum ist das wichtig?
Denn nach dem Wahrscheinlichkeitsprinzip (oder zumindest nach einer bestimmten Interpretation) ist es völlig in Ordnung, die Daten zu beeinflussen, wenn Sie die Datenerfassung beenden, ohne Ihre Inferenz-Tools ändern zu müssen.
Konflikt mit sequentiellen Methoden
Die Idee, anhand Ihrer Daten zu entscheiden, wann die Datenerfassung eingestellt werden soll, ohne dass die Inferenz-Tools geändert werden, steht im Widerspruch zu herkömmlichen sequentiellen Analysemethoden. Das klassische Beispiel hierfür sind Methoden, die in klinischen Studien eingesetzt werden. Um die potenzielle Exposition gegenüber schädlichen Behandlungen zu verringern, werden Daten häufig zu Zwischenzeiten analysiert, bevor die Analyse durchgeführt wird. Wenn die Studie noch nicht abgeschlossen ist, die Forscher jedoch bereits über genügend Daten verfügen, um zu dem Schluss zu gelangen, dass die Behandlung funktioniert oder schädlich ist, sollten wir die Studie aus medizinischen Gründen abbrechen. Wenn die Behandlung funktioniert, ist es ethisch vertretbar, die Studie abzubrechen und die Behandlung für Patienten außerhalb der Studie bereitzustellen. Wenn es schädlich ist, ist es ethischer, aufzuhören, damit wir keine Versuchspatienten mehr einer schädlichen Behandlung aussetzen.
Das Problem ist nun, dass wir begonnen haben, mehrere Vergleiche durchzuführen. Daher haben wir die Fehlerrate von Typ I erhöht, wenn wir unsere Methoden nicht anpassen, um die mehreren Vergleiche zu berücksichtigen. Dies ist nicht ganz dasselbe wie bei herkömmlichen Mehrfachvergleichsproblemen, da es sich tatsächlich um mehrere Teilvergleiche handelt (dh wenn wir die Daten einmal mit 50% der gesammelten Daten und einmal mit 100% analysieren, sind diese beiden Stichproben eindeutig nicht unabhängig!). Je mehr Vergleiche wir durchführen, desto mehr müssen wir im Allgemeinen unsere Kriterien für die Ablehnung der Nullhypothese ändern, um die Fehlerrate des Typs I zu erhalten. Weitere Vergleiche sind geplant und erfordern mehr Nachweise für die Ablehnung der Null.
Dies stellt klinische Forscher in ein Dilemma; Wollen Sie Ihre Daten häufig überprüfen, dann aber die erforderlichen Nachweise zur Ablehnung der Null erhöhen, oder wollen Sie Ihre Daten selten überprüfen, um Ihre Leistungsfähigkeit zu erhöhen, aber möglicherweise nicht in der medizinisch-ethischen Hinsicht optimal zu handeln (z. B. möglicherweise)? Verzögerung der Markteinführung oder unnötig lange Exposition der Patienten gegenüber schädlicher Behandlung).
Es ist mein (vielleicht falsches) Verständnis, dass das Wahrscheinlichkeitsprinzip uns zu sagen scheint, dass es egal ist, wie oft wir die Daten überprüfen, wir sollten den gleichen Schluss ziehen. Dies besagt im Grunde, dass alle Ansätze für das sequentielle Studiendesign völlig unnötig sind; Verwenden Sie einfach das Wahrscheinlichkeitsprinzip und hören Sie auf, sobald Sie genügend Daten gesammelt haben, um eine Schlussfolgerung zu ziehen. Da Sie Ihre Inferenzmethoden nicht ändern müssen, um sich an die Anzahl der von Ihnen erstellten Analysen anzupassen, gibt es kein Kompromissdilemma zwischen der Anzahl der Überprüfungen und der Leistung. Bam, das ganze Feld der sequentiellen Analyse ist gelöst (nach dieser Interpretation).
Was mich persönlich sehr verwirrt, ist die Tatsache, dass die Wahrscheinlichkeit der endgültigen Teststatistik durch die Abbruchregel weitgehend geändert wird. Grundsätzlich erhöhen die Stoppregeln die Wahrscheinlichkeit diskontinuierlich an den Stoppunkten. Hier ist eine Handlung einer solchen Verzerrung; Die gestrichelte Linie ist die PDF-Datei der endgültigen Teststatistik unter der Null, wenn die Daten erst analysiert werden, nachdem alle Daten erfasst wurden, während die durchgezogene Linie die Verteilung unter der Null der Teststatistik angibt, wenn Sie die Daten viermal mit einer bestimmten Zahl überprüfen Regel.
Nach meinem Verständnis scheint das Wahrscheinlichkeitsprinzip zu implizieren, dass wir alles, was wir über das sequentielle Design von Frequentists wissen, verwerfen und vergessen können, wie oft wir unsere Daten analysieren. Dies hat natürlich enorme Konsequenzen, insbesondere für das klinische Design. Ich habe mir jedoch nicht überlegt, wie sie es rechtfertigen, zu ignorieren, wie Stoppregeln die Wahrscheinlichkeit der endgültigen Statistik verändern.
Einige leichte Diskussionen finden Sie hier , meistens auf den letzten Folien.