In frequentistischen Folgerung , wollen wir , um zu bestimmen , wie oft würde etwas geschehen, wenn ein gegebener stochastischer Prozess wiederholt realisiert wurde. Dies ist der Ausgangspunkt für die Theorie der p-Werte, Konfidenzintervalle und dergleichen. In vielen angewandten Projekten ist der "gegebene" Prozess jedoch nicht wirklich gegeben, und der Statistiker muss zumindest einige Arbeiten ausführen, um ihn zu spezifizieren und zu modellieren. Dies kann, wie in diesem Fall, ein überraschend vieldeutiges Problem sein.
Modellierung des Datengenerierungsprozesses
Nach den gegebenen Informationen scheint unser bester Kandidat der folgende zu sein:
- Wenn das 100-V-Messgerät 100 V anzeigt, misst der Techniker erneut mit dem 1000-V-Messgerät, wenn es betriebsbereit ist. Ansonsten markiert er einfach 100V und fährt fort.
Aber ist das nicht ein bisschen unfair gegenüber unserem Ingenieur? Vorausgesetzt, er ist ein Ingenieur und nicht nur ein Techniker, versteht er wahrscheinlich, warum er nachmessen muss, wenn der erste Zähler 100 V anzeigt. Dies liegt daran, dass das Messgerät an der oberen Grenze seiner Reichweite gesättigt ist und daher nicht mehr zuverlässig ist. Vielleicht würde der Ingenieur das wirklich tun
- Wenn das 100-V-Messgerät 100 anzeigt, misst der Techniker erneut mit dem 1000-V-Messgerät, wenn es betriebsbereit ist. Andernfalls markiert er einfach 100 V, fügt ein Pluszeichen hinzu, um die gesättigte Messung anzuzeigen, und fährt fort.
Beide Prozesse stimmen mit den uns vorliegenden Daten überein, sind jedoch unterschiedliche Prozesse und ergeben unterschiedliche Konfidenzintervalle. Prozess 2 ist derjenige, den wir als Statistiker bevorzugen würden. Wenn die Spannungen häufig deutlich über 100 V liegen, weist Prozess 1 einen potenziell katastrophalen Fehlermodus auf, bei dem die Messungen gelegentlich stark unterschätzt werden, da die Daten ohne unser Wissen zensiert werden. Das Konfidenzintervall wird entsprechend erweitert. Wir könnten dies abmildern, indem wir den Ingenieur bitten, uns mitzuteilen, wenn sein 1000-V-Messgerät nicht funktioniert. Dies ist jedoch nur ein weiterer Weg, um sicherzustellen, dass unsere Daten Prozess 2 entsprechen.
Wenn das Pferd den Stall bereits verlassen hat und wir nicht feststellen können, wann die Messungen durchgeführt werden und wann nicht, können wir versuchen, aus den Daten auf die Zeiten zu schließen, in denen das 1000-V-Messgerät nicht funktioniert. Durch die Einführung einer Inferenzregel in den Prozess wird effektiv ein neuer Prozess 1.5 erstellt, der sich sowohl von 1 als auch von 2 unterscheidet. Unsere Inferenzregel funktioniert manchmal und manchmal nicht, sodass das Konfidenzintervall von Prozess 1.5 im Vergleich zu den Prozessen 1 und 2 von mittlerer Größe ist 2.
Theoretisch ist nichts Falsches oder Verdächtiges an einer einzelnen Statistik mit drei verschiedenen Konfidenzintervallen, die mit drei verschiedenen plausibel repräsentativen stochastischen Prozessen assoziiert sind. In der Praxis wünschen sich nur wenige Verbraucher von Statistiken drei verschiedene Konfidenzintervalle. Sie wollen eine, die auf dem basiert, was tatsächlich passiert wäre, wenn das Experiment viele Male wiederholt worden wäre. In der Regel berücksichtigt der angewandte Statistiker das Domänenwissen, das er während des Projekts erworben hat, nimmt eine fundierte Schätzung vor und präsentiert das Konfidenzintervall, das mit dem ermittelten Prozess verbunden ist. Oder sie arbeitet mit dem Kunden zusammen, um den Prozess zu formalisieren.
So reagieren Sie auf neue Informationen
Trotz der Beharrlichkeit des Statistikers in der Geschichte erfordert die häufige Folgerung nicht, dass wir Messungen wiederholen, wenn wir neue Informationen erhalten, die darauf hindeuten, dass der erzeugende stochastische Prozess nicht ganz so ist, wie wir es uns ursprünglich vorgestellt hatten. Wenn der Prozess jedoch wiederholt werden soll, müssen wir sicherstellen, dass alle Wiederholungen mit dem Modellprozess übereinstimmen, der vom Konfidenzintervall angenommen wird. Wir können dies tun, indem wir den Prozess ändern oder unser Modell davon ändern.
Wenn wir den Prozess ändern, müssen wir möglicherweise frühere Daten verwerfen, die inkonsistent mit diesem Prozess erfasst wurden. Dies ist hier jedoch kein Problem, da alle von uns in Betracht gezogenen Prozessvarianten nur dann unterschiedlich sind, wenn einige der Daten über 100 V liegen, und dies ist in diesem Fall nie geschehen.
Was auch immer wir tun, Modell und Realität müssen in Einklang gebracht werden. Nur dann ist die theoretisch garantierte Frequentist Error Rate das, was der Kunde bei wiederholter Durchführung des Prozesses tatsächlich erhält.
Die bayesianische Alternative
Auf der anderen Seite sollten wir, wenn uns nur der wahrscheinliche Bereich des wahren Mittelwerts für diese Stichprobe am Herzen liegt, den Frequentismus ganz beiseite legen und die Leute suchen, die die Antwort auf diese Frage verkaufen - die Bayesianer. Wenn wir diesen Weg gehen, wird das ganze Feilschen um Kontrafakten irrelevant; Alles, was zählt, ist die Priorität und die Wahrscheinlichkeit. Im Gegenzug für diese Vereinfachung verlieren wir jede Hoffnung, eine Fehlerrate bei wiederholter Durchführung des "Experiments" zu garantieren.
Warum die Aufregung?
Diese Geschichte wurde so konstruiert, dass sie so aussieht, als würde der häufig auftretende Statistiker grundlos über alberne Dinge streiten. Mal ehrlich, wen interessieren diese dummen Kontrafakten? Die Antwort ist natürlich, dass sich jeder darum kümmern sollte. Lebenswichtige wissenschaftliche Gebiete leiden derzeit unter einer ernsten Replikationskrise , was darauf hindeutet, dass die Häufigkeit falscher Entdeckungen in der wissenschaftlichen Literatur viel höher ist als erwartet. Einer der Treiber dieser Krise, wenn auch keineswegs der einzige , ist der Anstieg des P-Hacking , bei dem Forscher mit vielen Variationen eines Modells spielen und dabei verschiedene Variablen kontrollieren, bis sie an Bedeutung gewinnen.
P-Hacking wurde in den populärwissenschaftlichen Medien und in der Blogosphäre ausgiebig verleumdet, aber nur wenige verstehen tatsächlich, was an P-Hacking falsch ist und warum. Im Gegensatz zur gängigen statistischen Meinung ist es nicht falsch, Ihre Daten vor, während und nach dem Modellierungsprozess zu betrachten. Was falsch ist, ist das Versäumnis, explorative Analysen zu melden und wie sie den Verlauf der Studie beeinflussten. Nur wenn wir uns den gesamten Prozess ansehen, können wir möglicherweise sogar feststellen, welches stochastische Modell für diesen Prozess repräsentativ ist und welche frequentistische Analyse für dieses Modell gegebenenfalls geeignet ist.
Die Behauptung, eine bestimmte frequentistische Analyse sei angebracht, ist eine sehr ernste Behauptung. Wenn Sie diese Behauptung aufstellen, müssen Sie sich an die Disziplin des von Ihnen gewählten stochastischen Prozesses binden, der ein komplettes System von Kontrafaktualen darüber beinhaltet, was Sie in verschiedenen Situationen getan hätten. Sie müssen sich tatsächlich an dieses System halten, damit die Frequentist-Garantie auf Sie zutrifft. Nur sehr wenige Forscher, insbesondere in Bereichen, in denen die Erforschung offener Grenzen im Vordergrund steht, halten sich an das System und geben ihre Abweichungen nicht gewissenhaft an. Aus diesem Grund haben wir jetzt eine Replikationskrise vor uns. (Einige angesehene Forscher haben argumentiert, dass diese Erwartung unrealistisch ist, eine Position, mit der ich sympathisiere, die jedoch den Rahmen dieses Beitrags sprengt.)
Es mag unfair erscheinen, dass wir veröffentlichte Artikel kritisieren, weil behauptet wird, sie hätten etwas getan, wenn die Daten anders gewesen wären. Dies ist jedoch die (etwas paradoxe) Natur des frequentistischen Denkens: Wenn Sie das Konzept des p-Werts akzeptieren, müssen Sie die Legitimität der Modellierung dessen respektieren, was unter alternativen Daten getan worden wäre. (Gelman & Loken, 2013)
In Studien, die relativ einfach und / oder standardisiert sind, wie z. B. in klinischen Studien, können wir uns auf Dinge wie mehrfache oder sequenzielle Vergleiche einstellen und die theoretische Fehlerrate beibehalten. In komplexeren und explorativeren Studien ist ein frequentistisches Modell möglicherweise nicht anwendbar, da der Forscher sich möglicherweise nicht aller getroffenen Entscheidungen bewusst ist , geschweige denn, dass sie explizit aufgezeichnet und präsentiert werden. In solchen Fällen sollte der Forscher (1) ehrlich und offen darüber sein, was getan wurde; (2) Präsentieren von p-Werten entweder mit starken Vorbehalten oder überhaupt nicht; (3) erwägen, andere Beweislinien vorzulegen, beispielsweise die vorherige Plausibilität der Hypothese oder eine Folge-Replikationsstudie.