Dieser Artikel " The Odds, Continually Updated" von der NY Times erregte meine Aufmerksamkeit. Um es kurz zu machen, heißt es dort
[Bayesian Statistics] erweist sich als besonders nützlich bei der Bewältigung komplexer Probleme, einschließlich der Suche nach dem vermissten Fischer John Aldridge, wie sie die Küstenwache 2013 durchgeführt hat (allerdings noch nicht bei der Suche nach Malaysia Airlines Flight 370). ......, Bayesianische Statistiken durchziehen alles von Physik über Krebsforschung, Ökologie bis hin zu Psychologie ...
In dem Artikel wird auch der p-Wert des Frequentisten kritisiert, zum Beispiel:
Ergebnisse werden in der Regel als „statistisch signifikant“ betrachtet, wenn der p-Wert weniger als 5 Prozent beträgt. Aber diese Tradition birgt eine Gefahr, sagte Andrew Gelman, Statistikprofessor an der Columbia. Auch wenn Wissenschaftler die Berechnungen immer korrekt durchgeführt haben - und das tun sie auch nicht -, bedeutet die Annahme eines p-Werts von 5 Prozent, dass eines von 20 „statistisch signifikanten“ Ergebnissen nichts anderes als zufälliges Rauschen ist.
Abgesehen davon ist das vielleicht berühmteste Papier, das den p-Wert kritisiert, dieses: "Wissenschaftliche Methode: Statistische Fehler" von Regina Nuzzo aus Nature , in dem viele wissenschaftliche Fragen, die durch den p-Wert-Ansatz aufgeworfen wurden, wie etwa Fragen der Reproduzierbarkeit, erörtert wurden. p-Wert-Hacking usw.
P-Werte, der "Goldstandard" der statistischen Validität, sind nicht so zuverlässig, wie viele Wissenschaftler annehmen. ...... Der vielleicht schlimmste Irrtum ist die Art der Selbsttäuschung, für die der Psychologe Uri Simonsohn von der University of Pennsylvania und seine Kollegen den Begriff P-Hacking populär gemacht haben. Es ist auch bekannt als Daten-Ausbaggern, Schnüffeln, Fischen, Signifikanz-Jagen und Doppeltauchen. "P-Hacking", sagt Simonsohn, "versucht mehrere Dinge, bis Sie das gewünschte Ergebnis erzielen" - auch unbewusst. ...... "Dieser Befund scheint durch P-Hacking erhalten worden zu sein. Die Autoren haben eine der Bedingungen fallen gelassen, sodass der Gesamt-P-Wert unter 0,05 liegt." Und "Sie ist eine P-Hackerin." Sie überwacht immer Daten, während sie gesammelt werden. “
Eine andere Sache ist eine interessante Handlung wie aus folgenden hier mit der Bemerkung über die Handlung:
Egal wie klein Ihr Effekt auch sein mag, Sie können immer die harte Arbeit des Sammelns von Daten leisten, um die Schwelle von p <0,05 zu überschreiten. Solange der Effekt, den Sie untersuchen, nicht existiert, messen p-Werte nur, wie viel Aufwand Sie in die Datenerfassung gesteckt haben.
Bei alledem sind meine Fragen:
Was bedeutet Andrew Gelmans Argument im zweiten Blockzitat genau? Warum interpretierte er den 5-Prozent-p-Wert als "eins von 20 statistisch signifikanten Ergebnissen ist nichts anderes als zufälliges Rauschen"? Ich bin nicht überzeugt, da der p-Wert für mich verwendet wird, um Rückschlüsse auf eine einzelne Studie zu ziehen. Sein Punkt scheint mit mehreren Tests zu tun zu haben.
Update: Überprüfen Sie Andrew Gelmans Blog darüber: Nein, das habe ich nicht gesagt! (Dank an @Scortchi, @whuber).
- Gibt es gute praktische Hinweise zur Verwendung des p-Werts für statistische Analysen, die zu zuverlässigeren Forschungsergebnissen führen könnten?
Wäre das Bayes'sche Modellierungsgerüst ein besserer Weg, als es einige Statistiker befürworten? Wäre es insbesondere wahrscheinlicher, dass der Bayes'sche Ansatz das falsche Auffinden oder Manipulieren der Datenprobleme behebt? Ich bin auch hier nicht überzeugt, da der Prior im Bayes'schen Ansatz sehr subjektiv ist. Gibt es praktische und bekannte Studien, die zeigen, dass der Bayes'sche Ansatz besser ist als der p-Wert des Frequentisten, oder zumindest in bestimmten Fällen?
Update: Mich würde besonders interessieren, ob es Fälle gibt, in denen der Bayes'sche Ansatz zuverlässiger ist als der p-Wert-Ansatz des Frequentisten. Mit "zuverlässig" meine ich, dass der Bayes'sche Ansatz weniger wahrscheinlich ist, Daten für gewünschte Ergebnisse zu manipulieren. Irgendwelche Vorschläge?
Update 09.06.2015
Ich habe gerade die Neuigkeiten bemerkt und dachte, es wäre gut, sie hier zur Diskussion zu stellen.
Psychologie-Journal verbietet P-Werte
Ein umstrittener statistischer Test hat endlich sein Ende gefunden, zumindest in einer Zeitschrift. Anfang des Monats gaben die Herausgeber von BASP (Basic and Applied Social Psychology) bekannt, dass die Zeitschrift keine Artikel mit P-Werten mehr veröffentlichen werde, da die Statistiken zu häufig zur Unterstützung von Forschung von geringerer Qualität verwendet würden.
Zusammen mit einer kürzlich erschienenen Veröffentlichung über den P-Wert "Der unbeständige P-Wert erzeugt irreproduzierbare Ergebnisse" aus der Natur .
Update 08.05.2016
Bereits im März veröffentlichte die American Statistical Association (ASA) Aussagen zur statistischen Signifikanz und zu p-Werten: "... Die ASA-Aussage soll die Forschung auf eine Ära nach p <0,05 lenken."
Diese Aussage enthält 6 Prinzipien, die sich mit dem Missbrauch des p-Werts befassen:
- P-Werte können angeben, wie inkompatibel die Daten mit einem bestimmten statistischen Modell sind.
- P-Werte messen nicht die Wahrscheinlichkeit, dass die untersuchte Hypothese wahr ist, oder die Wahrscheinlichkeit, dass die Daten nur zufällig erzeugt wurden.
- Wissenschaftliche Schlussfolgerungen und geschäftliche oder politische Entscheidungen sollten nicht nur darauf beruhen, ob ein p-Wert einen bestimmten Schwellenwert überschreitet.
- Der richtige Rückschluss erfordert eine vollständige Berichterstattung und Transparenz.
- Ein p-Wert oder eine statistische Signifikanz misst nicht die Größe eines Effekts oder die Wichtigkeit eines Ergebnisses.
- Ein p-Wert allein liefert kein gutes Maß für die Evidenz in Bezug auf ein Modell oder eine Hypothese.
Details: "Die Erklärung der ASA zu p-Werten: Kontext, Prozess und Zweck" .