In den letzten Jahren haben verschiedene Wissenschaftler ein nachteiliges Problem beim Testen wissenschaftlicher Hypothesen angesprochen, das als "Freiheitsgrad der Forscher" bezeichnet wird. Dies bedeutet, dass Wissenschaftler während ihrer Analyse zahlreiche Entscheidungen treffen müssen, die darauf abzielen, mit einem p-Wert <5% zu finden. Diese zweideutigen Entscheidungen sind zum Beispiel, welcher Fall aufgenommen werden soll, welcher Fall als Ausreißer eingestuft wird, zahlreiche Modellspezifikationen ausführen, bis etwas auftaucht, keine Nullergebnisse veröffentlichen usw. (Das Papier, das diese Debatte in der Psychologie ausgelöst hat , ist hier , sieht einen beliebten Slate Artikel und Follow-up - Debatte von Andrew Gelman hier , und das Time - Magazin berührt auch zu diesem Thema hier .)
Zunächst eine Klärungsfrage:
Das Time Magazine schrieb:
"Eine Potenz von 0,8 bedeutet, dass von zehn getesteten echten Hypothesen nur zwei ausgeschlossen werden, da ihre Auswirkungen nicht in den Daten erfasst werden."
Ich bin nicht sicher, wie dies in die Definition der Potenzfunktion passt, die ich im Lehrbuch gefunden habe. Dies ist die Wahrscheinlichkeit, die Null als Funktion des Parameters abzulehnen . Mit unterschiedlichem θ haben wir unterschiedliche Potenzen, daher verstehe ich das obige Zitat nicht ganz.
Zweitens einige Auswirkungen auf die Forschung:
In meinem Bereich Politikwissenschaft / Wirtschaft nutzen Wissenschaftler einfach alle verfügbaren Länderjahresdaten. Sollten wir uns hier also nicht mit Probenfummeln befassen?
Kann das Problem, mehrere Tests durchzuführen, aber nur ein Modell zu melden, einfach dadurch behoben werden, dass jemand anderes in der Disziplin Ihr Papier erneut testet und Sie sofort niederschlägt, weil Sie keine soliden Ergebnisse erzielen? In Erwartung dessen schließen Wissenschaftler in meinem Bereich eher einen
robustness check
Abschnitt ein, in dem sie zeigen, dass mehrere Modellspezifikationen das Ergebnis nicht ändern. Ist das ausreichendAndrew Gelman und andere weisen darauf hin, dass es unabhängig von den Daten immer möglich wäre, ein "Muster" zu finden und zu veröffentlichen, das nicht wirklich vorhanden ist. Dies sollte jedoch kein Problem sein, da jedes empirische "Muster" durch eine Theorie gestützt werden muss und rivalisierende Theorien innerhalb einer Disziplin nur eine Debatte / ein Rennen führen, um herauszufinden, welches Lager mehr "Muster" finden kann. an verschiedenen Orten. Wenn ein Muster wirklich falsch ist, wird die dahinter stehende Theorie schnell niedergeschlagen, wenn es in anderen Samples / Einstellungen kein ähnliches Muster gibt. Geht die Wissenschaft nicht so voran?
Unter der Annahme, dass der aktuelle Trend der Zeitschriften für Nullergebnisse tatsächlich florieren wird, gibt es eine Möglichkeit für uns, alle Nullergebnisse und positiven Ergebnisse zusammenzufassen und auf die Theorie zu schließen, die alle zu testen versuchen?