Aus meiner Sicht läuft das Problem darauf hinaus, was es eigentlich bedeutet, einen Signifikanztest durchzuführen. Signifikanztests wurden entwickelt, um die Entscheidung zu treffen, die Nullhypothese entweder abzulehnen oder nicht abzulehnen. Fisher selbst führte die berüchtigte 0.05-Regel ein, um diese (willkürliche) Entscheidung zu treffen.
Grundsätzlich besteht die Logik der Signifikanzprüfung darin, dass der Benutzer ein Alpha-Niveau zum Zurückweisen der Nullhypothese (üblicherweise 0,05) vor dem Sammeln der Daten angeben muss . Nach Abschluss des Signifikanztests lehnt der Benutzer die Null ab, wenn der p-Wert kleiner als das Alpha-Niveau ist (oder lehnt ihn sonst nicht ab).
Der Grund, warum Sie einen Effekt nicht als hoch signifikant deklarieren können (etwa auf der Ebene von 0,001), liegt darin, dass Sie keine stärkeren Beweise finden können, als Sie beabsichtigt haben. Wenn Sie also Ihr Alpha-Niveau vor dem Test auf 0,05 einstellen, können Sie nur Beweise auf 0,05 finden, unabhängig davon, wie klein Ihre p-Werte sind. Ebenso macht es wenig Sinn, von Effekten zu sprechen, die "etwas signifikant" sind oder sich der Signifikanz nähern ", da Sie dieses willkürliche Kriterium von 0,05 gewählt haben. Wenn Sie die Logik des Signifikanztests sehr wörtlich interpretieren, ist alles, was größer als 0,05 ist, nicht signifikant.
Ich stimme zu, dass Begriffe wie "Annäherung an die Bedeutung" häufig verwendet werden, um die Aussichten auf Veröffentlichung zu verbessern. Ich glaube jedoch nicht, dass Autoren dafür verantwortlich gemacht werden können, da die aktuelle Publikationskultur in einigen Wissenschaften immer noch stark vom "Heiligen Gral" von 0,05 abhängt.
Einige dieser Probleme werden in folgenden Abschnitten behandelt:
Gigerenzer, G. (2004). Gedankenlose Statistiken. The Journal of Socio-Economics, 33 (5), 587-606.
Royall, R. (1997). Statistische Evidenz: Ein Wahrscheinlichkeitsparadigma (Vol. 71). CRC drücken.