Ich habe mich über Werte, Typ 1-Fehlerraten, Signifikanzniveaus, Leistungsberechnungen, Effektgrößen und die Debatte zwischen Fisher und Neyman-Pearson informiert. Das hat mich ein bisschen überwältigt. Ich entschuldige mich für die Textwand, aber ich hielt es für notwendig, einen Überblick über mein derzeitiges Verständnis dieser Konzepte zu geben, bevor ich zu meinen eigentlichen Fragen überging.
Wie ich gesehen habe, ist ein Wert lediglich ein Maß für die Überraschung, die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das mindestens so extrem ist, vorausgesetzt, die Nullhypothese ist wahr. Fisher wollte ursprünglich, dass es sich um eine kontinuierliche Maßnahme handelt.
Im Neyman-Pearson-Framework wählen Sie im Voraus ein Signifikanzniveau aus und verwenden dieses als (willkürlichen) Grenzwert. Das Signifikanzniveau entspricht der Fehlerrate Typ 1. Es wird durch die Langzeitfrequenz definiert, dh wenn Sie ein Experiment 1000 Mal wiederholen und die Nullhypothese zutrifft, würden etwa 50 dieser Experimente aufgrund der Stichprobenvariabilität einen signifikanten Effekt haben. Mit der Wahl eines Signifikanzniveaus schützen wir uns mit einer gewissen Wahrscheinlichkeit vor diesen Fehlalarmen. Werte erscheinen traditionell nicht in diesem Rahmen.
Wenn wir einen Wert von 0,01 finden, bedeutet dies nicht , dass die Fehlerrate des Typs 1 0,01 beträgt, der Fehler des Typs 1 wird a priori angegeben. Ich glaube, dies ist eines der Hauptargumente in der Debatte zwischen Fisher und NP, da p- Werte häufig als 0,05 *, 0,01 **, 0,001 *** angegeben werden. Dies könnte die Leute irreführen, zu sagen, dass der Effekt bei einem bestimmten p- Wert signifikant ist, anstatt bei einem bestimmten Signifikanzwert.
Mir ist auch klar, dass der Wert eine Funktion der Stichprobengröße ist. Daher kann es nicht als absolutes Maß verwendet werden. Ein kleiner p- Wert könnte in einem großen Stichprobenexperiment auf einen kleinen, nicht relevanten Effekt hindeuten. Um dem entgegenzuwirken, ist es wichtig, eine Berechnung der Stärke / Effektgröße durchzuführen, wenn Sie die Stichprobengröße für Ihr Experiment bestimmen. P- Werte sagen uns, ob es einen Effekt gibt, nicht, wie groß er ist. Siehe Sullivan 2012 .
Meine Frage: Wie kann ich die Tatsache in Einklang bringen, dass der Wert ein Maß für Überraschung ist (kleiner = überzeugender) und gleichzeitig nicht als absolutes Maß angesehen werden kann?
Was mich verwirrt, ist Folgendes: Können wir uns auf einen kleinen Wert sicherer verlassen als auf einen großen? Im fischerischen Sinne würde ich ja sagen, wir sind eher überrascht. Im NP-Rahmen würde die Wahl eines niedrigeren Signifikanzniveaus bedeuten, dass wir uns stärker vor falschen Positiven schützen.
Andererseits hängen die Werte von der Stichprobengröße ab. Sie sind kein absolutes Maß. Daher können wir nicht einfach sagen, dass 0,001593 signifikanter als 0,0439 ist. Dies würde jedoch in Fischers Rahmen implizieren: Wir wären über einen solch extremen Wert mehr überrascht. Es wird sogar darüber diskutiert, dass der Begriff " hoch signifikant " eine falsche Bezeichnung ist: Ist es falsch, die Ergebnisse als "hoch signifikant" zu bezeichnen?
Ich habe gehört, dass Werte in einigen Bereichen der Wissenschaft nur dann als wichtig angesehen werden, wenn sie kleiner als 0,0001 sind, während in anderen Bereichen Werte um 0,01 bereits als hoch signifikant angesehen werden.
Verwandte Fragen: