Warum tauschen Menschen kein Signifikanzniveau gegen Macht?


7

Als Konvention haben wir viele Studien, deren Signifikanzniveau ist 0.05und eine Potenz von . Es ist jedoch äußerst selten, eine Studie zu finden, deren mit einer Potenz von .0.8α=0.20.95

Nach meinem Verständnis spielt das Signifikanzniveau nach Durchführung eines Experiments überhaupt keine Rolle, wenn das Ergebnis nicht signifikant ist, da wir in diesem Fall überlegen, ob es sinnvoll ist, die Null zu akzeptieren, und alles, was uns wichtig ist ist die Kraft. Wenn das Ergebnis signifikant ist, wird das Signifikanzniveau zu Ihrem Beweis, während die Leistung des Tests absolut keinen Unterschied macht. (Mit "spielt keine Rolle" meine ich "nicht für den Zweck dieses Experiments". Sowohl das Signifikanzniveau als auch die Aussagekraft sollten für Metastudien wichtig sein. Bitte geben Sie beide in Ihrer Publikation an!)

Wenn ich richtig liege, sind die Null und die Alternative bis zu einem gewissen Grad symmetrisch: Die Nullhypothese erfordert von Natur aus keinen weiteren Schutz. Wenn Sie die Alternative beweisen möchten, sagen Sie "dieses neue Medikament hat eine Wirkung auf die Patienten", dann verwenden Sie ein sehr kleines und eine mäßig hohe Leistung. Wenn Sie andererseits die Null beweisen möchten, beispielsweise in einem Normalitätstest, sollten Sie ein mäßig kleines und eine sehr hohe Leistung wählen , damit Sie die Null vertraulich akzeptieren können.αα

Warum sind Experimente mit mäßig kleinem und sehr hoher Leistung so selten?α


3
Weil die kulturelle Konvention vonα=0.05 stark etabliert ist?
Ben Bolker

2
Wir sehen überall 5%, aber nicht aus gutem Grund; In vielen Situationen sollten wir sicherlich kleinere (und in einigen Fällen größere) Signifikanzniveaus berücksichtigen - und in vielleicht noch viel mehr Situationen noch einmal überlegen, ob ein Signifikanztest tatsächlich das richtige Werkzeug für den Job ist (oft nicht, aber wenn überhaupt) Sie haben in Ihrem Werkzeugkasten einen Hammer ...). Fisher im Allgemeinen 5% im wesentlichen der betrachteten schwächsten Beweise , die er selbst Aufmerksamkeit betrachten würde die Zahlung auf ( und er war ein Stickler für die Replikation von Experimenten obendrein), aber aus irgendeinem Grund , der als Standard endete immer gesehen.
Glen_b -Reinstate Monica

2
Ich kann nur sagen, wenn Sie etwas von dem lesen können, was Fisher darüber geschrieben hat, werden Sie sehen, wie wichtig er die Replikation als Teil des Prozesses sah. Ich habe keinen Hinweis zur Hand, aber die meisten seiner Papiere (und Kommentare zu anderen Papieren) sind öffentlich verfügbar. (Seine Bücher können durchaus bessere Quellen sein, wenn auch nicht so leicht zu sehen). Ein Beispiel für seine Bedeutung finden Sie in diesem Artikel ... in dem es heißt (erster Satz des 4. Absatzes " Drei grundlegende experimentelle Gestaltungsprinzipien, die Fisher zugeschrieben werden, sind Randomisierung, Replikation und Blockierung ".
Glen_b

2
Dieses Papier bezieht sich auf Fischers "Design of Experiments, 6ed". Dabei wird jedoch hauptsächlich die Verwendung der Replikation durch den Experimentator erörtert (was mehreren wichtigen Zwecken dient). Er sah auch die Replikation durch andere als wichtig an, wenn er versuchte, auch angesichts der Unsicherheit zu Fakten zu gelangen.
Glen_b -Reinstate Monica

1
Aufgrund mehrfacher Tests und all der verschiedenen anderen Verzerrungen, die nicht berücksichtigt wurden, ist die Rate falscher Entdeckungen tendenziell viel größer als α. Gleichzeitig sind die Kosten (und das Risiko) eines falsch positiven Ergebnisses viel schlimmer. Bei 0,2 können sich in der Realität über 50% in einem detaillierteren, aber kostspieligen Experiment als falsch herausstellen. Falsche Negative kosten oft nicht viel, insbesondere wenn Sie davon ausgehen, dass jemand die gleiche Hypothese zu einem späteren Zeitpunkt erneut unabhängig testet.
Hat aufgehört - Anony-Mousse

Antworten:


5

Warum sind Experimente mit mäßig klein α und sehr hohe Leistung so selten?

Das ist alles ein bisschen relativ, aber man könnte sicherlich argumentieren, dass das Signifikanzniveau α=0.05 ist bereits schwach und stellt bereits ein Opfer dar, das für eine höhere Macht gebracht wurde (z. B. relativ zum Signifikanzniveau) α=0.01oder andere niedrigere Signifikanzniveaus). Obwohl die Meinungen dazu unterschiedlich sein werden, ist meine eigene Ansicht, dass dies bereits ein sehr schwaches Signifikanzniveau ist, so dass die Wahl überhaupt ein Kompromiss ist, um eine höhere Leistung zu erzielen.

Nach meinem Verständnis spielt das Signifikanzniveau nach Durchführung eines Experiments überhaupt keine Rolle, wenn das Ergebnis nicht signifikant ist, da wir in diesem Fall überlegen, ob es sinnvoll ist, die Null zu akzeptieren, und alles, was uns wichtig ist ist die Kraft. Wenn das Ergebnis signifikant ist, wird das Signifikanzniveau zu Ihrem Beweis, während die Leistung des Tests absolut keinen Unterschied macht.

Ich kann sehen, warum Sie das vielleicht denken, aber es ist nicht wirklich wahr. Beim klassischen Testen von Hypothesen gibt es eine ziemlich komplexe und subtile Wechselwirkung in diesen Dingen. Denken Sie daran, dass sowohl der p-Wert als auch die Potenz Wahrscheinlichkeiten betreffen, die vom wahren Zustand der Hypothesen abhängen (die p-Wert-Bedingungen für die Null und die Potenzbedingungen für die Alternative). Wenn Sie Ihr Ergebnis aus den Daten erhalten, schließen Sie auf die Hypothesen, kennen aber immer noch nicht ihren wahren Zustand. Daher ist es nicht wirklich legitim zu sagen, dass Sie die "andere Hälfte" des Tests vollständig ignorieren können. Unabhängig davon, ob das Ergebnis statistisch signifikant ist oder nicht, erfolgt die Interpretation dieses Ergebnisses in Bezug auf alle Eigenschaften des Tests ganzheitlich.

Es ist auch erwähnenswert, dass für ein festes Modell und einen Test sowie eine feste Stichprobengröße die Potenzfunktion eine Funktion des gewählten Signifikanzniveaus ist. Das gewählte Signifikanzniveau bestimmt den Ablehnungsbereich, der sich direkt auf die Leistung des Tests auswirkt. Es gibt also wieder eine Beziehung zwischen diesen Dingen, und Sie können "die Hälfte" der Eigenschaften des Tests nicht ignorieren.


Dem würde ich zustimmen α und 1β sind negativ korreliert, aber zu dem Zeitpunkt, an dem Sie das Experiment durchführen, muss sein Design abgeschlossen sein. α und 1βsind bereits feste Parameter des Tests. Für ein nicht signifikantes Ergebnis kann ich kaum verstehen, wie Sie es als "die Wahrscheinlichkeit, dass das Ergebnis signifikant ist, wenn die Null wahr ist" interpretieren können. Denken Sie darüber nach, dass eine größereα impliziert eine größere p?
Nalzok

Eine größere α bedeutet nicht eine größere p. Letzteres ist eine Funktion der Daten und bleibt davon unberührtα.
Ben - Reinstate Monica

Ich meine, wir haben die Bedingung, dass das Ergebnis nicht signifikant ist pα, also eine größere α beseitigt die Möglichkeit eines kleinen p. Nur so kann ich verstehen, warumαspielt eine Rolle bei der Interpretation eines nicht signifikanten Ergebnisses. Denken Sie darüber nach?
Nalzok

Grob, aber selbst dann betrachtet die Potenzfunktion nur das Verhalten, das davon abhängig ist, dass die alternative Hypothese wahr ist.
Ben - Reinstate Monica

4

Dies ist eher ein erweiterter Kommentar als eine Antwort. Eine interessante Perspektive findet sich in diesem Blog-Beitrag , ein kurzes Zitat:

... behauptet, das Wort [Bedeutung] habe im späten 19. Jahrhundert viel weniger Gewicht gehabt, als es nur bedeutete, dass das Ergebnis etwas zeigte oder bedeutete. Dann, im 20. Jahrhundert, begann die Bedeutung die Konnotation zu gewinnen, die sie heute trägt, nicht nur etwas zu bedeuten, sondern etwas von Bedeutung. ...

Wenn dies richtig ist, kann Fisher mit etwas Bedeutendem gemeint haben, das es wert ist, notiert zu werden (mental oder im Labor), das für weitere Untersuchungen oder Replikationen würdig ist.

Dieses psyarxive Papier, das vorschlägt, das Standard-Signifikanzniveau (in der Psychologieforschung) von 0,05 auf 0,005 zu senken, ist ein weiterer Beweis dafür, dass viele (zu Recht ...) sehen, dass 0,05 bereits eine eher schwache Anforderung ist.



1

Weil Fehler vom Typ II als weniger problematisch angesehen werden als Fehler vom Typ I. Fehler vom Typ I haben größere Auswirkungen auf die zukünftige Forschung. Darüber hinaus sind Experimente mit hoher Leistung meistens viel teurer.

Natürlich können Sie auch das gesamte NHST-Framework in Frage stellen und die Art und Weise, wie es häufig von ahnungslosen Forschern missbraucht wird ...

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.