Ist der p-Wert im Wesentlichen nutzlos und gefährlich in der Anwendung?


36

Dieser Artikel " The Odds, Continually Updated" von der NY Times erregte meine Aufmerksamkeit. Um es kurz zu machen, heißt es dort

[Bayesian Statistics] erweist sich als besonders nützlich bei der Bewältigung komplexer Probleme, einschließlich der Suche nach dem vermissten Fischer John Aldridge, wie sie die Küstenwache 2013 durchgeführt hat (allerdings noch nicht bei der Suche nach Malaysia Airlines Flight 370). ......, Bayesianische Statistiken durchziehen alles von Physik über Krebsforschung, Ökologie bis hin zu Psychologie ...

In dem Artikel wird auch der p-Wert des Frequentisten kritisiert, zum Beispiel:

Ergebnisse werden in der Regel als „statistisch signifikant“ betrachtet, wenn der p-Wert weniger als 5 Prozent beträgt. Aber diese Tradition birgt eine Gefahr, sagte Andrew Gelman, Statistikprofessor an der Columbia. Auch wenn Wissenschaftler die Berechnungen immer korrekt durchgeführt haben - und das tun sie auch nicht -, bedeutet die Annahme eines p-Werts von 5 Prozent, dass eines von 20 „statistisch signifikanten“ Ergebnissen nichts anderes als zufälliges Rauschen ist.

Abgesehen davon ist das vielleicht berühmteste Papier, das den p-Wert kritisiert, dieses: "Wissenschaftliche Methode: Statistische Fehler" von Regina Nuzzo aus Nature , in dem viele wissenschaftliche Fragen, die durch den p-Wert-Ansatz aufgeworfen wurden, wie etwa Fragen der Reproduzierbarkeit, erörtert wurden. p-Wert-Hacking usw.

P-Werte, der "Goldstandard" der statistischen Validität, sind nicht so zuverlässig, wie viele Wissenschaftler annehmen. ...... Der vielleicht schlimmste Irrtum ist die Art der Selbsttäuschung, für die der Psychologe Uri Simonsohn von der University of Pennsylvania und seine Kollegen den Begriff P-Hacking populär gemacht haben. Es ist auch bekannt als Daten-Ausbaggern, Schnüffeln, Fischen, Signifikanz-Jagen und Doppeltauchen. "P-Hacking", sagt Simonsohn, "versucht mehrere Dinge, bis Sie das gewünschte Ergebnis erzielen" - auch unbewusst. ...... "Dieser Befund scheint durch P-Hacking erhalten worden zu sein. Die Autoren haben eine der Bedingungen fallen gelassen, sodass der Gesamt-P-Wert unter 0,05 liegt." Und "Sie ist eine P-Hackerin." Sie überwacht immer Daten, während sie gesammelt werden. “

Eine andere Sache ist eine interessante Handlung wie aus folgenden hier mit der Bemerkung über die Handlung:

Egal wie klein Ihr Effekt auch sein mag, Sie können immer die harte Arbeit des Sammelns von Daten leisten, um die Schwelle von p <0,05 zu überschreiten. Solange der Effekt, den Sie untersuchen, nicht existiert, messen p-Werte nur, wie viel Aufwand Sie in die Datenerfassung gesteckt haben.

Bildbeschreibung hier eingeben

Bei alledem sind meine Fragen:

  1. Was bedeutet Andrew Gelmans Argument im zweiten Blockzitat genau? Warum interpretierte er den 5-Prozent-p-Wert als "eins von 20 statistisch signifikanten Ergebnissen ist nichts anderes als zufälliges Rauschen"? Ich bin nicht überzeugt, da der p-Wert für mich verwendet wird, um Rückschlüsse auf eine einzelne Studie zu ziehen. Sein Punkt scheint mit mehreren Tests zu tun zu haben.

    Update: Überprüfen Sie Andrew Gelmans Blog darüber: Nein, das habe ich nicht gesagt! (Dank an @Scortchi, @whuber).

  2. Cp

  3. Gibt es gute praktische Hinweise zur Verwendung des p-Werts für statistische Analysen, die zu zuverlässigeren Forschungsergebnissen führen könnten?
  4. Wäre das Bayes'sche Modellierungsgerüst ein besserer Weg, als es einige Statistiker befürworten? Wäre es insbesondere wahrscheinlicher, dass der Bayes'sche Ansatz das falsche Auffinden oder Manipulieren der Datenprobleme behebt? Ich bin auch hier nicht überzeugt, da der Prior im Bayes'schen Ansatz sehr subjektiv ist. Gibt es praktische und bekannte Studien, die zeigen, dass der Bayes'sche Ansatz besser ist als der p-Wert des Frequentisten, oder zumindest in bestimmten Fällen?

    Update: Mich würde besonders interessieren, ob es Fälle gibt, in denen der Bayes'sche Ansatz zuverlässiger ist als der p-Wert-Ansatz des Frequentisten. Mit "zuverlässig" meine ich, dass der Bayes'sche Ansatz weniger wahrscheinlich ist, Daten für gewünschte Ergebnisse zu manipulieren. Irgendwelche Vorschläge?


Update 09.06.2015

Ich habe gerade die Neuigkeiten bemerkt und dachte, es wäre gut, sie hier zur Diskussion zu stellen.

Psychologie-Journal verbietet P-Werte

Ein umstrittener statistischer Test hat endlich sein Ende gefunden, zumindest in einer Zeitschrift. Anfang des Monats gaben die Herausgeber von BASP (Basic and Applied Social Psychology) bekannt, dass die Zeitschrift keine Artikel mit P-Werten mehr veröffentlichen werde, da die Statistiken zu häufig zur Unterstützung von Forschung von geringerer Qualität verwendet würden.

Zusammen mit einer kürzlich erschienenen Veröffentlichung über den P-Wert "Der unbeständige P-Wert erzeugt irreproduzierbare Ergebnisse" aus der Natur .

Update 08.05.2016

Bereits im März veröffentlichte die American Statistical Association (ASA) Aussagen zur statistischen Signifikanz und zu p-Werten: "... Die ASA-Aussage soll die Forschung auf eine Ära nach p <0,05 lenken."

Diese Aussage enthält 6 Prinzipien, die sich mit dem Missbrauch des p-Werts befassen:

  1. P-Werte können angeben, wie inkompatibel die Daten mit einem bestimmten statistischen Modell sind.
  2. P-Werte messen nicht die Wahrscheinlichkeit, dass die untersuchte Hypothese wahr ist, oder die Wahrscheinlichkeit, dass die Daten nur zufällig erzeugt wurden.
  3. Wissenschaftliche Schlussfolgerungen und geschäftliche oder politische Entscheidungen sollten nicht nur darauf beruhen, ob ein p-Wert einen bestimmten Schwellenwert überschreitet.
  4. Der richtige Rückschluss erfordert eine vollständige Berichterstattung und Transparenz.
  5. Ein p-Wert oder eine statistische Signifikanz misst nicht die Größe eines Effekts oder die Wichtigkeit eines Ergebnisses.
  6. Ein p-Wert allein liefert kein gutes Maß für die Evidenz in Bezug auf ein Modell oder eine Hypothese.

Details: "Die Erklärung der ASA zu p-Werten: Kontext, Prozess und Zweck" .


11
0.050.05

10
@whuber: Du hast recht: Nein, das habe ich nicht gesagt! .
Scortchi

4
Gute Entdeckung, @Scortchi! Für den Fall, dass die Verbindung jemals schlecht wird, lehnt Gelman die NY Times-Charakterisierung nachdrücklich ab (wenn auch sehr taktvoll) und schreibt: "Wenn man alles mit einem p-Wert von 5 Prozent akzeptiert, kann dies zu falschen Ergebnissen führen. statistisch signifikantes "Muster in den Daten spiegelt kein entsprechendes Muster in der Bevölkerung wider - weit mehr als 5 Prozent der Zeit."
Whuber

3
In Bezug auf Ihren Kommentar "Solange der Effekt, den Sie untersuchen, nicht existiert", ist dies der Punkt von Studien mit p-Werten, um zu bestimmen, ob der Effekt, den Sie untersuchen, wirklich vorhanden ist oder ob Besonderheiten im vorliegen Daten, die Sie gesammelt haben, sind nur zufällig. Das Verringern des p-Werts mit zunehmender Stichprobengröße ist rein rechnerisch einwandfrei und in der Tat die einzige Option. Sie "hacken" in keiner Weise den p-Wert. Vom intuitiven Standpunkt aus ist es sinnvoll, dass ein größerer Aufwand für die Datenerfassung zu einem höheren Vertrauen in die Schlussfolgerungen führt, die Sie daraus ziehen.
David Webb

1
@ DavidWebb Einverstanden. Wenn die Effektgröße klein ist, ist das in Ordnung und es ist einfacher zu sagen, wie groß oder klein der Effekt mit mehr Daten ist. Wenn Sie mehr Daten erhalten können, sollten Sie.
Desty

Antworten:


25

Hier sind einige Gedanken:

  1. 80%100/118.7584%
  2. p
  3. p
  4. Ich bin nicht dogmatisch gegen die Verwendung von Bayes'schen Methoden, aber ich glaube nicht, dass sie dieses Problem lösen würden. Sie können beispielsweise nur so lange Daten sammeln, bis das glaubwürdige Intervall den Wert nicht mehr enthält, den Sie ablehnen möchten. So haben Sie "glaubwürdige Intervall-Hacking". Meines Erachtens ist das Problem, dass viele Praktiker nicht an den statistischen Analysen interessiert sind, die sie verwenden, sodass sie die von ihnen geforderte Methode auf unüberlegte und mechanische Weise anwenden. Wenn Sie mehr über meine Sichtweise hier erfahren möchten, ist es möglicherweise hilfreich, meine Antwort zu lesen: Effektgröße als Hypothese für Signifikanztests .

10
(+1) Eine einfache Möglichkeit, ein glaubwürdiges Intervall zu knacken, besteht darin, genau das Richtige vor dem :-) zu übernehmen. Natürlich würde kein kompetenter Arzt dies tun - Gelman betont die Verwendung von Sensitivitätsbewertungen, nicht informativen Hyperprioren usw. -, aber andererseits würde kein kompetenter Benutzer von Hypothesentests P-Wert-Hacking durchführen, oder? Andererseits könnte es in einer Bayes'schen Analyse schwieriger sein, zu verbergen, was man tut - vorausgesetzt, der Stand der Dinge ist eindeutig bekannt -, verglichen mit allen undokumentierten Analysen, die an p-Wert-Hacking beteiligt sein könnten.
Whuber

1
@whuber, das stimmt, aber ich denke, wir können alle Probleme mit der Unangemessenheit oder Subjektivität des Vorgängers beiseite legen. Wenn der wahre Effekt nicht genau 0 ist, enthält das glaubwürdige Intervall bei ausreichenden Daten möglicherweise nicht 0, ebenso wie das p <0,05 ist (siehe letztes Zitat), sodass Sie nur so lange Daten sammeln können, bis Sie es erhalten das gewünschte Ergebnis unabhängig vom Stand.
gung - Wiedereinsetzung von Monica

4
Gute Argumente. Ich erinnere mich an eine kürzlich gestellte Frage zur Vorhersage von Ausfällen bei 10.000 Produkten, nachdem bei 100.000 keine Ausfälle festgestellt wurden. Die Antwort ist ziemlich sensibel für den Prior, weil Ausfälle so selten sind. Dies kann die Art von Ausnahmesituation sein, die "die Regel bestätigt"; es zeigt, dass es in der Realität nicht praktikabel sein kann, genügend Daten zu sammeln, um ein gewünschtes Ergebnis zu erzielen. Genau zu diesem Zeitpunkt flehen einige Kunden den Statistiker an, "ihre Magie zu üben", um das gewünschte Ergebnis zu erzielen! Wahrscheinlich haben schon viele Leser diesen Druck gespürt.
Whuber

1
@gung, in praktischen klinischen Studien gibt es immer in verschiedenen Phasen Stoppkriterien, um mehr Probanden für Experimente zu rekrutieren. Wäre es in diesem Sinne weniger wahrscheinlich, dass der Bayes'sche Ansatz das glaubwürdige Intervall und damit die Forschungsergebnisse beeinflusst?
Aaron Zeng

2
@AaronZeng, es scheint mir, dass explizite Stopp-Kriterien gleichermaßen für Frequentist & Bayesian Perspektiven gelten. Ich sehe hier keinen Nettovorteil / -nachteil.
gung - Reinstate Monica

8

Für mich ist eines der interessantesten Dinge an der Kontroverse um das P-Hacking, dass die gesamte Geschichte von p <= 0,05 als "einmal im blauen Mond" -Standard für statistische Signifikanz gilt, wie Joseph Kaldane in einem JASA-Artikel zur forensischen Statistik feststellte in den 90er Jahren beruht auf absolut keiner statistischen Theorie. Es ist eine Konvention, eine einfache Heuristik und eine Faustregel, die mit RA Fisher begann und seitdem in ihren gegenwärtigen "unbestrittenen" Status umgewandelt oder geweiht wurde. Bayesianisch oder nicht, die Zeit ist längst überfällig, um diesen metrischen Standard in Frage zu stellen oder ihm zumindest die Skepsis zu geben, die er verdient.

Meine Interpretation von Gelmans Standpunkt ist jedoch, dass das Peer-Review-Verfahren bekanntermaßen eine positive statistische Signifikanz belohnt und unbedeutende Ergebnisse bestraft, indem diese Artikel nicht veröffentlicht werden. Dies gilt unabhängig davon, ob die Veröffentlichung eines unbedeutenden Befundes einen potenziell großen Einfluss auf das Denken und Theoretisieren für einen bestimmten Bereich haben würde oder nicht. Gelman, Simonshohn und andere haben wiederholt auf den Missbrauch des Signifikanzniveaus von 0,05 in von Experten geprüften und veröffentlichten Forschungsergebnissen hingewiesen, indem sie Beispiele für lächerliche, aber statistisch signifikante Ergebnisse in der paranormalen, sozialen und psychologischen Forschung angeführt haben. Eine der ungeheuerlichsten war die statistisch signifikante Feststellung, dass schwangere Frauen häufiger rote Kleider tragen. Gelman behauptet, dass, da keine logischen Herausforderungen für die statistischen Ergebnisse bestehen,möglicherweise bedeutungslose Erklärung. Hier bezieht er sich auf die Berufsgefahr der Branche mit übermäßig technischen und abstrusen Argumenten, die wenig oder nichts dazu beitragen, eine Debatte unter einem Laienpublikum voranzutreiben.

Dies ist ein Punkt, den Gary King vehement hervorhebt, wenn er praktisch quantitative Politikwissenschaftler (und im weiteren Sinne alle Quants) auffordert, die mechanistisch-technische Berichterstattung zu unterbinden, wie "dieses Ergebnis war auf einem Niveau von ungefähr 0,05 signifikant", und sich zu substanzielleren Interpretationen zu bewegen . Hier ist ein Zitat aus einem Papier von ihm,

(1) numerisch genaue Schätzungen der Mengen von größtem materiellem Interesse übermitteln, (2) angemessene Messgrößen für die Unsicherheit in Bezug auf diese Schätzungen einschließen und (3) wenig Fachwissen zum Verständnis erfordern. Die folgende einfache Aussage erfüllt unsere Kriterien: "Wenn andere Dinge gleich sind, würde ein zusätzliches Ausbildungsjahr Ihr Jahreseinkommen um durchschnittlich 1.500 Dollar erhöhen, plus oder minus etwa 500 Dollar." Jeder kluge Gymnasiast würde diesen Satz verstehen, egal wie ausgefeilt das statistische Modell und die leistungsfähigen Computer waren, mit denen es erstellt wurde.

King's Point ist sehr gut aufgenommen und zeigt auf, in welche Richtung die Debatte gehen muss.

Optimale Nutzung statistischer Analysen: Verbesserte Interpretation und Darstellung , King, Tomz und Wittenberg, 2002, Am Jour of Poli Sci .


2
+1 Vielen Dank für diesen lesbaren, informativen und nachdenklichen Beitrag zum Thread.
Whuber

@whuber Danke für die freundlichen Worte. Die Zeit wird zeigen, ob andere Teilnehmer damit einverstanden sind oder nicht.
Mike Hunter

2
Ich mag getäuscht sein, aber ich denke gern, dass einige (wenn nicht die meisten) unserer aktiven Wähler nicht auf der Grundlage von Zustimmung oder Uneinigkeit abstimmen, sondern ob ein Beitrag auf die ursprüngliche Frage auf eine klare und maßgebliche Weise antwortet . Schließlich lautet der Schwebetext über dem Abstimmungssymbol "Diese Antwort ist nützlich" und nicht "Ich stimme diesem Typen zu". (Dies ist nicht zu verwechseln mit dem Abstimmen auf unserer Meta-Site, was einen Grad an Übereinstimmung bedeutet.) Einige Belege für diesen Eindruck liefern die vielen verliehenen sportlichen Abzeichen .
Whuber

@Whuber Die Nuance, auf die Sie hinweisen, ist ordnungsgemäß notiert.
Mike Hunter

@whuber dieser Thread war die Quelle meiner Verwendung des Wortes in unserem Chat neulich getäuscht .
Mike Hunter

5

Hier sind einige meiner Gedanken zu Frage 3, nachdem ich alle aufschlussreichen Kommentare und Antworten gelesen habe.

Möglicherweise besteht eine praktische Anleitung zur statistischen Analyse zur Vermeidung von p-Wert-Hacking darin, stattdessen die wissenschaftlich (oder biologisch, klinisch usw.) signifikante / bedeutsame Effektgröße zu untersuchen.

θ

H0:θ=0vs.Ha:θ0,
H0:θ<δvs.Ha:θδ,
δ

Um zu vermeiden, dass zu große Stichproben verwendet werden, um den Effekt zu erkennen, sollte auch die erforderliche Stichprobengröße berücksichtigt werden. Das heißt, wir sollten die maximale Stichprobengröße, die für das Experiment verwendet wird, einschränken.

Um zusammenzufassen,

  1. Wir müssen einen Schwellenwert für die sinnvolle Effektgröße vorgeben, um die Signifikanz zu deklarieren.
  2. Wir müssen einen Schwellenwert für die im Experiment verwendete Stichprobengröße vorgeben, um zu quantifizieren, wie nachweisbar die sinnvolle Effektgröße ist.

Mit dem oben Gesagten können wir möglicherweise einen geringfügigen "signifikanten" Effekt vermeiden, der durch eine große Stichprobengröße hervorgerufen wird.


[Update 09.06.2015]

In Bezug auf Frage 3 gibt es einige Vorschläge, die auf dem kürzlich erschienenen Artikel aus der Natur basieren : "Der unbeständige P-Wert führt zu nicht reproduzierbaren Ergebnissen", wie ich im Fragenteil erwähnt habe.

  1. Berichten Sie über Schätzungen der Effektgröße und deren Genauigkeit, dh ein Konfidenzintervall von 95%, da diese informativeren Informationen genau Fragen beantworten, z. B. wie groß der Unterschied ist oder wie stark die Beziehung oder Assoziation ist.
  2. Stellen Sie die Effektgrößenschätzungen und 95% -KI in den Kontext der spezifischen wissenschaftlichen Studien / Fragen und konzentrieren Sie sich auf deren Relevanz für die Beantwortung dieser Fragen und den Abschlag des unsteten P-Werts.
  3. Ersetzen Sie die Leistungsanalyse mit „ Planung für Präzision “ die Stichprobengröße für die Schätzung der Effektgröße erforderlich , um zu bestimmen einen definierten Grad an Präzision zu erreichen.

[Ende Update 09.06.2015]


4
H0:θ=δ

@ AndyW, Danke für die Kommentare. Ich habe meine Antwort entsprechend geändert. Wäre das eine bessere Option?
Aaron Zeng

2
+1 für den Verweis auf diesen Nature-Artikel. Es enthält jedoch einige erstaunliche Fehlinformationen, wie die (unangekündigte) Bayes'sche Interpretation von p-Werten: "Wenn eine Studie beispielsweise P = 0,03 ergibt, besteht eine 90% ige Wahrscheinlichkeit, dass eine Wiederholungsstudie irgendwo einen P-Wert zurückgibt zwischen dem weiten Bereich von 0–0,6 (90% Vorhersageintervalle), während die Wahrscheinlichkeit von P <0,05 nur 56% beträgt. " Ich frage mich, von welcher Vorabverteilung die Autoren ausgehen - und warum das überhaupt relevant ist?
whuber

@AndyW und Aaron Zeng, noch besser ist es, die Ergebnisse beider Tests auf Unterschiede und auf Äquivalenz zu kombinieren . Auf diese Weise werden sowohl die relevante Effektgröße als auch die statistische Aussagekraft explizit in die Schlussfolgerungen einbezogen (siehe Abschnitt über Relevanztests).
Alexis

3

P(D|H0)αH0H0

  1. Dies impliziert, dass 1/20 Ergebnisse die Null zurückweisen können, wenn dies nicht der Fall sein sollte. Wenn die Schlussfolgerung der Wissenschaft auf einzelnen Experimenten beruht, wäre die Aussage vertretbar. Andernfalls würde bei wiederholbaren Experimenten impliziert, dass 19/20 nicht abgelehnt wird. Die Moral der Geschichte ist, dass Experimente wiederholbar sein sollten.

  2. Wissenschaft ist eine Tradition, die auf "Objektivität" beruht, so dass "objektive Wahrscheinlichkeit" natürlich anspricht. Erinnern Sie sich daran, dass Experimente einen hohen Grad an Kontrolle demonstrieren sollen, wobei häufig Blockdesign und Randomisierung zur Kontrolle von Faktoren außerhalb der Studie eingesetzt werden. Daher ist der Vergleich mit dem Zufallsprinzip sinnvoll, da alle anderen Faktoren mit Ausnahme der untersuchten Faktoren kontrolliert werden sollen. Diese Techniken waren in der Landwirtschaft und in der Industrie sehr erfolgreich, bevor sie auf die Wissenschaft übertragen wurden.

  3. Ich bin mir nicht sicher, ob ein Mangel an Informationen jemals wirklich das Problem war. Es ist bemerkenswert, dass für viele in den nicht-mathematischen Wissenschaften die Statistik nur ein Kästchen ist, das anzukreuzen ist.

  4. Ich würde eine allgemeine Lektüre über Entscheidungstheorie vorschlagen, die die beiden Rahmenwerke vereint. Es kommt einfach darauf an, so viele Informationen wie möglich zu verwenden. Häufigkeitsstatistiken gehen davon aus, dass Parameter in Modellen unbekannte Werte aus festen Verteilungen haben. Bayesianer nehmen an, dass Parameter in Modellen von Verteilungen stammen, die durch das bedingt sind, was wir wissen. Wenn es genug Informationen gibt, um eine Vorgängerversion zu bilden, und genug Informationen, um sie auf einen genauen Nachfolger zu aktualisieren, ist das großartig. Wenn dies nicht der Fall ist, erhalten Sie möglicherweise schlechtere Ergebnisse.


1

Reproduzierbarkeit statistischer Testergebnisse

Dies ist eine kurze, einfache Übung zur Beurteilung der Reproduzierbarkeit von Entscheidungen auf der Grundlage statistischer Tests.

Betrachten Sie eine Nullhypothese H0 mit einer Reihe alternativer Hypothesen, die H1 und H2 enthalten. Richten Sie das Testverfahren für statistische Hypothesen auf ein Signifikanzniveau von 0,05 ein, um eine Potenz von 0,8 zu erhalten, wenn H1 wahr ist. Nehmen wir weiterhin an, dass die Leistung für H2 0,5 beträgt. Um die Reproduzierbarkeit des Testergebnisses zu beurteilen, wird das Experiment zweimal ausgeführt. Ausgehend von der Situation, in der H0 wahr ist, sind die Wahrscheinlichkeiten für die Ergebnisse des gemeinsamen Experiments in Tabelle 1 aufgeführt. Die Wahrscheinlichkeit, Entscheidungen nicht reproduzieren zu können, beträgt 0,095.

Tabelle 1. Häufigkeiten, wenn H0 wahr ist

Frequency.of.decisionReject.H0Retain.H0Reject.H00.00250.0475Retain.H00.04750.9025

Die Frequenzen ändern sich, wenn sich der wahre Naturzustand ändert. Unter der Annahme, dass H1 wahr ist, kann H0 mit einer Potenz von 0,8 abgelehnt werden. Die resultierenden Häufigkeiten für die verschiedenen Ergebnisse des gemeinsamen Experiments sind in Tabelle 2 dargestellt. Die Wahrscheinlichkeit, Entscheidungen nicht reproduzieren zu können, beträgt 0,32.

Tabelle 2. Häufigkeiten, wenn H1 wahr ist

Frequency.of.decisionReject.H0Retain.H0Reject.H00.640.16Retain.H00.160.04

Angenommen, H2 ist wahr, wird H0 mit einer Wahrscheinlichkeit von 0,5 verworfen. Die resultierenden Häufigkeiten für die unterschiedlichen Ergebnisse des gemeinsamen Experiments sind in Tabelle 3 dargestellt. Die Wahrscheinlichkeit, Entscheidungen nicht reproduzieren zu können, beträgt 0,5.

Tabelle 3. Häufigkeiten, wenn H2 wahr ist

Frequency.of.decisionReject.H0Retain.H0Reject.H00.250.25Retain.H00.250.25

Das Testverfahren wurde entwickelt, um Fehler vom Typ I (die Zurückweisung der Nullhypothese, obwohl sie wahr ist) mit einer Wahrscheinlichkeit von 0,05 zu kontrollieren und Fehler vom Typ II zu begrenzen (keine Zurückweisung der Nullhypothese, obwohl sie falsch ist und H1 wahr ist) bis 0,2. In beiden Fällen, in denen entweder H0 oder H1 als wahr angenommen wird, führt dies zu nicht vernachlässigbaren Häufigkeiten von 0,095 bzw. 0,32 von "nicht reproduzierbaren", "widersprüchlichen" Entscheidungen, wenn dasselbe Experiment zweimal wiederholt wird. Bei "nicht reproduzierbaren", "widersprüchlichen" Entscheidungen verschlechtert sich die Situation mit einer Häufigkeit von bis zu 0,5, wenn der wahre Naturzustand zwischen der Null- und der Alternativhypothese liegt, die für die Versuchsplanung herangezogen wurden.

Die Situation kann sich auch verbessern - wenn Fehler vom Typ 1 strenger kontrolliert werden oder wenn der wahre Naturzustand weit von der Null entfernt ist, was dazu führt, dass die Null, die nahe bei 1 liegt, abgelehnt werden kann.

Wenn Sie also reproduzierbarere Entscheidungen treffen möchten, erhöhen Sie das Signifikanzniveau und die Aussagekraft Ihrer Tests. Nicht sehr erstaunlich ...


(+1) Sie können den p-Wert jedoch nicht vor dem Experiment auf 5% setzen - denken Sie, Sie meinen "Signifikanzniveau".
Scortchi

Vielen Dank. Das Gleiche gilt für den letzten Satz: "Verringere die Signifikanzstufen und erhöhe die Kraft"
Scortchi - Wiedereinsetzung von Monica

Ich denke, das größte Problem bei p-Werten ist, dass die Leute sie mit einer inhaltlichen Bedeutung verwechseln. Wenn also p <0,05 ist, bedeutet dies, dass die entdeckte Effektgröße groß genug ist, um eine Rolle zu spielen. Bei der Arbeit werde ich gebeten, durch die Erzeugung von p-Werten [substanziell] signifikante Effekte zu erzielen.
user54285
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.