Was ist ein gutes, überzeugendes Beispiel, bei dem p-Werte nützlich sind?


64

Meine Frage im Titel ist selbsterklärend, aber ich möchte ihr einen Kontext geben.

Die ASA veröffentlichte Anfang dieser Woche eine Erklärung „ zu p-Werten: Kontext, Prozess und Zweck “, in der verschiedene häufig vorkommende Missverständnisse des p-Werts umrissen und zur Vorsicht gedrängt wurden, ihn nicht ohne Kontext und Gedanken zu verwenden (was so gut wie gesagt werden könnte) jede statistische Methode, wirklich).

Als Antwort auf die ASA schrieb Professor Matloff einen Blog-Beitrag mit dem Titel: Nach 150 Jahren sagt die ASA Nein zu p-Werten . Dann schrieben Professor Benjamini (und ich) einen Antwortbeitrag mit dem Titel Es ist nicht die Schuld der p-Werte - Überlegungen zur jüngsten ASA-Aussage . Als Antwort darauf fragte Professor Matloff in einem Folgepost :

Was ich gerne sehen würde [...] ist - ein gutes, überzeugendes Beispiel, in dem p-Werte nützlich sind. Das muss wirklich das Endergebnis sein.

Um seine zwei Hauptargumente gegen die Nützlichkeit des Wertes zu zitieren :p

  1. Bei großen Stichproben stürzen sich Signifikanztests auf winzige, unwichtige Abweichungen von der Nullhypothese.

  2. In der realen Welt gibt es praktisch keine Nullhypothesen, daher ist es absurd und bizarr, einen Signifikanztest für sie durchzuführen.

Ich bin sehr daran interessiert, was andere Mitglieder einer validierten Community von dieser Frage / diesen Argumenten halten und was eine gute Antwort darauf sein könnte.


5

2
Vielen Dank, Tim. Ich vermute, meine Frage ist so unterschiedlich, dass sie einen eigenen Thread verdient (zumal sie in den beiden von Ihnen genannten nicht beantwortet wurde). Trotzdem sind die Links sehr interessant!
Tal Galili

3
Es hat es verdient und ist interessant (daher meine +1), ich habe die Links nur zu Ihrer Information bereitgestellt :)
Tim

3
Ich muss sagen, dass ich (noch) nicht gelesen habe, was Matloff zu diesem Thema geschrieben hat, aber damit Ihre Frage für sich steht, können Sie vielleicht kurz zusammenfassen, warum er kein Standardbeispiel für die Verwendung von p-Werten findet. " gut / überzeugend "? Zum Beispiel möchte jemand untersuchen, ob eine bestimmte experimentelle Manipulation das Verhalten eines Tieres in eine bestimmte Richtung verändert. so werden eine experimentelle und eine Kontrollgruppe gemessen und verglichen. Als Leser eines solchen Papiers bin ich froh, den p-Wert zu sehen (dh sie sind nützlich für mich), denn wenn er groß ist, muss ich nicht aufpassen. Dieses Beispiel ist nicht genug?
Amöbe sagt Reinstate Monica

1
@amoeba - er listet sie hier auf: matloff.wordpress.com/2016/03/07/… ----- Zitiert seine Argumente: 1) Bei großen Stichproben stürzen sich Signifikanztests auf winzige, unwichtige Abweichungen von der Nullhypothese. 2) In der realen Welt sind so gut wie keine Nullhypothesen wahr, daher ist es absurd und bizarr, einen Signifikanztest für sie durchzuführen. ----- Ich habe meine eigene Meinung dazu (die ich später gerne formalisieren würde), aber ich bin sicher, dass andere aufschlussreiche Möglichkeiten haben werden, darauf zu antworten.
Tal Galili

Antworten:


44

Ich werde beide Punkte von Matloff betrachten:

  1. Bei großen Stichproben stürzen sich Signifikanztests auf winzige, unwichtige Abweichungen von der Nullhypothese.

    Die Logik hier ist, dass, wenn jemand hoch signifikantes meldet , wir allein aus dieser Zahl nicht sagen können, ob der Effekt groß und wichtig oder irrelevant klein ist (wie es mit großem n passieren kann ). Ich finde dieses Argument seltsam und kann überhaupt keine Verbindung dazu herstellen, da ich noch nie eine Studie gesehen habe, die einen p- Wert ohne Angabe einer Effektgröße angeben würde. Studien, die ich lese, würden z. B. sagen (und normalerweise auf einer Figur zeigen), dass Gruppe A einen solchen und einen solchen Mittelwert hatte, Gruppe B einen solchen und einen solchen Mittelwert hatte und sie sich mit einem solchen und einem solchen p- Wert signifikant unterschieden . Ich kann natürlich selbst beurteilen, ob der Unterschied zwischen A und B groß oder klein ist.p=0.0001npp

    (In den Kommentaren verwies mich @RobinEkman auf mehrere häufig zitierte Studien von Ziliak & McCloskey ( 1996 , 2004 ), in denen festgestellt wurde, dass die Mehrheit der Wirtschaftspapiere die "statistische Signifikanz" einiger Effekte trompetet, ohne die Effektgröße und -stärke zu berücksichtigen seine "praktische Bedeutung" (die, wie Z & MS argumentieren, oft winzig sein kann). Dies ist eindeutig eine schlechte Praxis. Wie @ MatteoS weiter unten erklärte, werden die Effektgrößen (Regressionsschätzungen) jedoch immer angegeben, so mein Argument.)

  2. In der realen Welt gibt es praktisch keine Nullhypothesen, daher ist es absurd und bizarr, einen Signifikanztest für sie durchzuführen.

    Diese Sorge wird auch oft geäußert, aber auch hier kann ich mich nicht wirklich darauf einlassen. Es ist wichtig zu wissen, dass Forscher ihr ad infinitum nicht erhöhen . In dem mir vertrauten Bereich der Neurowissenschaften werden Leute Experimente mit n = 20 oder vielleicht n = 50 , sagen wir Ratten, durchführen. Wenn kein Effekt zu sehen ist, ist die Schlussfolgerung, dass der Effekt nicht groß genug ist, um interessant zu sein. Niemand weiß ich würde auf die Zucht, Ausbildung, Aufnahme und opfern n = 5000 Ratten zu zeigen , dass es ist einige statistisch signifikant , aber winzige Effekt. Und wohingegen es könnten n=20n=50n=5000wahr sein , dass fast keine wirklichen Auswirkungen genau Null ist , sind es ist sicherlich wahr , dass viele viele realen Effekte klein genug sind , um mit angemessener Probe nachgewiesen werden Größen , dass vernünftige Forscher tatsächlich verwenden, ihre gute Beurteilung.

    (Es gibt berechtigte Bedenken, dass Stichprobengrößen häufig nicht groß genug sind und dass viele Studien nicht ausreichend unterstützt werden. Daher sollten Forscher in vielen Bereichen möglicherweise eher auf anstatt n = 20 abzielen . Unabhängig von der Stichprobengröße , begrenzt es die Effektstärke, die die Studie erkennen kann.)n=100n=20

    Darüber hinaus glaube ich nicht zuzustimmen, dass fast keine Nullhypothesen zutreffen, zumindest nicht in den experimentellen randomisierten Studien (im Gegensatz zu Beobachtungsstudien). Zwei Gründe:

    • Sehr oft gibt es eine Richtwirkung auf die Vorhersage, die getestet wird; Der Forscher möchte nachweisen, dass ein gewisser Effekt positiv ist . Konventionell wird dies normalerweise mit einem zweiseitigen Test unter der Annahme eines Nullpunkts H 0 : δ = 0 durchgeführt, aber tatsächlich ist dies eher ein einseitiger Test, der versucht, H 0 : δ < 0 abzulehnen . (Die Antwort von @ CliffAB, +1, macht einen verwandten Punkt.) Und das kann sicherlich wahr sein.δ>0H0:δ=0H0:δ<0

    • Selbst wenn ich über den Punkt "nil" null spreche , verstehe ich nicht, warum sie niemals wahr sind. Manche Dinge stehen einfach nicht in kausalem Zusammenhang mit anderen Dingen. Schauen Sie sich die Psychologiestudien an, die sich in den letzten Jahren nicht wiederholen konnten: Menschen, die die Zukunft spüren; Frauen, die sich beim Eisprung rot anziehen; Grundierung mit altersbezogenen Wörtern, die die Gehgeschwindigkeit beeinflussen; usw. Es kann durchaus sein, dass es hier überhaupt keine kausalen Zusammenhänge gibt und die wahren Auswirkungen daher genau null sind.H0:δ=0

Norm Matloff selbst schlägt vor , Konfidenzintervalle anstelle von Werten zu verwenden, da diese die Effektgröße anzeigen . Konfidenzintervalle sind gut, beachten Sie jedoch einen Nachteil eines Konfidenzintervalls im Vergleich zum p- Wert: Das Konfidenzintervall wird für einen bestimmten Abdeckungswert angegeben, z . B. 95 % . Wenn ich ein Konfidenzintervall von 95 % sehe , kann ich nicht sagen, wie breit ein Konfidenzintervall von 99 % wäre. Ein einzelner p- Wert kann jedoch mit jedem α verglichen werden, und verschiedene Leser können unterschiedliche Alphas berücksichtigen.pp95%95%99%pα

Mit anderen Worten, ich denke, dass für jemanden, der gerne Konfidenzintervalle verwendet, ein Wert eine nützliche und aussagekräftige zusätzliche Statistik ist, die zu melden ist.p


Ich möchte ein langes Zitat über die praktische Nützlichkeit von Werten von meinem Lieblingsblogger Scott Alexander geben; Er ist kein Statistiker (er ist Psychiater), aber er hat viel Erfahrung darin, psychologische / medizinische Literatur zu lesen und die Statistiken darin zu überprüfen. Das Zitat stammt aus seinem Blogbeitrag über die Studie mit gefälschter Schokolade, die ich sehr empfehlen kann. Betonung meiner.p

[...] Aber nehmen wir an, wir dürfen keine Werte machen. Ich sage Ihnen nur: "Ja, es gab eine Studie mit fünfzehn Personen, in der Schokolade gegen Insulinresistenz eingesetzt wurde", und Sie lachen mir ins Gesicht. Die Effektgröße soll dabei helfen. Aber nehmen wir an, ich sage Ihnen: "Es gab eine Studie mit 15 Personen, in der festgestellt wurde, dass Schokolade bei der Insulinresistenz hilft. Die Effektgröße betrug 0,6 ." Ich habe überhaupt keine Ahnung, ob das mit zufälligem Rauschen vereinbar ist oder nicht. Machst du? Okay, dann sagen sie, wir sollen Konfidenzintervalle melden. Die Effektgröße betrug 0,6 mit einem 95 % -Konfidenzintervall von [ 0,2 , 1,0 ].p0.60.695%[0.2,1.0]. Okay. Ich überprüfe also die Untergrenze des Konfidenzintervalls und sehe, dass es sich von Null unterscheidet. Aber jetzt überschreite ich nicht den Wert. Ich verwende den p-Wert nur, indem ich ihn selbst kludgy berechne - " 95 % Konfidenzintervall enthält keine Null" ist dasselbe wie " p- Wert ist kleiner als 0,05 ".p95%p0.05

(Stellen Sie sich vor, obwohl ich weiß, dass das -Konfidenzintervall keine Null enthält, frage ich mich, ob das 99 % -Konfidenzintervall dies tut. Wenn es nur eine Statistik gäbe, die mir diese Informationen geben würde!)95%99%

ppp0.05d=0.6

p


pp


1
Ihre Antwort auf das zweite Argument kommt meiner Meinung nach zu kurz. Niemand schlägt vor, dass echte Forscher ihre Stichprobengröße unbegrenzt erhöhen. Der Punkt (wie ich es sehe) ist, dass jede Nullhypothese der Form "effect = 0", an der ein Forscher interessiert wäre, falsch ist, und es wenig Wert hat, einen Hypothesentest durchzuführen, wenn die Nullhypothese bereits vorhanden ist als falsch bekannt. Dies setzt natürlich voraus, dass wir uns wirklich für die relevanten Populationsparameter und nicht für die Merkmale der Stichprobe interessieren.
Mark999

1
Aber ich gebe zu, dass "jede Nullhypothese ... falsch sein wird" nur eine Annahme ist.
Mark999

1
Ich sollte zugeben, dass meine Argumentation hier eher informell war und ich nie versucht habe, sie zu formalisieren. Vielleicht sollte ich nicht sagen, dass es eine klare Grenze zwischen interessanten und uninteressanten Effektgrößen gibt, damit dieses Argument funktioniert. Vielmehr handelt es sich um ein Kontinuum mit einer weiter von Null entfernten Interessantheit, und die "angemessene" Stichprobengröße sollte den sehr uninteressanten Effektgrößen eine kleine und den sehr interessanten Effektgrößen eine große Potenz verleihen, aber es gibt keine einzige Schwelle. Ich frage mich, ob man es genau nach Neyman-Pearson formalisieren kann.
Amöbe sagt Reinstate Monica

6
p

3
@amoeba: Die Quelle für die Behauptung von 70% könnte die zweideutige Formulierung in der Zusammenfassung von 2006 sein: „Von den 182 in den 1980er Jahren in der [VRE] veröffentlichten Veröffentlichungen unterschieden 70% keine wirtschaftliche von statistischer Signifikanz.“ Damit meinen sie - wie in beiden Aufsätzen erläutert -, dass oft nur letzteres kommentiert wird und dass die Größe des Regressionskoeffizienten in Bezug auf die abhängige Variable („ökonomische Signifikanz“ in ihrem Jargon) nicht so ausführlich analysiert wird . Aber es wird immer berichtet. Ich schlage vor, dass Sie Ihr Update in der Antwort bearbeiten, um
Folgendes wiederzugeben

29

Ich ärgere mich sehr über die folgenden beiden Ideen:

  1. Bei großen Stichproben stürzen sich Signifikanztests auf winzige, unwichtige Abweichungen von der Nullhypothese.

  2. In der realen Welt gibt es praktisch keine Nullhypothesen, daher ist es absurd und bizarr, einen Signifikanztest für sie durchzuführen.

Es ist so ein Strohmann-Argument über p-Werte. Das grundlegende Problem, das zur Entwicklung der Statistik geführt hat, besteht darin, einen Trend zu erkennen und zu wissen, ob das, was wir sehen, zufällig ist oder einen systematischen Trend darstellt.

HO:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0

Es ist wahr, dass dies nicht die Stärke des Effekts angibt. Aber es sagt Ihnen die Richtung des Effekts. Stellen wir also den Karren nicht vor das Pferd. Bevor ich anfange, Schlussfolgerungen über die Stärke des Effekts zu ziehen, möchte ich sicher sein, dass ich die Richtung des Effekts richtig eingestellt habe!

Ebenso scheint mir das Argument, dass "p-Werte sich auf winzige, unwichtige Effekte stürzen", ziemlich fehlerhaft zu sein. Wenn Sie sich einen p-Wert als Maß dafür vorstellen, wie stark die Daten die Richtung Ihrer Schlussfolgerung unterstützen, möchten Sie natürlich, dass kleine Effekte aufgenommen werden, wenn die Stichprobengröße groß genug ist. Zu sagen, dass dies bedeutet, dass sie nicht nützlich sind, ist für mich sehr seltsam: Sind diese Forschungsbereiche, die unter p-Werten gelitten haben, dieselben, die über so viele Daten verfügen, dass sie die Zuverlässigkeit ihrer Schätzungen nicht beurteilen müssen? In ähnlicher Weise können Sie die Hypothesen testen, wenn Ihre Probleme wirklich darin bestehen, dass p-Werte "auf winzige Effektgrößen stürzen"H1:μd>1H2:μd<-1

Um dies weiter zu veranschaulichen, nehmen wir an, wir hätten nur Konfidenzintervalle betrachtet und p-Werte verworfen. Was ist das erste, was Sie im Konfidenzintervall überprüfen würden? Ob der Effekt ausschließlich positiv (oder negativ) war, bevor die Ergebnisse zu ernst genommen wurden. Selbst ohne p-Werte würden wir daher informell Hypothesentests durchführen.

In Bezug auf die Anfrage von OP / Matloff, "Geben Sie ein überzeugendes Argument dafür, dass p-Werte signifikant besser sind", halte ich die Frage für etwas umständlich. Ich sage dies, weil es sich je nach Ihrer Ansicht automatisch selbst beantwortet ("Geben Sie mir ein konkretes Beispiel, bei dem das Testen einer Hypothese besser ist, als sie nicht zu testen"). Ein Sonderfall, den ich für nahezu unbestreitbar halte, sind jedoch RNAseq-Daten. In diesem Fall untersuchen wir in der Regel das Expressionsniveau von RNA in zwei verschiedenen Gruppen (dh erkrankte, kontrollierte) und versuchen, Gene zu finden, die in den beiden Gruppen unterschiedlich exprimiert werden. In diesem Fall ist die Effektgröße selbst nicht wirklich aussagekräftig. Dies liegt daran, dass die Expressionsniveaus verschiedener Gene so stark variieren, dass für einige Gene eine zweifach höhere Expression nichts bedeutet. Bei anderen streng regulierten Genen ist eine 1,2-fach höhere Expression tödlich. Daher ist die tatsächliche Größe der Effektgröße beim ersten Vergleich der Gruppen eigentlich ziemlich uninteressant. Aber duwirklich, möchte wirklich wissen, ob sich die Expression des Gens zwischen den Gruppen und der Richtung der Änderung ändert! Darüber hinaus ist es viel schwieriger, die Probleme mehrerer Vergleiche (für die Sie möglicherweise 20.000 Vergleiche in einem Durchgang durchführen) mit Konfidenzintervallen zu lösen, als dies bei p-Werten der Fall ist.


2
Ich bin nicht der Meinung, dass es an sich nützlich ist, die Richtung des Effekts zu kennen . Wenn ich auf dem Boden spucken, ich weiß , dies wird entweder verbessern oder hemmen Pflanzenwachstum (dh die Nullhypothese keine Wirkung falsch ist). Wie ist zu wissen , die Richtung dieses Effekts ohne jede Information über das Ausmaß hilfreich? Dies ist jedoch das einzige, was der p- Wert Ihres zweiseitigen Tests / zweier einseitiger Tests (sozusagen) Ihnen sagt! (Übrigens, ich glaube, das Beispiel "Spucke auf den Boden" wurde aus einem Papier über p- Werte entlehnt, das ich vor Jahren gelesen habe, aber ich kann mich nicht erinnern, an welchen.)
Karl Ove Hufthammer

3
@KarlOveHufthammer: Karren vor dem Pferd. Ich sollte nicht aufhören, nur weil ich die Richtung des Effekts kenne. Aber ich sollte mich darum kümmern, dass ich die richtige Richtung habe, bevor ich mich über die Größe Gedanken mache. Glauben Sie, dass die wissenschaftliche Gemeinschaft besser dran wäre, wenn sie alles mit großen geschätzten Auswirkungen einbeziehen würde, ohne die p-Werte zu überprüfen?
Cliff AB

3
Hein:μd>1Hein:μd<-1

2
Sie haben einige sehr gute Punkte in den Bearbeitungen gemacht. Ich mag deine Antwort jetzt wirklich!
Amöbe sagt Reinstate Monica

3
Während zu auf meiner Antwort Arbeits stats.stackexchange.com/questions/200500 stieß ich auf dieser letzte Preprint von Wagenmakers et al , wo sie Ihren Punkt über Direktionalität im Wesentlichen argumentieren: „einseitige P - Werte eine Bayes - Interpretation als ungefähren Test gegeben werden können , der Richtung, dh ein Test, ob ein latenter Effekt negativ oder positiv ist. " Es ist interessant, weil Wagenmakers ein eingefleischter Bayesianer ist, er schrieb viel gegen p-Werte. Trotzdem sehe ich hier eine konzeptionelle Übereinstimmung.
Amöbe sagt Reinstate Monica

6

Vergib mir meinen Sarkasmus, aber ein offensichtliches gutes Beispiel für die Nützlichkeit von p-Werten ist die Veröffentlichung. Ich wurde von einem Experimentator angesprochen, um einen p-Wert zu erhalten. Er hatte ein Transgen in eine einzelne Pflanze eingebracht, um das Wachstum zu verbessern. Aus dieser einzigen Pflanze produzierte er mehrere Klone und wählte den größten Klon aus, ein Beispiel, bei dem die gesamte Population gezählt wird. Seiner Frage nach möchte der Rezensent einen p-Wert sehen, dass dieser Klon der größte ist. Ich erwähnte, dass in diesem Fall keine Statistik erforderlich ist, da er die gesamte Bevölkerung zur Hand hatte, aber ohne Erfolg.

Ernsthafter, meiner bescheidenen Meinung nach, aus akademischer Sicht finde ich diese Diskussion interessant und anregend, genau wie die Debatten zwischen Frequentisten und Bayesianern vor ein paar Jahren. Es zeigt die unterschiedlichen Perspektiven der besten Köpfe auf diesem Gebiet auf und beleuchtet die vielen Annahmen / Fallstricke, die mit der im Allgemeinen nicht leicht zugänglichen Methodik verbunden sind.

In der Praxis denke ich, dass es für mich eher eine Enthüllung eines zugrunde liegenden systemischen Problems ist, als über den besten Ansatz zu streiten und einen fehlerhaften Maßstab durch einen anderen zu ersetzen, wie zuvor an anderer Stelle vorgeschlagen wurde, und dass der Fokus darauf liegen sollte, das Optimum zu finden lösungen. Beispielsweise könnten Situationen dargestellt werden, in denen sich p-Werte und CI ergänzen, und Umstände, in denen einer zuverlässiger ist als der andere. Im Großen und Ganzen verstehe ich, dass alle Inferenzwerkzeuge ihre eigenen Mängel aufweisen, die in jeder Anwendung verstanden werden müssen, um den Fortschritt in Richtung des endgültigen Ziels nicht zu behindern. Das tiefere Verständnis des Studiensystems.


6

Ich gebe Ihnen den beispielhaften Fall, wie p-Werte verwendet und gemeldet werden sollten. Es ist ein sehr aktueller Bericht über die Suche nach einem mysteriösen Partikel auf Large Hadron Collider (LHC) im CERN .

Vor einigen Monaten gab es in Kreisen der Hochenergiephysik viele aufgeregte Gespräche über die Möglichkeit, dass ein großes Teilchen auf LHC nachgewiesen wurde. Denken Sie daran, dies war nach der Entdeckung des Higgs-Bosons . Hier ist der Auszug aus der Arbeit "Suche nach Resonanzen, die in Photonenpaaren in 3,2 fb − 1 von pp-Kollisionen bei √s = 13 TeV mit dem ATLAS-Detektor zerfallen" von The ATLAS Collaboration Dec 15 2015 und meine Kommentare folgen:

Bildbeschreibung hier eingeben

Was sie hier sagen, ist, dass die Anzahl der Ereignisse über dem liegt, was das Standardmodell vorhersagt. Die folgende Abbildung aus dem Artikel zeigt die p-Werte von Überschussereignissen als Funktion der Masse eines Teilchens. Sie sehen, wie der p-Wert um 750 GeV abtaucht. Sie sagen also, dass es eine Möglichkeit gibt, dass ein neues Teilchen mit einer Masse von 750 Giga eV detektiert wird . Die p-Werte in der Figur werden als "lokal" berechnet. Die globalen p-Werte sind viel höher. Das ist jedoch für unser Gespräch nicht wichtig.

Wichtig ist, dass p-Werte für Physiker noch nicht "niedrig genug" sind, um einen Fund zu deklarieren, sondern "niedrig genug", um aufgeregt zu werden. Sie planen also, weiter zu zählen und hoffen, dass die p-Werte weiter sinken.

Bildbeschreibung hier eingeben

Zoom ein paar Monate vor bis August 2016, Chicago, eine Konferenz über HEP . Es wurde ein neuer Bericht "Suche nach resonanter Produktion von Photonenpaaren hoher Masse mit 12.9 fb − 1 Proton-Proton-Kollisionen bei √ s = 13 TeV und kombinierte Interpretation von Suchen bei 8 und 13 TeV" von The CMS Collaboration vorgestellt . Hier nochmal die Auszüge mit meinen Kommentaren:

Bildbeschreibung hier eingeben

Also sammelten die Jungs weiterhin Events und nun ist der Überschuss an Events bei 750 GeV weg. Die folgende Abbildung zeigt die p-Werte. Sie können sehen, wie sich der p-Wert im Vergleich zum ersten Bericht erhöht hat. Sie kommen daher leider zu dem Schluss, dass bei 750 GeV kein Partikel nachgewiesen wird.

Bildbeschreibung hier eingeben

Ich denke, so sollen p-Werte verwendet werden. Sie sind absolut sinnvoll und funktionieren eindeutig. Ich denke, der Grund dafür ist, dass frequentistische Ansätze in der Physik von Natur aus natürlich sind. Partikelstreuung ist nicht subjektiv. Sie sammeln eine Probe, die groß genug ist, und Sie erhalten ein deutliches Signal, wenn sie da ist.

Wenn Sie wirklich wissen, wie genau p-Werte hier berechnet werden, lesen Sie dieses Papier : "Asymptotische Formeln für wahrscheinlichkeitsbasierte Tests der neuen Physik" von Cowan et al


2
Alle hatten gehofft, dass der 750-GeV-Peak real ist und jetzt traurig ist. Aber ich hatte tatsächlich gehofft, dass es sich als eine Schwankung herausstellen würde (und hätte wetten können) und bin jetzt erleichtert. Ich finde es cool, dass das Standardmodell so gut funktioniert. Verstehe den brennenden Wunsch nicht ganz, über das Standardmodell hinauszugehen (als ob alles andere in der Physik gelöst wäre). Wie auch immer, +1, gutes Beispiel.
Amöbe sagt Reinstate Monica

2

Die anderen Erklärungen sind alle in Ordnung, ich wollte nur versuchen, eine kurze und direkte Antwort auf die Frage zu geben, die mir in den Sinn kam.

Überprüfung des kovariaten Ungleichgewichts in randomisierten Experimenten

Ihre zweite Behauptung (zu unrealistischen Nullhypothesen) trifft nicht zu, wenn wir das Kovariatengleichgewicht in randomisierten Experimenten überprüfen, bei denen wir wissen, dass die Randomisierung ordnungsgemäß durchgeführt wurde. In diesem Fall wissen wir, dass die Nullhypothese wahr ist. Wenn wir bei einigen Kovariaten einen signifikanten Unterschied zwischen Behandlung und Kontrollgruppe feststellen, nachdem wir natürlich mehrere Vergleiche kontrolliert haben, ist dies ein Hinweis darauf, dass wir bei der Randomisierung einen "Bad Draw" erhalten haben und der kausalen Schätzung möglicherweise nicht vertrauen sollten viel. Dies liegt daran, dass wir der Ansicht sein könnten, dass unsere Schätzung des Behandlungseffekts aus dieser speziellen Randomisierung der "schlechten Auslosung" weiter von den tatsächlichen Behandlungseffekten entfernt ist als die Schätzung aus einer "guten Auslosung".

Ich denke, das ist eine perfekte Verwendung von p-Werten. Es wird die Definition des p-Werts verwendet: die Wahrscheinlichkeit, einen Wert als oder extremer zu erhalten, wenn die Nullhypothese gegeben ist. Wenn das Ergebnis höchst unwahrscheinlich ist, haben wir tatsächlich ein "schlechtes Remis" erhalten.

Gleichgewichtstabellen / Statistiken sind auch häufig, wenn Beobachtungsdaten verwendet werden, um kausale Schlussfolgerungen zu ziehen (z. B. Matching, natürliche Experimente). Obwohl in diesen Fällen die Bilanztabellen bei weitem nicht ausreichen, um eine "kausale" Kennzeichnung der Schätzungen zu rechtfertigen.


Ich bin nicht der Meinung, dass dies eine perfekte (oder sogar gute) Verwendung von p-Werten ist. Wie definierst du ein "Bad Draw"?
mark999

2
@mark, okay. Ich glaube, ich kann Ihre letzte Frage beantworten, während Matt nicht da ist: natürlich in der Probe. Stellen Sie sich ein randomisiertes Experiment mit 50 Personen vor. Stellen Sie sich vor, es ist einfach so passiert, dass sich alle 25 Personen in Gruppe A als Männer und alle 25 Personen in Gruppe B als Frauen herausstellten. Es ist ziemlich offensichtlich, dass dies ernsthafte Zweifel an den Schlussfolgerungen der Studie aufkommen lässt. Das ist ein Beispiel für ein "Bad Draw". Matt schlug vor, einen Test für Geschlechtsunterschiede (Kovariate) zwischen A und B durchzuführen. Ich sehe nicht, wie Matts Antwort unterschiedlich interpretiert werden kann. Hier gibt es wohl überhaupt keine Populationen.
Amöbe sagt Reinstate Monica

1
@ mark999 Aber ein Test für die Differenz zwischen 12/25 und 13/25 wird offensichtlich einen hohen nicht signifikanten p-Wert ergeben, daher bin ich mir nicht sicher, worum es hier geht. Matt schlug vor, einen Test durchzuführen und einen niedrigen p-Wert als rote Fahne zu betrachten. Keine rote Fahne in Ihrem Beispiel. Ich denke, ich werde hier anhalten und Matt den Dialog fortsetzen lassen, wenn er will.
Amöbe sagt Reinstate Monica

4
Siehe ' Balancetestfehler ': gking.harvard.edu/files/matchse.pdf Sie beschreiben einen Fall, in dem die Teststatistik selbst in Ordnung sein kann (als Abstandsmaß zur Minimierung verwendet), ein p-Wert jedoch nein ergibt Sinn.
Conjugateprior

2
Für eine neuere Untersuchung in der Psycho- und Neurolinguistik gibt es einen neuen arXiv-Preprint . Wenn Sie überlegen, das Gleichgewicht usw. zu manipulieren, erfolgt die Stichprobe nicht nach dem Zufallsprinzip, und selbst wenn ja, beantworten die Tests eine andere inferentielle Frage zum Gleichgewicht in der Grundgesamtheit, nicht zum Gleichgewicht in der Stichprobe.
Livius

2

Die Kontrolle der Fehlerraten ähnelt der Qualitätskontrolle in der Produktion. Ein Roboter in einer Produktionslinie hat die Regel, zu entscheiden, ob ein Teil defekt ist, wodurch garantiert wird, dass eine festgelegte Rate von defekten Teilen, die unentdeckt durchlaufen werden, nicht überschritten wird. In ähnlicher Weise kann eine Behörde, die Entscheidungen für die Zulassung von Arzneimitteln auf der Grundlage "ehrlicher" P-Werte trifft, die Rate falscher Ablehnungen auf einem kontrollierten Niveau halten, und zwar per definitionem über die häufige langfristige Erstellung von Tests. "Ehrlich" bedeutet hier das Fehlen unkontrollierter Vorurteile, versteckter Auswahlen usw.

Weder der Roboter noch die Agentur haben jedoch einen persönlichen Anteil an einem bestimmten Medikament oder einem Teil, der das Montageband passiert. In der Wissenschaft hingegen kümmern wir uns als einzelne Ermittler am meisten um die Hypothese, die wir untersuchen, und nicht um den Anteil falscher Behauptungen in unserem Lieblingsjournal, dem wir uns unterziehen. Weder die Größe des P-Werts noch die Grenzen eines Konfidenzintervalls (CI) beziehen sich direkt auf unsere Frage nach der Glaubwürdigkeit des Berichts. Wenn wir die CI-Grenzen konstruieren, sollten wir sagen, dass die einzige Bedeutung der beiden Zahlen darin besteht, dass, wenn andere Wissenschaftler in ihren Studien die gleiche Art von CI-Berechnung durchführen, die 95% oder eine beliebige andere Abdeckung für verschiedene Studien insgesamt beibehalten werden .

Vor diesem Hintergrund finde ich es ironisch, dass P-Werte von Fachzeitschriften "verboten" werden, da sie in Zeiten der Replizierbarkeitskrise für die Redakteure von größerem Wert sind als für Forscher, die ihre Arbeiten einreichen auf lange Sicht von einer Zeitschrift in Schach gehaltene Rate an falschen Ergebnissen. P-Werte filtern gut, oder, wie IJ Good schrieb, schützen sie das hintere Ende des Statistikers, aber nicht so sehr das hintere Ende des Clients.

PS: Ich bin ein großer Fan von Benjaminis und Hochbergs Idee, die unbedingten Erwartungen mit mehreren Tests über Studien hinweg zu erfüllen. Unter der globalen "Null" wird der "frequentistische" FDR immer noch kontrolliert - Studien mit einer oder mehreren Ablehnungen tauchen mit kontrollierter Häufigkeit in einem Journal auf, obwohl in diesem Fall jede Studie, in der tatsächlich einige Ablehnungen vorgenommen wurden, den entsprechenden Anteil hat von falschen Ablehnungen, die gleich eins ist.


1

Ich stimme mit Matt überein, dass p-Werte nützlich sind, wenn die Nullhypothese wahr ist.

Das einfachste Beispiel, das ich mir vorstellen kann, ist das Testen eines Zufallszahlengenerators. Wenn der Generator ordnungsgemäß funktioniert, können Sie jede geeignete Stichprobengröße für Realisierungen verwenden. Wenn Sie die Anpassung über viele Stichproben testen, sollten die p-Werte eine gleichmäßige Verteilung aufweisen. Wenn dies der Fall ist, ist dies ein guter Beweis für eine korrekte Implementierung. Wenn nicht, wissen Sie, dass Sie irgendwo einen Fehler gemacht haben.

Andere ähnliche Situationen treten auf, wenn Sie wissen, dass eine Statistik oder Zufallsvariable eine bestimmte Verteilung haben sollte (der offensichtlichste Kontext ist wiederum die Simulation). Wenn die p-Werte einheitlich sind, haben Sie Unterstützung für eine gültige Implementierung gefunden. Wenn nicht, wissen Sie, dass irgendwo in Ihrem Code ein Problem vorliegt.


1

Ich kann mir ein Beispiel vorstellen, in dem p-Werte in der experimentellen Hochenergiephysik nützlich sind. Siehe Abb. 1 Diese Darstellung stammt aus dieser Veröffentlichung: Beobachtung eines neuen Partikels bei der Suche nach dem Standardmodell des Higgs-Bosons mit dem ATLAS-Detektor am LHC

5σH125

Bildbeschreibung hier eingeben


1
Sie müssen weitere Informationen zum Plot mit Hintergrundinformationen und Antworten auf die ursprüngliche Frage bereitstellen. Dies ist bei weitem nicht genug Information.
Greenparker

@ Greenparker, hat versucht, Hintergrundinformationen zum Grundstück hinzuzufügen.
Nicolas Gutierrez

±1σ
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.