14

In der angewandten Forschung wird viel Wert darauf gelegt, Effektgrößen anstelle von p-Werten zu verwenden und anzugeben (z. B. Zitate weiter unten).

Ist es aber nicht so, dass eine Effektgröße wie ein p-Wert eine Zufallsvariable ist und daher von Probe zu Probe variieren kann , wenn dasselbe Experiment wiederholt wird? Mit anderen Worten, ich frage mich, welche statistischen Merkmale (z. B. die Effektgröße ist von Stichprobe zu Stichprobe weniger variabel als der p-Wert) die Effektgrößen zu besseren Indices für die Beweismessung machen als die p-Werte?

Ich sollte jedoch eine wichtige Tatsache erwähnen, die einen p-Wert von einer Effektgröße trennt. Das heißt, eine Effektgröße muss geschätzt werden, da sie einen Populationsparameter hat, ein p-Wert ist jedoch nicht zu schätzen, da er keinen Populationsparameter hat.

Für mich ist die Effektgröße einfach eine Metrik, die in bestimmten Forschungsbereichen (z. B. in der Humanforschung) dazu beiträgt, empirische Ergebnisse, die von verschiedenen von Forschern entwickelten Messinstrumenten stammen, in eine gemeinsame Metrik umzuwandeln (fairerweise kann die Verwendung dieser Metrik in der Humanforschung besser passen) Quant Research Club).

Wenn wir ein einfaches Verhältnis als Effektgröße verwenden, zeigt das Folgende (in R), wie weit Effektgrößen von p-Werten entfernt sind. (p-Wert ändert sich, Effektgröße jedoch nicht)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Beachten Sie, dass die meisten Effektgrößen linear mit einer Teststatistik zusammenhängen. Somit ist es ein einfacher Schritt, Nullhypothesentests unter Verwendung von Effektgrößen durchzuführen.

Beispielsweise kann eine t-Statistik, die aus einem Pre-Post-Design resultiert, leicht in eine entsprechende d-Effektgröße von Cohen konvertiert werden. Insofern ist die Verteilung von Cohen's d einfach die Version von at distribution nach Maßstäben .

Die Zitate:

Da p-Werte verwirrte Indizes sind, könnten theoretisch 100 Studien mit unterschiedlichen Stichprobengrößen und 100 verschiedenen Effektgrößen denselben einzelnen p-Wert haben, und 100 Studien mit derselben einzelnen Effektgröße könnten jeweils 100 verschiedene Werte für den p-Wert haben .

oder

Der p-Wert ist eine Zufallsvariable, die von Stichprobe zu Stichprobe variiert. . . . Infolgedessen ist es nicht angebracht, die p-Werte von zwei verschiedenen Experimenten oder von Tests mit zwei Variablen zu vergleichen, die im selben Experiment gemessen wurden, und zu erklären, dass eine signifikanter ist als die andere?

Zitate:

Thompson, B. (2006). Grundlagen der Verhaltensstatistik: Ein auf Erkenntnissen basierender Ansatz. New York, NY: Guilford Press.

Good, PI & Hardin, JW (2003). Häufige Fehler in Statistiken (und wie man sie vermeidet). New York: Wiley.

— rnorouzian
quelle

12

Ich ziehe aus den Zitaten nicht die gleichen Schlussfolgerungen (die Effektgrößen sind "überlegen" oder sollten anstelle von p-Werten angegeben werden). Mir ist bewusst, dass einige Leute mit solchen Aussagen überreagiert haben (wie zum Beispiel das BASP-Verbot von p-Werten). Es handelt sich nicht um die eine oder andere Situation: Es geht darum, darauf hinzuweisen, dass p-Werte und Effektgrößen verschiedene Arten nützlicher Informationen liefern. Normalerweise sollte man nicht untersucht werden, ohne es im Kontext des anderen zu betrachten.

— whuber

1

Ich persönlich halte es für ausreichend, eine Schätzung zusammen mit einem Konfidenzintervall anzugeben. Es werden gleichzeitig die Effektgröße (praktische Signifikanz) und der Hypothesentest (statistische Signifikanz) angegeben.

— Jirapat Samranvedhya

1

Ob p-Werte oder Effektgrößen überlegen sind, hängt von Ihrer Perspektive ab. Ersteres folgt aus der Tradition des Fischerei-NHST, während letzteres aus der Tradition von Neyman-Pearson stammt. In einigen Bereichen (Biowissenschaften, Geisteswissenschaften) sind die Effektgrößen tendenziell sehr klein, was p-Werte attraktiv macht. Im Gegensatz dazu , wie andere beachten, p-Werte können ‚gezwungen‘ kleiner durch Änderungen im Design, wie erhöhte N.

— HEITZ

3

Ist ein Schraubendreher einem Hammer überlegen?

— kjetil b halvorsen

Ist eine Mutter einer Schraube überlegen?

— Sextus Empiricus

21

Die Empfehlung, Effektgrößen anstelle von P-Werten anzugeben, basiert auf einer falschen Dichotomie und ist albern. Warum nicht beides präsentieren?

Die wissenschaftlichen Schlussfolgerungen sollten auf einer rationalen Bewertung der verfügbaren Evidenz und Theorie beruhen. P-Werte und beobachtete Effektgrößen allein oder zusammen reichen nicht aus.

Keine der von Ihnen angegebenen Passagen ist hilfreich. Natürlich variieren die P-Werte von Experiment zu Experiment, und die Aussagekraft der Daten variiert von Experiment zu Experiment. Der P-Wert ist nur eine numerische Extraktion dieses Beweises mittels des statistischen Modells. In Anbetracht der Art des P-Werts ist es für analytische Zwecke sehr selten relevant, einen P-Wert mit einem anderen zu vergleichen. Vielleicht ist es das, was der Zitatautor zu vermitteln versucht.

Wenn Sie feststellen, dass Sie P-Werte vergleichen möchten, sollten Sie wahrscheinlich einen Signifikanztest an einer anderen Anordnung der Daten durchgeführt haben, um die interessierende Frage sinnvoll zu beantworten. Siehe diese Fragen: p-Werte für p-Werte? Und wenn der Mittelwert einer Gruppe von Null abweicht, der andere jedoch nicht, können wir daraus schließen, dass die Gruppen unterschiedlich sind?

Die Antwort auf Ihre Frage ist also komplex. Ich finde dichotome Reaktionen auf Daten, die entweder auf P-Werten oder auf Effektgrößen basieren, nicht nützlich. Sind Effektgrößen also besser als P-Werte? Ja, nein, manchmal vielleicht, und es hängt von Ihrem Zweck ab.

— Michael Lew - Monica wieder einsetzen
quelle

Ich denke, es wäre vorzuziehen, die Effektgröße und das Konfidenzintervall anzugeben, vorausgesetzt, der Analytiker kann korrekt angeben, welche Effektgröße für die vorliegende Studie von Bedeutung ist. Im Gegensatz zum p-Wert vermittelt das Konfidenzintervall dem Leser ein Gefühl sowohl für die Genauigkeit der Schätzung als auch für deren Extremität.

— AdamO

1

@AdamO Ja, ich stimme weitgehend zu, aber der P-Wert hat zwei Dinge zu bieten und sollte nicht weggelassen werden. Es ist ein Index der Beweiskraft gegen die Null, etwas, das nur von einem sehr erfahrenen Auge aus einem Konfidenzintervall abgerufen werden kann, und ein exakter P-Wert führt nicht direkt zu der Dichotomie von innen / außen, die das Konfidenzintervall aufweist . Natürlich bietet eine Wahrscheinlichkeitsfunktion Vorteile gegenüber beiden.

— Michael Lew - wieder Monica

14

Im Kontext der angewandten Forschung sind Effektgrößen erforderlich, damit der Leser die praktische Bedeutung (im Gegensatz zur statistischen Signifikanz) der Ergebnisse interpretieren kann. Im Allgemeinen reagieren p-Werte wesentlich empfindlicher auf die Sample-Größe als auf die Effektgrößen. Wenn ein Experiment eine Effektgröße genau misst (dh ausreichend nahe am geschätzten Populationsparameter liegt), aber einen nicht signifikanten p-Wert ergibt, führt das Erhöhen der Stichprobengröße bei gleichen Bedingungen jedoch zur gleichen Effektgröße ein niedrigerer p-Wert. Dies kann durch Leistungsanalysen oder Simulationen nachgewiesen werden.

Vor diesem Hintergrund ist es möglich, für Effektgrößen, die keine praktische Bedeutung haben, hochsignifikante p-Werte zu erzielen. Im Gegensatz dazu können Studiendesigns mit geringer Leistung nicht signifikante p-Werte für Effektgrößen von großer praktischer Bedeutung erzeugen.

Es ist schwierig, die Konzepte der statistischen Signifikanz in Bezug auf die Effektgröße ohne eine spezifische reale Anwendung zu diskutieren. Betrachten Sie als Beispiel ein Experiment, in dem die Auswirkung einer neuen Lernmethode auf den Notendurchschnitt der Schüler bewertet wird. Ich würde argumentieren, dass eine Effektgröße von 0,01 Gradpunkten wenig praktische Bedeutung hat (dh 2,50 im Vergleich zu 2,50). Angenommen, eine Stichprobengröße von 2.000 Schülern sowohl in der Behandlungs- als auch in der Kontrollgruppe und eine Populationsstandardabweichung von 0,5 Bewertungspunkten:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)

Behandlung Probe Mittelwert = 2,51

Steuerung Kontrollprobe Mittelwert = 2,50

Effektgröße = 2,50 - 2,50 = 0,01

p = 0,53

Wenn Sie die Stichprobengröße auf 20.000 Schüler erhöhen und alles andere konstant halten, erhalten Sie einen signifikanten p-Wert:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)

Behandlung Probe Mittelwert = 2,51

Kontrollprobe Mittelwert = 2,50

Effektgröße = 2,50 - 2,50 = 0,01

p = 0,044

Offensichtlich ist es keine Kleinigkeit, die Stichprobengröße um eine Größenordnung zu erhöhen! Ich denke jedoch, wir sind uns alle einig, dass die praktische Verbesserung, die diese Studienmethode bietet, vernachlässigbar ist. Wenn wir uns nur auf den p-Wert verlassen, glauben wir möglicherweise etwas anderes im Fall von n = 20.000.

Persönlich empfehle ich, sowohl p-Werte als auch Effektgrößen anzugeben. Und Bonuspunkte für T- oder F-Statistik, Freiheitsgrade und Modelldiagnose!

— Darren James
quelle

2

Darren, bitte zeig was du genau in R meinst oder so was wie PO.

— user138773

7

@Darrent James Es gibt keine praktische Bedeutung für einen Unterschied zwischen p = 0,065 und p = 0,043, abgesehen von der unglücklichen Annahme, dass p = 0,05 eine helle Linie ist, die beachtet werden sollte. Keiner der P-Werte ist ein überzeugender Beweis für oder gegen etwas für sich.

— Michael Lew - setzt Monica

@Michael Lew Ja, ich stimme zu!

— Darren James

1

James, angesichts Ihres Codes und Ihrer Erklärungen scheinen Sie den Punkt des OP völlig falsch verstanden zu haben. Dein R-Code ist auch falsch! Weil Sie nicht eingestellt haben, var.equal = TRUEwährend Ihre sds gleich sind. Vor diesem Hintergrund bin ich mir nicht sicher, warum Sie überhaupt eine Antwort wie diese gepostet haben. OP stellt eine Frage, die zum jetzigen Zeitpunkt nicht einfach zu beantworten ist!

— user138773

1

Ich habe var.equal = TRUE zum Code hinzugefügt. Aber das ist in diesem Fall nicht nötig. Die gleichen p-Werte werden sowohl mit var.equal = TRUE als auch mit var.equal = FALSE erhalten.

— Darren James

5

Derzeit arbeite ich im Bereich der Datenwissenschaft und zuvor in der Bildungsforschung. Während jeder "Karriere" habe ich mit Leuten zusammengearbeitet, die keinen formalen Hintergrund in der Statistik hatten und bei denen der Schwerpunkt der statistischen (und praktischen) Bedeutung stark auf dem p-Wert liegt . Ich habe gelernt, Effektgrößen in meine Analysen einzubeziehen und hervorzuheben, weil es einen Unterschied zwischen statistischer und praktischer Signifikanz gibt.

Im Allgemeinen kümmerten sich die Leute, mit denen ich zusammengearbeitet habe, um eine Sache: "Hat unser Programm / unsere Funktion Auswirkungen, ja oder nein?". Auf eine Frage wie diese können Sie etwas so Einfaches wie einen T-Test machen und ihnen mitteilen, dass "ja, Ihr Programm / Ihre Funktion einen Unterschied macht". Aber wie groß oder klein ist dieser "Unterschied"?

Bevor ich mich mit diesem Thema befasse, möchte ich zunächst zusammenfassen, worauf wir uns beziehen, wenn wir von Effektgrößen sprechen

Die Effektgröße ist einfach eine Methode zur Quantifizierung der Größe der Differenz zwischen zwei Gruppen. [...] Es ist besonders nützlich, um die Wirksamkeit einer bestimmten Intervention im Vergleich zu einem Vergleich zu quantifizieren. Es erlaubt uns, über das vereinfachte 'Funktioniert es oder nicht?' Hinauszugehen. zu den weitaus raffinierteren, "Wie gut funktioniert es in einer Reihe von Kontexten?" Darüber hinaus wird durch die Betonung des wichtigsten Aspekts einer Intervention - der Größe des Effekts - anstelle seiner statistischen Signifikanz (die Effektgröße und Stichprobengröße in Einklang bringt) eine wissenschaftlichere Herangehensweise an die Anhäufung von Wissen gefördert. Aus diesen Gründen ist die Effektgröße ein wichtiges Instrument für die Berichterstellung und die Interpretation der Effektivität.

Es ist die Effektgröße, dumm: Welche Effektgröße ist und warum es wichtig ist

$\alpha$ ) ist.

Warum reicht der P-Wert nicht aus?

Statistische Signifikanz ist die Wahrscheinlichkeit, dass der beobachtete Unterschied zwischen zwei Gruppen zufällig ist. Wenn der P- Wert größer ist als der gewählte Alpha-Wert (z. B. 0,05), wird angenommen, dass eine beobachtete Differenz durch die Variabilität der Stichprobe erklärt wird. Bei einer ausreichend großen Stichprobe zeigt ein statistischer Test fast immer einen signifikanten Unterschied, es sei denn, es liegt überhaupt kein Effekt vor, dh wenn die Effektgröße genau Null ist. Dennoch sind sehr kleine Unterschiede, auch wenn sie signifikant sind, oft bedeutungslos. Daher ist es für den Leser nicht ausreichend, nur den signifikanten P-Wert für eine Analyse anzugeben, um die Ergebnisse vollständig zu verstehen.

Und um die Kommentare von @ DarrenJames zu großen Stichproben zu bestätigen

Wenn zum Beispiel eine Stichprobengröße 10 000 ist, wird wahrscheinlich ein signifikanter P-Wert gefunden, selbst wenn der Unterschied in den Ergebnissen zwischen den Gruppen vernachlässigbar ist und möglicherweise keine teure oder zeitaufwendige Intervention gegenüber einer anderen rechtfertigt. Das Signifikanzniveau selbst sagt die Effektgröße nicht voraus. Im Gegensatz zu Signifikanztests ist die Effektgröße unabhängig von der Stichprobengröße. Die statistische Signifikanz hängt andererseits sowohl von der Stichprobengröße als auch von der Effektgröße ab. Aus diesem Grund werden P-Werte aufgrund ihrer Abhängigkeit von der Stichprobengröße als verwechselt angesehen. Manchmal bedeutet ein statistisch signifikantes Ergebnis nur, dass eine große Stichprobengröße verwendet wurde. [Es gibt eine falsche Ansicht, dass dieses Verhalten eine Abweichung von der Nullhypothese darstellt.Warum neigt das Testen von Frequentist-Hypothesen dazu, die Nullhypothese bei ausreichend großen Stichproben abzulehnen? ]

Verwenden der Effektgröße - oder warum der P- Wert nicht ausreicht

Geben Sie sowohl den P-Wert als auch die Effektgröße an

Um die Frage zu beantworten, sind die Effektgrößen den p-Werten überlegen ? Ich würde argumentieren, dass diese jeweils als wichtige Komponenten in der statistischen Analyse dienen, die nicht in diesem Sinne verglichen werden können und zusammen gemeldet werden sollten. Der p-Wert ist eine Statistik, die die statistische Signifikanz angibt (Unterschied zur Nullverteilung), wobei die Effektgröße den Unterschied in Worte fasst.

Sagen Sie zum Beispiel, Ihr Vorgesetzter Bob, der nicht sehr stats-freundlich ist, ist daran interessiert zu sehen, ob es eine signifikante Beziehung zwischen wt (Gewicht) und mpg (Meilen pro Gallone) gab. Sie starten die Analyse mit Hypothesen

H_{0} : β_{m p G} = 0 vs H_{EIN} : β_{m p G} \neq 0

$H_0: \beta_{mpg} = 0 \text{ vs } H_A: \beta_{mpg} \neq 0$

bei getestet $\alpha = 0.05$

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

summary $\beta_{mpg} \neq 0$

So konnten Sie auf statistisch signifikante Ergebnisse schließen und die Signifikanz in der Praxis kommunizieren.

Ich hoffe, dies war hilfreich bei der Beantwortung Ihrer Frage.

— Jon
quelle

Jon, danke, es gibt VIELE Grauzonen, von denen ich gehofft habe, mehr zu hören, aber ich habe es nicht getan. In vielen Situationen stimmen Effektgrößen und p-Werte nicht überein. Viele vertrauen Effektgrößen in solchen Situationen, die ich warum wissen wollte. Ich hatte gehofft, mehr über Simulationen zu erfahren, die wichtige Punkte aufzeigen könnten. In Bezug auf die Angelegenheit, die Sie angesprochen haben, ist diese Effektgröße möglicherweise winzig, aber nicht genau null. Methoden der Äquivalenzprüfung gibt es bereits seit mehreren Jahren. Ich mag die Bayes'schen Äquivalenztests noch mehr. Wie auch immer, ich habe meine Frage wahrscheinlich nicht klar genug gestellt. - Danke

— rnorouzian

Übrigens meinte ein Kollege, Darens R-Code sei falsch, er habe offenbar recht. Er hat nicht gestellt var.equal = TRUE.

— Rnorouzian

* In vielen Situationen stimmen Effektgrößen und p-Werte nicht überein. * - Können Sie hierzu weitere Informationen bereitstellen? Ein Beispiel? In Bezug auf das Thema, das Sie angesprochen haben, ist diese Effektgröße möglicherweise winzig, aber nicht genau null - diese Situation kann zu einer großen Stichprobengröße führen. Wenn also die Effektgröße nahezu Null ist, hat die interessierende Variable möglicherweise keinen wesentlichen Einfluss auf das Ergebnis, oder die Beziehung ist falsch angegeben (z. B. linear vs. nichtlinear).

— Jon

Probieren Sie dieses Tool einfach aus . Siehe auch dieses Dokument . Es sieht so aus, als müsste ich zu einem späteren Zeitpunkt eine andere Frage stellen, um Klarheit zu schaffen. -- Vielen Dank.

— Rnorouzian

@rnorouzian, okay, ich habe deinen Code ausgeführt. Worauf willst du hinaus?

— Jon

4

Der Nutzen von Effektgrößen in Bezug auf p-Werte (sowie andere Metriken für statistische Inferenz) wird in meinem Fachgebiet - der Psychologie - routinemäßig diskutiert, und die Debatte ist derzeit aus Gründen, die für Ihre Frage relevant sind, „heißer“ als normal. Und obwohl ich mir sicher bin, dass die Psychologie nicht unbedingt das statistisch anspruchsvollste wissenschaftliche Gebiet ist, hat sie die Grenzen verschiedener Ansätze zur statistischen Folgerung, oder zumindest deren Einschränkung durch den menschlichen Gebrauch, ohne weiteres diskutiert, untersucht und zuweilen aufgezeigt. Die bereits veröffentlichten Antworten enthalten gute Erkenntnisse. Falls Sie jedoch an einer ausführlicheren Liste (und Referenzen) von Gründen für und gegen diese interessiert sind, lesen Sie weiter unten.

Warum sind p-Werte unerwünscht?

Wie Darren James bemerkt (und seine Simulation zeigt), hängen die p-Werte weitgehend von der Anzahl der Beobachtungen ab, die Sie gemacht haben (siehe Kirk, 2003).
Wie Jon bemerkt, stellen p-Werte die bedingte Wahrscheinlichkeit dar, Daten als extrem oder extremer zu beobachten, vorausgesetzt, die Nullhypothese ist wahr. Da die meisten Forscher eher Wahrscheinlichkeiten der Forschungshypothese und / oder der Nullhypothese haben möchten, sprechen p-Werte nicht für Wahrscheinlichkeiten, an denen Forscher am meisten interessiert sind (dh für die Null- oder Forschungshypothese, siehe Dienes, 2008).
Viele, die p-Werte verwenden, verstehen nicht, was sie bedeuten / nicht bedeuten (Schmidt & Hunter, 1997). Der Verweis von Michael Lew auf Gelman und Stern (2006) unterstreicht ferner die Missverständnisse der Forscher darüber, was man aus p-Werten interpretieren kann (oder nicht). Und wie eine relativ neue Geschichte auf FiveThirtyEight zeigt, ist dies weiterhin der Fall.
p-Werte können nachfolgende p-Werte nicht gut vorhersagen (Cumming, 2008)
p-Werte werden häufig falsch angegeben (häufiger mit überhöhter Signifikanz), und eine falsche Angabe ist mit der mangelnden Bereitschaft zum Datenaustausch verbunden (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011).
p-Werte können (und waren historisch gesehen) durch analytische Flexibilität aktiv verzerrt sein und sind daher nicht vertrauenswürdig (John et al., 2012; Simmons et al., 2011)
p-Werte sind unverhältnismäßig signifikant, da akademische Systeme Wissenschaftler für statistische Signifikanz gegenüber wissenschaftlicher Genauigkeit zu belohnen scheinen (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979).

Warum sind Effektgrößen wünschenswert?

Beachten Sie, dass ich Ihre Frage so interpretiere, dass sie sich speziell auf standardisierte Effektgrößen bezieht, da Sie sagen, sie ermöglichen es Forschern, ihre Ergebnisse in eine „GEMEINSAME Metrik“ umzuwandeln.

Wie Jon und Darren James andeuten, Effektgrößen die Stärke eines Effekts unabhängig von der Anzahl der Beobachtungen an (American Psychological Association 2010; Cumming, 2014), anstatt dichotome Entscheidungen darüber zu treffen, ob ein Effekt vorhanden ist oder nicht.
Effektgrößen sind wertvoll, weil sie Metaanalysen ermöglichen und Metaanalysen das kumulative Wissen fördern fördern (Borenstein et al., 2009; Chan & Arvey, 2012)
Effektgrößen erleichtern die Planung der Stichprobengröße über eine Priori-Power-Analyse und damit eine effiziente Ressourcenallokation in der Forschung (Cohen, 1992).

Warum sind p-Werte wünschenswert?

Obwohl sie weniger häufig vertreten werden, haben p-Werte eine Reihe von Vorteilen. Einige sind bekannt und langjährig, während andere relativ neu sind.

P-Werte liefern einen bequemen und vertrauten Index für die Evidenzstärke gegenüber der Nullhypothese des statistischen Modells.
Bei richtiger Berechnung bieten p-Werte eine Möglichkeit, dichotome Entscheidungen zu treffen (was manchmal notwendig ist), und p-Werte helfen dabei, langfristig falsch-positive Fehlerraten auf einem akzeptablen Niveau zu halten (Dienes, 2008; Sakaluk, 2016) [It ist nicht genau richtig zu sagen, dass P-Werte für dichotome Entscheidungen erforderlich sind. Sie werden in der Tat auf diese Weise häufig verwendet, aber Neyman & Pearson hat zu diesem Zweck "kritische Bereiche" im statistischen Testbereich verwendet. Siehe diese Frage und ihre Antworten]
p-Werte können verwendet werden, um eine kontinuierlich effiziente Planung der Stichprobengröße zu ermöglichen (nicht nur eine einmalige Leistungsanalyse) (Lakens, 2014)
p-Werte können zur Erleichterung der Metaanalyse und zur Bewertung des Evidenzwerts verwendet werden (Simonsohn et al., 2014a; Simonsohn et al., 2014b). In diesem Blogpost finden Sie eine barrierefreie Diskussion darüber, wie Verteilungen von p-Werten auf diese Weise verwendet werden können, sowie in diesem CV-Post eine entsprechende Diskussion.
p-Werte können forensisch verwendet werden, um festzustellen, ob fragwürdige Forschungspraktiken angewendet wurden und wie reproduzierbar die Ergebnisse sein könnten (Schimmack, 2014; siehe auch Schönbrodts App, 2015).

Warum sind Effektgrößen unerwünscht (oder überbewertet)?

Vielleicht die kontraintuitivste Position für viele; warum sollte die Angabe standardisierter Effektgrößen unerwünscht oder zumindest überbewertet sein?

In einigen Fällen sind standardisierte Effektgrößen nicht alles, was sie zu bieten haben (z. B. Greenland, Schlesselman & Criqui, 1986). Insbesondere Baguely (2009) hat eine gute Beschreibung einiger der Gründe, warum unformatierte / nicht standardisierte Effektgrößen wünschenswerter sein können.
Trotz ihrer Nützlichkeit für eine A-priori-Leistungsanalyse werden Effektgrößen nicht zuverlässig verwendet, um eine effiziente Planung der Stichprobengröße zu ermöglichen (Maxwell, 2004).
Selbst wenn Effektgrößen in der Stichprobengrößenplanung verwendet werden, sind veröffentlichte Effektgrößen für eine zuverlässige Stichprobengrößenplanung von fraglichem Nutzen (Simonsohn, 2013) , da sie durch Publikationsbias aufgeblasen werden (Rosenthal, 1979 ).
Schätzungen der Effektgröße können in statistischer Software systematisch falsch berechnet werden (Levine & Hullet, 2002)
Effektgrößen werden fälschlicherweise extrahiert (und wahrscheinlich falsch angegeben), was die Glaubwürdigkeit von Metaanalysen untergräbt (Gøtzsche et al., 2007).
Schließlich bleibt die Korrektur der Publikationsverzerrung bei den Effektgrößen ineffektiv (siehe Carter et al., 2017). Wenn Sie der Meinung sind, dass eine Publikationsverzerrung vorliegt, sind Metaanalysen weniger effektiv.

Zusammenfassung

In Anlehnung an Michael Lew sind p-Werte und Effektgrößen nur zwei statistische Belege; Es gibt auch andere, die es wert sind, berücksichtigt zu werden. Aber wie P-Werte und Effektgrößen haben auch andere Metriken des Beweiswerts gemeinsame und einzigartige Probleme. Forscher wenden häufig Konfidenzintervalle falsch an und interpretieren sie falsch (z. B. Hoekstra et al., 2014; Morey et al., 2016), und das Ergebnis von Bayes-Analysen kann von Forschern verfälscht werden, genau wie bei der Verwendung von p-Werten (z. B. Simonsohn) , 2014).

Alle Beweise haben gewonnen und alle müssen Preise haben.

Verweise

American Psychological Association. (2010). Publikationshandbuch der American Psychological Association (6. Auflage). Washington, DC: American Psychological Association.

Baguley, T. (2009). Standardisierte oder einfache Effektgröße: Was ist zu melden? British Journal of Psychology, 100 (3), 603-617.

Bakker, M. & Wicherts, JM (2011). Die (falsche) Meldung statistischer Ergebnisse in psychologischen Fachzeitschriften. Behavior Research Methods, 43 (3), 666-678.

M. Borenstein, LV Hedges, J. Higgins & HR Rothstein (2009). Einführung in die Metaanalyse. West Sussex, Großbritannien: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM & Hilgard, J. (2017, 12. August). Bias in der Psychologie korrigieren: Ein Vergleich metaanalytischer Methoden. Abgerufen von osf.io/preprints/psyarxiv/9h3nu

Chan, ME & Arvey, RD (2012). Metaanalyse und Wissensentwicklung. Perspectives on Psychological Science, 7 (1), 79-92.

Cohen, J. (1992). Eine Power-Fibel. Psychological Bulletin, 112 (1), 155-159.

Cumming, G. (2008). Replikation und p-Intervalle: p-Werte sagen die Zukunft nur vage voraus, aber Konfidenzintervalle sind viel besser. Perspektiven auf die Psychologie, 3, 286–300.

Dienes, D. (2008). Psychologie als Wissenschaft verstehen: Eine Einführung in die wissenschaftliche und statistische Inferenz. New York, NY: Palgrave MacMillan.

Fanelli, D. (2010). "Positive" Ergebnisse erhöhen die Hierarchie der Wissenschaften. PloS eins, 5 (4), e10068.

Gelman, A. & Stern, H. (2006). Der Unterschied zwischen "signifikant" und "nicht signifikant" ist selbst statistisch nicht signifikant. The American Statistician, 60 (4), 328-331.

PC Gøtzsche, A. Hróbjartsson, K. Marić & B. Tendal (2007). Datenextraktionsfehler in Metaanalysen, die standardisierte mittlere Differenzen verwenden. JAMA, 298 (4), 430 & ndash; 437.

Greenland, S., Schlesselman, JJ & Criqui, MH (1986). Der Irrtum, standardisierte Regressionskoeffizienten und Korrelationen als Maß für die Wirkung zu verwenden. American Journal of Epidemiology, 123 (2), 203-208.

R. Hoekstra, RD Morey, JN Rouder & EJ Wagenmakers (2014). Robuste Fehlinterpretation von Konfidenzintervallen. Psychonomic Bulletin & Review, 21 (5), 1157-1164.

John, LK, Loewenstein, G. & amp; Prelec, D. (2012). Messung der Prävalenz fragwürdiger Forschungspraktiken mit Anreizen zur Wahrheitsfindung. Psychological Science, 23 (5), 524-532.

Kirk, RE (2003). Die Bedeutung der Effektstärke. In SF Davis (Hrsg.), Handbuch der Forschungsmethoden in der experimentellen Psychologie (S. 83–105). Malden, MA: Blackwell.

Lakens, D. (2014). Effiziente Durchführung von Hochleistungsstudien mit sequentiellen Analysen. European Journal of Social Psychology, 44 (7), 701-710.

Levine, TR & amp; Hullett, CR (2002). Eta-Quadrat, partielles Eta-Quadrat und falsche Angabe der Effektgröße in der Kommunikationsforschung. Human Communication Research, 28 (4), 612-625.

Maxwell, SE (2004). Das Fortbestehen unzureichender Studien in der psychologischen Forschung: Ursachen, Folgen und Abhilfemaßnahmen. Psychologische Methoden, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD & Wagenmakers, EJ (2016). Der Trugschluss, Vertrauen in Vertrauensintervalle zu setzen. Psychonomic Bulletin & Review, 23 (1), 103-123.

Nosek, BA, Spies, JR & Motyl, M. (2012). Wissenschaftliche Utopie: II. Umstrukturierung von Anreizen und Praktiken zur Förderung der Wahrheit über die Publizierbarkeit. Perspectives on Psychological Science, 7 (6), 615-631.

MB Nuijten, CH Hartgerink, MA van Assen, S. Epskamp & JM Wicherts (2016). Die Prävalenz statistischer Berichtsfehler in der Psychologie (1985–2013). Behavior Research Methods, 48 (4), 1205-1226.

Rosenthal, R. (1979). Das Problem mit der Dateiausgabe und die Toleranz für Nullergebnisse. Psychological Bulletin, 86 (3), 638-641.

Sakaluk, JK (2016). Klein erforschen, groß bestätigen: Ein alternatives System zur neuen Statistik, um die kumulative und reproduzierbare psychologische Forschung voranzutreiben. Journal of Experimental Social Psychology, 66, 47-54.

Schimmack, U. (2014). Quantifizierung der statistischen Forschungsintegrität: Der Replizierbarkeitsindex. Abgerufen von http://www.r-index.org

Schmidt, FL & Hunter, JE (1997). Acht häufige, aber falsche Einwände gegen die Einstellung der Signifikanzprüfung bei der Analyse von Forschungsdaten. Bei LL Harlow, SA Mulaik & JH Steiger (Hrsg.): Was wäre, wenn es keine Signifikanztests gäbe? (S. 37–64). Mahwah, NJ: Erlbaum.

Schönbrodt, FD (2015). p-checker: Ein P-Wert-Analysator für alles. Abgerufen von http://shinyapps.org/apps/p-checker/ .

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive-Psychologie: Die nicht offen gelegte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science, 22 (11), 1359 & ndash; 1366.

Simonsohn, U. (2013). Die Torheit, Replikationen zu betreiben, basiert auf der beobachteten Effektgröße. Von http://datacolada.org/4 zurückgerufen

Simonsohn, U. (2014). Hinterhacken. Abgerufen von http://datacolada.org/13 .

Simonsohn, U., Nelson, LD & Simmons, JP (2014). P-Kurve: Ein Schlüssel zur Aktenschublade. Journal of Experimental Psychology: General, 143 (2), 534-547.

Simonsohn, U., Nelson, LD & Simmons, JP (2014). P-Kurve und Effektgröße: Korrektur der Publikationsverzerrung mit nur signifikanten Ergebnissen. Perspectives on Psychological Science, 9 (6), 666-681.

Wicherts, JM, Bakker, M. & Molenaar, D. (2011). Die Bereitschaft, Forschungsdaten weiterzugeben, hängt von der Beweiskraft und der Qualität der Berichterstattung über statistische Ergebnisse ab. PloS one, 6 (11), e26828.

— jsakaluk
quelle

2

Sehr schöne Sammlung von Ideen und Referenzen. Es sollte für diejenigen hilfreich sein, die etwas weiter graben möchten, aber beachten Sie, dass viele der Punkte relevante Fragen und Antworten auf dieser Website haben. Links zu diesen würden auch helfen.

— Michael Lew - wieder Monica

@ MichaelLew Danke. Wenn ich später Zeit habe, werde ich einige Links hinzufügen. Ich habe den größten Teil des Nachmittags gebraucht, um diese Antwort zu verfassen und die Referenzen zusammenzustellen. In Bezug auf Ihre Bearbeitung denke ich, dass Ihr Punkt gut aufgenommen ist, aber vielleicht eher eine Ergänzung als eine Korrektur? Ich sagte, dass p-Werte ein Mittel sind, dichotome Entscheidungen zu treffen (nicht, dass sie "erforderlich" sind oder der einzige Weg, dies zu tun). Ich stimme zu, dass NP-kritische Regionen ein anderer Weg sind, aber ich reagierte auf das OP im Zusammenhang mit dem, was p-Werte im Vergleich zu standardisierten Effektgrößen leisten.

— jsakaluk

1

jsakaluk, ja, ich kann sehen, dass Sie viel Zeit mit der Beantwortung verbracht hätten, und es ist sehr nützlich und Ihrer Mühe wert. Ich habe den Punkt über die Vorteile von P-Werten bearbeitet, weil Sie geschrieben haben: "Bei korrekter Verwendung können sie dichotomisiert werden. In der Realität ignoriert eine solche Verwendung jedoch einen Großteil der Informationen, die im P-Wert codiert sind, und ist daher wahrscheinlich (und meiner meinung nach) eine falsche verwendung. Ich wollte Ihre Absicht nicht untergraben und habe daher "verwendet" in "berechnet" geändert.

— Michael Lew - wieder Monica

3

Aus der Sicht eines Epidemiologen, warum ich Effektgrößen gegenüber p-Werten bevorzuge (obwohl es, wie einige Leute bemerkt haben, so etwas wie eine falsche Dichotomie ist):

Die Effektgröße sagt mir, was ich eigentlich will, der p-Wert sagt mir nur, ob er von null unterscheidbar ist. Ein relatives Risiko von 1.0001, 1.5, 5 und 50 ist möglicherweise alle mit demselben p-Wert verbunden, bedeutet jedoch sehr unterschiedliche Dinge in Bezug auf das, was wir möglicherweise auf Bevölkerungsebene tun müssen.
Das Vertrauen auf einen p-Wert bestärkt die Vorstellung, dass das Testen von Signifikanz-basierten Hypothesen das A und O aller Beweise ist. Betrachten Sie die folgenden zwei Aussagen: "Ärzte, die Patienten anlächeln, waren während ihres Krankenhausaufenthalts nicht signifikant mit einem nachteiligen Ergebnis verbunden." "Patienten, die von ihrem Arzt angelächelt wurden, hatten mit einer um 50% geringeren Wahrscheinlichkeit ein unerwünschtes Ergebnis (p = 0,086)." Würden Sie vielleicht trotzdem erwägen, den Ärzten ein Lächeln auf ihre Patienten zu schenken, da dies absolut kostenlos ist?
Ich arbeite mit vielen stochastischen Simulationsmodellen, wobei die Stichprobengröße von Rechenleistung und Geduld abhängt und p-Werte im Wesentlichen bedeutungslos sind. Ich habe es geschafft, p <0,05 Ergebnisse für Dinge zu erhalten, die absolut keine klinische oder öffentliche Gesundheitsrelevanz haben.

— Fomite
quelle

Sind die Effektgrößen den p-Werten wirklich überlegen?

Effektgröße = 2,50 - 2,50 = 0,01

p = 0,53

Effektgröße = 2,50 - 2,50 = 0,01

p = 0,044

Warum reicht der P-Wert nicht aus?

Geben Sie sowohl den P-Wert als auch die Effektgröße an