Der Nutzen von Effektgrößen in Bezug auf p-Werte (sowie andere Metriken für statistische Inferenz) wird in meinem Fachgebiet - der Psychologie - routinemäßig diskutiert, und die Debatte ist derzeit aus Gründen, die für Ihre Frage relevant sind, „heißer“ als normal. Und obwohl ich mir sicher bin, dass die Psychologie nicht unbedingt das statistisch anspruchsvollste wissenschaftliche Gebiet ist, hat sie die Grenzen verschiedener Ansätze zur statistischen Folgerung, oder zumindest deren Einschränkung durch den menschlichen Gebrauch, ohne weiteres diskutiert, untersucht und zuweilen aufgezeigt. Die bereits veröffentlichten Antworten enthalten gute Erkenntnisse. Falls Sie jedoch an einer ausführlicheren Liste (und Referenzen) von Gründen für und gegen diese interessiert sind, lesen Sie weiter unten.
Warum sind p-Werte unerwünscht?
- Wie Darren James bemerkt (und seine Simulation zeigt), hängen die p-Werte weitgehend von der Anzahl der Beobachtungen ab, die Sie gemacht haben (siehe Kirk, 2003).
- Wie Jon bemerkt, stellen p-Werte die bedingte Wahrscheinlichkeit dar, Daten als extrem oder extremer zu beobachten, vorausgesetzt, die Nullhypothese ist wahr. Da die meisten Forscher eher Wahrscheinlichkeiten der Forschungshypothese und / oder der Nullhypothese haben möchten, sprechen p-Werte nicht für Wahrscheinlichkeiten, an denen Forscher am meisten interessiert sind (dh für die Null- oder Forschungshypothese, siehe Dienes, 2008).
- Viele, die p-Werte verwenden, verstehen nicht, was sie bedeuten / nicht bedeuten (Schmidt & Hunter, 1997). Der Verweis von Michael Lew auf Gelman und Stern (2006) unterstreicht ferner die Missverständnisse der Forscher darüber, was man aus p-Werten interpretieren kann (oder nicht). Und wie eine relativ neue Geschichte auf FiveThirtyEight zeigt, ist dies weiterhin der Fall.
- p-Werte können nachfolgende p-Werte nicht gut vorhersagen (Cumming, 2008)
- p-Werte werden häufig falsch angegeben (häufiger mit überhöhter Signifikanz), und eine falsche Angabe ist mit der mangelnden Bereitschaft zum Datenaustausch verbunden (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011).
- p-Werte können (und waren historisch gesehen) durch analytische Flexibilität aktiv verzerrt sein und sind daher nicht vertrauenswürdig (John et al., 2012; Simmons et al., 2011)
- p-Werte sind unverhältnismäßig signifikant, da akademische Systeme Wissenschaftler für statistische Signifikanz gegenüber wissenschaftlicher Genauigkeit zu belohnen scheinen (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979).
Warum sind Effektgrößen wünschenswert?
Beachten Sie, dass ich Ihre Frage so interpretiere, dass sie sich speziell auf standardisierte Effektgrößen bezieht, da Sie sagen, sie ermöglichen es Forschern, ihre Ergebnisse in eine „GEMEINSAME Metrik“ umzuwandeln.
- Wie Jon und Darren James andeuten, Effektgrößen die Stärke eines Effekts unabhängig von der Anzahl der Beobachtungen an (American Psychological Association 2010; Cumming, 2014), anstatt dichotome Entscheidungen darüber zu treffen, ob ein Effekt vorhanden ist oder nicht.
- Effektgrößen sind wertvoll, weil sie Metaanalysen ermöglichen und Metaanalysen das kumulative Wissen fördern fördern (Borenstein et al., 2009; Chan & Arvey, 2012)
- Effektgrößen erleichtern die Planung der Stichprobengröße über eine Priori-Power-Analyse und damit eine effiziente Ressourcenallokation in der Forschung (Cohen, 1992).
Warum sind p-Werte wünschenswert?
Obwohl sie weniger häufig vertreten werden, haben p-Werte eine Reihe von Vorteilen. Einige sind bekannt und langjährig, während andere relativ neu sind.
P-Werte liefern einen bequemen und vertrauten Index für die Evidenzstärke gegenüber der Nullhypothese des statistischen Modells.
Bei richtiger Berechnung bieten p-Werte eine Möglichkeit, dichotome Entscheidungen zu treffen (was manchmal notwendig ist), und p-Werte helfen dabei, langfristig falsch-positive Fehlerraten auf einem akzeptablen Niveau zu halten (Dienes, 2008; Sakaluk, 2016) [It ist nicht genau richtig zu sagen, dass P-Werte für dichotome Entscheidungen erforderlich sind. Sie werden in der Tat auf diese Weise häufig verwendet, aber Neyman & Pearson hat zu diesem Zweck "kritische Bereiche" im statistischen Testbereich verwendet. Siehe diese Frage und ihre Antworten]
- p-Werte können verwendet werden, um eine kontinuierlich effiziente Planung der Stichprobengröße zu ermöglichen (nicht nur eine einmalige Leistungsanalyse) (Lakens, 2014)
- p-Werte können zur Erleichterung der Metaanalyse und zur Bewertung des Evidenzwerts verwendet werden (Simonsohn et al., 2014a; Simonsohn et al., 2014b). In diesem Blogpost finden Sie eine barrierefreie Diskussion darüber, wie Verteilungen von p-Werten auf diese Weise verwendet werden können, sowie in diesem CV-Post eine entsprechende Diskussion.
- p-Werte können forensisch verwendet werden, um festzustellen, ob fragwürdige Forschungspraktiken angewendet wurden und wie reproduzierbar die Ergebnisse sein könnten (Schimmack, 2014; siehe auch Schönbrodts App, 2015).
Warum sind Effektgrößen unerwünscht (oder überbewertet)?
Vielleicht die kontraintuitivste Position für viele; warum sollte die Angabe standardisierter Effektgrößen unerwünscht oder zumindest überbewertet sein?
- In einigen Fällen sind standardisierte Effektgrößen nicht alles, was sie zu bieten haben (z. B. Greenland, Schlesselman & Criqui, 1986). Insbesondere Baguely (2009) hat eine gute Beschreibung einiger der Gründe, warum unformatierte / nicht standardisierte Effektgrößen wünschenswerter sein können.
- Trotz ihrer Nützlichkeit für eine A-priori-Leistungsanalyse werden Effektgrößen nicht zuverlässig verwendet, um eine effiziente Planung der Stichprobengröße zu ermöglichen (Maxwell, 2004).
- Selbst wenn Effektgrößen in der Stichprobengrößenplanung verwendet werden, sind veröffentlichte Effektgrößen für eine zuverlässige Stichprobengrößenplanung von fraglichem Nutzen (Simonsohn, 2013) , da sie durch Publikationsbias aufgeblasen werden (Rosenthal, 1979 ).
- Schätzungen der Effektgröße können in statistischer Software systematisch falsch berechnet werden (Levine & Hullet, 2002)
- Effektgrößen werden fälschlicherweise extrahiert (und wahrscheinlich falsch angegeben), was die Glaubwürdigkeit von Metaanalysen untergräbt (Gøtzsche et al., 2007).
- Schließlich bleibt die Korrektur der Publikationsverzerrung bei den Effektgrößen ineffektiv (siehe Carter et al., 2017). Wenn Sie der Meinung sind, dass eine Publikationsverzerrung vorliegt, sind Metaanalysen weniger effektiv.
Zusammenfassung
In Anlehnung an Michael Lew sind p-Werte und Effektgrößen nur zwei statistische Belege; Es gibt auch andere, die es wert sind, berücksichtigt zu werden. Aber wie P-Werte und Effektgrößen haben auch andere Metriken des Beweiswerts gemeinsame und einzigartige Probleme. Forscher wenden häufig Konfidenzintervalle falsch an und interpretieren sie falsch (z. B. Hoekstra et al., 2014; Morey et al., 2016), und das Ergebnis von Bayes-Analysen kann von Forschern verfälscht werden, genau wie bei der Verwendung von p-Werten (z. B. Simonsohn) , 2014).
Alle Beweise haben gewonnen und alle müssen Preise haben.
Verweise
American Psychological Association. (2010). Publikationshandbuch der American Psychological Association (6. Auflage). Washington, DC: American Psychological Association.
Baguley, T. (2009). Standardisierte oder einfache Effektgröße: Was ist zu melden? British Journal of Psychology, 100 (3), 603-617.
Bakker, M. & Wicherts, JM (2011). Die (falsche) Meldung statistischer Ergebnisse in psychologischen Fachzeitschriften. Behavior Research Methods, 43 (3), 666-678.
M. Borenstein, LV Hedges, J. Higgins & HR Rothstein (2009). Einführung in die Metaanalyse. West Sussex, Großbritannien: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM & Hilgard, J. (2017, 12. August). Bias in der Psychologie korrigieren: Ein Vergleich metaanalytischer Methoden. Abgerufen von osf.io/preprints/psyarxiv/9h3nu
Chan, ME & Arvey, RD (2012). Metaanalyse und Wissensentwicklung. Perspectives on Psychological Science, 7 (1), 79-92.
Cohen, J. (1992). Eine Power-Fibel. Psychological Bulletin, 112 (1), 155-159.
Cumming, G. (2008). Replikation und p-Intervalle: p-Werte sagen die Zukunft nur vage voraus, aber Konfidenzintervalle sind viel besser. Perspektiven auf die Psychologie, 3, 286–300.
Dienes, D. (2008). Psychologie als Wissenschaft verstehen: Eine Einführung in die wissenschaftliche und statistische Inferenz. New York, NY: Palgrave MacMillan.
Fanelli, D. (2010). "Positive" Ergebnisse erhöhen die Hierarchie der Wissenschaften. PloS eins, 5 (4), e10068.
Gelman, A. & Stern, H. (2006). Der Unterschied zwischen "signifikant" und "nicht signifikant" ist selbst statistisch nicht signifikant. The American Statistician, 60 (4), 328-331.
PC Gøtzsche, A. Hróbjartsson, K. Marić & B. Tendal (2007). Datenextraktionsfehler in Metaanalysen, die standardisierte mittlere Differenzen verwenden. JAMA, 298 (4), 430 & ndash; 437.
Greenland, S., Schlesselman, JJ & Criqui, MH (1986). Der Irrtum, standardisierte Regressionskoeffizienten und Korrelationen als Maß für die Wirkung zu verwenden. American Journal of Epidemiology, 123 (2), 203-208.
R. Hoekstra, RD Morey, JN Rouder & EJ Wagenmakers (2014). Robuste Fehlinterpretation von Konfidenzintervallen. Psychonomic Bulletin & Review, 21 (5), 1157-1164.
John, LK, Loewenstein, G. & amp; Prelec, D. (2012). Messung der Prävalenz fragwürdiger Forschungspraktiken mit Anreizen zur Wahrheitsfindung. Psychological Science, 23 (5), 524-532.
Kirk, RE (2003). Die Bedeutung der Effektstärke. In SF Davis (Hrsg.), Handbuch der Forschungsmethoden in der experimentellen Psychologie (S. 83–105). Malden, MA: Blackwell.
Lakens, D. (2014). Effiziente Durchführung von Hochleistungsstudien mit sequentiellen Analysen. European Journal of Social Psychology, 44 (7), 701-710.
Levine, TR & amp; Hullett, CR (2002). Eta-Quadrat, partielles Eta-Quadrat und falsche Angabe der Effektgröße in der Kommunikationsforschung. Human Communication Research, 28 (4), 612-625.
Maxwell, SE (2004). Das Fortbestehen unzureichender Studien in der psychologischen Forschung: Ursachen, Folgen und Abhilfemaßnahmen. Psychologische Methoden, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD & Wagenmakers, EJ (2016). Der Trugschluss, Vertrauen in Vertrauensintervalle zu setzen. Psychonomic Bulletin & Review, 23 (1), 103-123.
Nosek, BA, Spies, JR & Motyl, M. (2012). Wissenschaftliche Utopie: II. Umstrukturierung von Anreizen und Praktiken zur Förderung der Wahrheit über die Publizierbarkeit. Perspectives on Psychological Science, 7 (6), 615-631.
MB Nuijten, CH Hartgerink, MA van Assen, S. Epskamp & JM Wicherts (2016). Die Prävalenz statistischer Berichtsfehler in der Psychologie (1985–2013). Behavior Research Methods, 48 (4), 1205-1226.
Rosenthal, R. (1979). Das Problem mit der Dateiausgabe und die Toleranz für Nullergebnisse. Psychological Bulletin, 86 (3), 638-641.
Sakaluk, JK (2016). Klein erforschen, groß bestätigen: Ein alternatives System zur neuen Statistik, um die kumulative und reproduzierbare psychologische Forschung voranzutreiben. Journal of Experimental Social Psychology, 66, 47-54.
Schimmack, U. (2014). Quantifizierung der statistischen Forschungsintegrität: Der Replizierbarkeitsindex. Abgerufen von http://www.r-index.org
Schmidt, FL & Hunter, JE (1997). Acht häufige, aber falsche Einwände gegen die Einstellung der Signifikanzprüfung bei der Analyse von Forschungsdaten. Bei LL Harlow, SA Mulaik & JH Steiger (Hrsg.): Was wäre, wenn es keine Signifikanztests gäbe? (S. 37–64). Mahwah, NJ: Erlbaum.
Schönbrodt, FD (2015). p-checker: Ein P-Wert-Analysator für alles. Abgerufen von http://shinyapps.org/apps/p-checker/ .
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive-Psychologie: Die nicht offen gelegte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science, 22 (11), 1359 & ndash; 1366.
Simonsohn, U. (2013). Die Torheit, Replikationen zu betreiben, basiert auf der beobachteten Effektgröße. Von http://datacolada.org/4 zurückgerufen
Simonsohn, U. (2014). Hinterhacken. Abgerufen von http://datacolada.org/13 .
Simonsohn, U., Nelson, LD & Simmons, JP (2014). P-Kurve: Ein Schlüssel zur Aktenschublade. Journal of Experimental Psychology: General, 143 (2), 534-547.
Simonsohn, U., Nelson, LD & Simmons, JP (2014). P-Kurve und Effektgröße: Korrektur der Publikationsverzerrung mit nur signifikanten Ergebnissen. Perspectives on Psychological Science, 9 (6), 666-681.
Wicherts, JM, Bakker, M. & Molenaar, D. (2011). Die Bereitschaft, Forschungsdaten weiterzugeben, hängt von der Beweiskraft und der Qualität der Berichterstattung über statistische Ergebnisse ab. PloS one, 6 (11), e26828.