Referenzen mit Argumenten gegen das Testen der Signifikanz von Nullhypothesen?

In den letzten Jahren habe ich eine Reihe von Artikeln gelesen, die sich gegen die Verwendung von Nullhypothesen-Signifikanztests in der Wissenschaft aussprachen, aber nicht daran gedacht, eine ständige Liste zu führen. Ein Kollege hat mich kürzlich nach einer solchen Liste gefragt, und ich dachte, ich würde alle hier bitten, bei der Erstellung mitzuwirken. Um die Dinge anzufangen, hier ist, was ich bisher habe:

Johansson (2011) "Heil dem Unmöglichen: p-Werte, Beweise und Wahrscheinlichkeit."
Haller & Kraus (2002) "Fehlinterpretation von Bedeutung: Ein Problem, das Schüler mit ihren Lehrern teilen."
Wagenmakers (2007) "Eine praktische Lösung für das allgegenwärtige Problem der p-Werte."
Rodgers (2010) "Die Erkenntnistheorie der mathematischen und statistischen Modellierung: Eine stille methodologische Revolution."
Dixon (1998) "Warum Wissenschaftler p-Werte schätzen."
Glover & Dixon (2004) "Likelihood Ratios: Eine einfache und flexible Statistik für empirische Psychologen."

— Mike Lawrence
quelle

Es ist nicht zu 100% relevant, daher poste ich dies nicht als Antwort. Aber, JPA Ioannidis, warum die meisten veröffentlichten Forschungsergebnisse falsch sind , ist PLoS Med 2 (8): e124, 2005, eine Lektüre wert.

— Kardinal

Ein berühmtes Buch unter Wirtschaftswissenschaftlern ist Ziliak, Stephen T. und Deirdre Nansen Mccloskey. Der Kult der statistischen Signifikanz: Wie uns der Standardfehler Arbeitsplätze, Gerechtigkeit und Leben kostet. University of Michigan Press, 2008.

— Waldemar

Was ist das Ziel hier?

— Aksakal

Im März 2016 veröffentlichte die ASA eine offizielle "Erklärung zu p-Werten" .

— Kenny LJ

Auf dieser Seite sind viele Referenzen aufgeführt (einschließlich Kommentare): lesswrong.com/lw/g13/against_nhst . Weitere Referenzen finden Sie in Glen_bs Antwort hier: stats.stackexchange.com/questions/142533 .

— Amöbe sagt Reinstate Monica

Chris Fraley hat einen ganzen Kurs über die Geschichte der Debatte unterrichtet (der Link scheint unterbrochen zu sein, obwohl er sich noch auf seiner offiziellen Seite befindet; hier ist eine Kopie im Internetarchiv ). Seine Zusammenfassung / Schlussfolgerung ist hier (wieder, archivierte Kopie ). Laut Fraleys Homepage unterrichtete er diesen Kurs zuletzt im Jahr 2003.

Er geht dieser Liste ein "Instructor's Bias" voraus:

Obwohl es mein Ziel ist, lebhafte, tiefe und faire Diskussionen zu den anstehenden Themen zu ermöglichen, halte ich es von Anfang an für notwendig, meine Voreingenommenheit deutlich zu machen. Paul Meehl hat einmal festgestellt, dass "Sir Ronald [Fisher] uns verwirrt, hypnotisiert und auf dem Weg der Primeln geführt hat. Ich glaube, dass das fast universelle Vertrauen darauf, nur die Nullhypothese als Standardmethode zur Bestätigung substanzieller Theorien im Weichen zu widerlegen Bereiche ist ein schrecklicher Fehler, ist im Grunde genommen unsolide, schlechte wissenschaftliche Strategie, und eines der schlimmsten Dinge, die jemals in der Geschichte der Psychologie passiert sind. " Ich stimme mit Meehl überein. Eines meiner Ziele in diesem Seminar ist es, klar zu machen, warum ich das für richtig halte. Darüber hinaus erwarte ich Sie, bis Sie dieses Seminar abgeschlossen haben,

Ich werde in die Leseliste kopieren, falls die Kursseite jemals verschwindet:

Woche 1. Einführung: Was ist ein Nullhypothesentest? Fakten, Mythen und der Stand unserer Wissenschaft

Lyken, DL (1991). Was ist los mit Psychologie? In D. Cicchetti & WM Grove (Hrsg.), Thinking Clearly about Psychology, vol. 1: Angelegenheiten von öffentlichem Interesse, Aufsätze zu Ehren von Paul E. Meehl (S. 3 - 39). Minneapolis, Minnesota: University of Minnesota Press.

Woche 2. Frühe Kritik an NHST

Meehl, PE (1967). Theorieprüfung in Psychologie und Physik: Ein methodisches Paradoxon. Philosophy of Science, 34, 103-115.

Meehl, PE (1978). Theoretische Risiken und tabellarische Sternchen: Sir Karl, Sir Ronald und der langsame Fortschritt der sanften Psychologie. Journal of Consulting and Clinical Psychology, 46, 806-834.

Rozeboom, WW (1960). Der Irrtum des Nullhypothesen-Signifikanztests. Psychological Bulletin, 57, 416 & ndash; 428.

Bakan, D. (1966). Der Signifikanztest in der psychologischen Forschung. Psychological Bulletin, 66, 423 & ndash; 437. [Optional]

Woche 3. Zeitgenössische Kritik an NHST

Cohen, J. (1994). Die Erde ist rund (p <.05). American Psychologist, 49, 997 & ndash; 1003.

Gigerenzer, G. (1993). Das Über-Ich, das Ego und das Es im statistischen Denken. In G. Keren & C. Lewis (Hrsg.), Ein Handbuch zur Datenanalyse in den Verhaltenswissenschaften: Methodologische Fragen (S. 311-339). Hillsdale, NJ: Lawrence Erlbaum Associates.

Schmidt, FL & Hunter, JE (1997). Acht häufige, aber falsche Einwände gegen die Einstellung der Signifikanzprüfung bei der Analyse von Forschungsdaten. In Lisa A. Harlow, Stanley A. Mulaik und James H. Steiger (Hrsg.) Was wäre, wenn es keine Signifikanztests gäbe? (S. 37-64). Mahwah, NJ: Lawrence Erlbaum Associates.

Oakes, M. (1986). Statistische Inferenz: Ein Kommentar für die Sozial- und Verhaltenswissenschaften. New York: Wiley. (Kapitel 2 [Eine Kritik der Signifikanztests]) [optional]

Woche 4. Widerlegung: Fürsprecher von NHST verteidigen sich

Frick, RW (1996). Die angemessene Verwendung von Nullhypothesentests. Psychological Methods, 1, 379 & ndash; 390.

Hagen, RL (1997). Zum Lob der Nullhypothese statistischer Test. American Psychologist, 52, 15-24.

Wilkinson, L. & die Task Force für statistische Inferenz. (1999). Statistische Methoden in psychologischen Fachzeitschriften: Richtlinien und Erläuterungen. American Psychologist, 54, 594 & ndash; 604.

Wainer, H. (1999). Ein Hoch auf Nullhypothesen-Signifikanztests. Psychological Methods, 6, 212 & ndash; 213.

Mulaik, SA, Raju, NS & Harshman, RA (1997). Es gibt einen Zeitpunkt und einen Ort für Signifikanztests. In Lisa A. Harlow, Stanley A. Mulaik und James H. Steiger, Eds. Was wäre, wenn es keine Signifikanztests gäbe? (S. 65-116). Mahwah, NJ: Lawrence Erlbaum Associates. [Optional]

Woche 5. Widerlegung: Fürsprecher von NHST verteidigen sich

Abelson, RP (1997). Über die überraschende Langlebigkeit von ausgepeitschten Pferden: Warum gibt es einen Fall für den Signifikanztest? Psychological Science, 8, 12-15.

Krueger, J. (2001). Nullhypothesen-Signifikanztest: Über das Überleben einer fehlerhaften Methode. American Psychologist, 56, 16-26.

Scarr, S. (1997). Beweisregeln: Ein größerer Kontext für die statistische Debatte. Psychological Science, 8, 16-17.

Greenwald, AG, Gonzalez, R., Harris, RJ & Guthrie, D. (1996). Effektgrößen und p-Werte: Was soll gemeldet und was soll repliziert werden? Psychophysiology, 33, 175 & ndash; 183.

Nickerson, RS (2000). Nullhypothesen-Signifikanztest: Ein Rückblick auf eine alte und anhaltende Kontroverse. Psychological Methods, 5, 241 & ndash; 301. [Optional]

Harris, RJ (1997). Signifikanztests haben ihren Platz. Psychological Science, 8, 8-11. [Optional]

Woche 6. Effektgröße

Rosenthal, R. (1984). Metaanalytische Verfahren für die Sozialforschung. Beverly Hills, CA: Salbei. [CH. 2, Forschungsergebnisse definieren]

Chow, SL (1988). Signifikanztest oder Effektgröße? Psychological Bulletin, 103, 105 & ndash; 110.

Abelson, RP (1985). Ein Paradoxon der Varianzerklärung: Wenn wenig viel ist. Psychological Bulletin, 97, 129 & ndash; 133. [Optional]

Woche 7. Statistische Macht

Hallahan, M. & Rosenthal, R. (1996). Statistische Aussagekraft: Konzepte, Verfahren und Anwendungen. Behavior Research and Therapy, 34, 489 & ndash; 499.

Sedlmeier, P. & Gigerenzer, G. (1989). Haben Studien zur statistischen Aussagekraft Auswirkungen auf die Aussagekraft von Studien? Psychological Bulletin, 105, 309 & ndash; 316.

Cohen, J. (1962). Die statistische Kraft abnormal-sozialpsychologischer Forschung: Ein Rückblick. Journal of Abnormal and Social Psychology, 65, 145-153. [Optional]

Maddock, JE, Rossi, JS (2001). Statistische Aussagekraft von Artikeln, die in drei gesundheitspsychologischen Fachzeitschriften veröffentlicht wurden. Health Psychology, 20, 76 & ndash; 78. [Optional]

Thomas, L. & Juanes, F. (1996). Die Bedeutung der statistischen Leistungsanalyse: Ein Beispiel aus dem Verhalten von Tieren. Animal Behaviour, 52, 856 & ndash; 859. [Optional]

Rossi, JS (1990). Statistische Kraft der psychologischen Forschung: Was haben wir in 20 Jahren gewonnen? Journal of Consulting and Clinical Psychology, 58, 646-656. [Optional]

Tukey, JW (1969). Daten analysieren: Heiligsprechung oder Detektivarbeit? American Psychologist, 24, 83 & ndash; 91. [Optional]

Woche 8. Konfidenzintervalle und Signifikanztests

Gardner, MJ & DG Altman. 1986. Konfidenzintervalle statt P-Werte: Schätzung statt Hypothesentest. British Medical Journal, 292, 746 & ndash; 750.

Cumming, G. & Finch, S. (2001). Eine Einführung in das Verstehen, Verwenden und Berechnen von Konfidenzintervallen, die auf zentralen und nicht zentralen Verteilungen basieren. Educational and Psychological Measurement, 61, 532-574.

Loftus, GR & Masson, MEJ (1994). Verwenden von Konfidenzintervallen in themeninternen Designs. Psychonomic Bulletin and Review, 1, 476-490.

Woche 9 [Anmerkung: Dieser Abschnitt wird übersprungen]. Theoretische Modellierung: Entwicklung formaler Modelle natürlicher Phänomene

Haefner, JW (1996). Modellierung biologischer Systeme: Prinzipien und Anwendungen. New York: Internationaler Thomson Verlag. (Kapitel 1 [Modelle von Systemen] & 2 [Der Modellierungsprozess])

Loehlin, JC (1992). Latente Variablenmodelle: Eine Einführung in die Faktoren-, Pfad- und Strukturanalyse. Hillsdale, NJ: Lawrence Erlbaum Associates. (Kapitel 1 [Pfadmodelle in Faktor-, Pfad- und Strukturanalyse], S. 1-18]

Grant, DA (1962). Testen der Nullhypothese und der Strategie zur Untersuchung theoretischer Modelle. Psychological Review, 69, 54 & ndash; 61. [Optional]

Binder, A. (1963). Weitere Überlegungen zum Testen der Nullhypothese sowie der Strategie und Taktik der Untersuchung theoretischer Modelle. Psychological Review, 70, 107 & ndash; 115. [Optional]

Edwards, W. (1965). Taktische Anmerkung zu den Beziehungen zwischen wissenschaftlichen und statistischen Hypothesen. Psychological Bulletin, 63, 400–402. [Optional]

Woche 10. Was bedeutet Wahrscheinlichkeit? Kontroverse um relative Häufigkeit und subjektive Wahrscheinlichkeit

Salsburg, D. (2001). Die Dame, die Tee probiert: Wie die Statistik die Wissenschaft im 20. Jahrhundert revolutionierte. New York: WH Freeman. (Kapitel 10, 11 und 12)

Oakes, M. (1986). Statistische Inferenz: Ein Kommentar für die Sozial- und Verhaltenswissenschaften. New York: Wiley. (Kapitel 4, 5 und 6)

Pruzek, RM (1997). Eine Einführung in die Bayesianische Inferenz und ihre Anwendungen. In Lisa A. Harlow, Stanley A. Mulaik und James H. Steiger, Eds. Was wäre, wenn es keine Signifikanztests gäbe? (S. 287-318). Mahwah, NJ: Lawrence Erlbaum Associates.

Rindskoph, DM (1997). Testen der Hypothese "klein", nicht null: Klassische und Bayes'sche Ansätze. In Lisa A. Harlow, Stanley A. Mulaik und James H. Steiger (Hrsg.). Was wäre, wenn es keine Signifikanztests gäbe? (S. 319-332). Mahwah, NJ: Lawrence Erlbaum Associates.

Edwards, W., Lindman, H., Savage, LJ (1963). Bayesianische statistische Inferenz für die psychologische Forschung. Psychological Review, 70, 193 & ndash; 242. [Optional]

Woche 11. Theoriebewertung: Wissenschaftstheorie und das Prüfen und Ändern von Theorien

Meehl, PE (1990). Bewertung und Änderung von Theorien: Die Strategie der Lakatosianischen Verteidigung und zwei Prinzipien, die dies rechtfertigen. Psychological Inquiry, 1, 108 & ndash; 141.

Roberts, S. & Pashler, H. (2000). Wie überzeugend ist eine gute Passform? Ein Kommentar zum Testen der Theorie. Psychological Review, 107, 358 & ndash; 367.

Woche 12. Theoriebewertung: Wissenschaftstheorie und das Prüfen und Ändern von Theorien

Urbach, P. (1974). Fortschritt und Degeneration in der "IQ-Debatte" (I). British Journal of Philosophy of Science, 25, 99-125.

Serlin, RC & amp; Lapsley, DK (1985). Rationalität in der psychologischen Forschung: Das Prinzip, das gut genug ist. American Psychologist, 40, 73 & ndash; 83.

Dar, R. (1987). Ein weiterer Blick auf Meehl, Lakatos und die wissenschaftlichen Praktiken von Psychologen. American Psychologist, 42, 145 & ndash; 151.

B. Gholson & P. Barker (1985). Kuhn, Lakatos & Laudan: Anwendungen in der Geschichte der Physik und Psychologie. American Psychologist, 40, 755 & ndash; 769. [Optional]

Faust, D. & Meehl, PE (1992). Verwendung wissenschaftlicher Methoden zur Lösung wissenschaftsgeschichtlicher und wissenschaftstheoretischer Fragen: Einige Abbildungen. Behavior Therapy, 23, 195 & ndash; 211. [Optional]

Urbach, P. (1974). Fortschritt und Degeneration in der "IQ-Debatte" (II). British Journal of Philosophy of Science, 25, 235-259. [Optional]

Salmon, WC (1973, Mai). Bestätigung. Scientific American, 228, 75 & ndash; 83. [Optional]

Meehl, PE (1993). Wissenschaftstheorie: Hilfe oder Behinderung? Psychological Reports, 72, 707 & ndash; 733. [optional] Manicas. PT & Secord, PF (1983). Implikationen für die Psychologie der neuen Wissenschaftstheorie. American Psychologist, 38, 399 & ndash; 413. [Optional]

Woche 13. Hat die NHST-Tradition eine voreingenommene, kumulative Wissensbasis in der Psychologie untergraben?

Cooper, H., DeNeve, K. & Charlton, K. (1997). Auffinden der fehlenden Wissenschaft: Das Schicksal von Studien, die von einem Ausschuss für menschliche Probanden zur Überprüfung eingereicht wurden. Psychological Methods, 2, 447 & ndash; 452.

Schmidt, FL (1996). Statistische Signifikanztests und kumulatives Wissen in der Psychologie: Implikationen für die Ausbildung von Forschern. Psychological Methods, 1, 115 & ndash; 129.

Greenwald, AG (1975). Folgen von Vorurteilen gegen die Nullhypothese. Psychological Bulletin, 82, 1-20.

Berger, JO & amp; Berry, DA (1988). Statistische Analyse und Illusion von Objektivität. American Scientist, 76, 159 & ndash; 165.

Woche 14. Replikation und wissenschaftliche Integrität

Smith, NC (1970). Replikationsstudien: Ein vernachlässigter Aspekt der psychologischen Forschung. American Psychologist, 25, 970 & ndash; 975.

Sohn, D. (1998). Statistische Signifikanz und Reproduzierbarkeit: Warum ersteres letzteres nicht voraussagt. Theory and Psychology, 8, 291 & ndash; 311.

Meehl, PE (1990). Warum Zusammenfassungen der Forschung zu psychologischen Theorien oft nicht interpretierbar sind. Psychological Reports, 66, 195 & ndash; 244.

Platt, JR (1964). Starke Folgerung. Science, 146, 347 & ndash; 353.

Feynman, RL (1997). Sie scherzen doch, Mr. Feynman! New York: WW Norton. (Kapitel: Frachtkultwissenschaft).

Rorer, LG (1991). Einige Mythen der Wissenschaft in der Psychologie. In D. Cicchetti & WM Grove (Hrsg.), Thinking Clearly about Psychology, vol. 1: Angelegenheiten von öffentlichem Interesse, Aufsätze zu Ehren von Paul E. Meehl (S. 61 - 87). Minneapolis, Minnesota: University of Minnesota Press. [Optional]

Lindsay, RM & Ehrenberg, ASC (1993). Das Design replizierter Studien. The American Statistician, 47, 217-228. [Optional]

Woche 15. Quantitatives Denken: Warum brauchen wir Mathematik (und nicht NHST an sich) in den psychologischen Wissenschaften?

Aiken, LS, West, SG, Sechrest, L. & Reno, RR (1990). Graduiertenausbildung in Statistik, Methodik und Messung in Psychologie: Eine Umfrage von Ph.D. Programme in Nordamerika. American Psychologist, 45, 721 & ndash; 734.

Meehl, PE (1998, Mai). Die Kraft des quantitativen Denkens. Eingeladene Ansprache als Empfänger des James McKeen Cattell Award beim Jahrestreffen der American Psychological Society, Washington, DC.

— Michael Bishop
quelle

+1. Es ist interessant - und ziemlich aufschlussreich -, dass die Lesungen mit Meehl beginnen und enden.

— whuber

Sie haben einen echten Dienst geleistet, indem Sie dies geteilt haben.

— Rolando2

Die Links zum Kurs und zur Zusammenfassung scheinen defekt zu sein. Sie finden die Informationen über das Archivprojekt: web.archive.org/web/20151023151618/http://www.uic.edu/classes/…

— AG

Das sind hervorragende Referenzen. Ich habe ein vielleicht nützliches Handout unter http://biostat.mc.vanderbilt.edu/wiki/pub/Main/FHHandouts/whyBayesian.pdf

— Frank Harrell
quelle

402 Zitate, die die wahllose Verwendung von Nullhypothesen-Signifikanztests in Beobachtungsstudien in Frage stellen: http://warnercnr.colostate.edu/~anderson/thompson1.html

— Alex
quelle