Hypothesentest versus Parameterschätzung
Normalerweise werden Hypothesen binär gerahmt. Ich werde Richtungshypothesen beiseite legen, da sie das Problem nicht wesentlich ändern. Zumindest in der Psychologie ist es üblich, über folgende Hypothesen zu sprechen: Der Unterschied zwischen Gruppenmitteln ist oder ist nicht Null; die Korrelation ist oder ist nicht Null; der Regressionskoeffizient ist oder ist nicht Null; das r-Quadrat ist oder ist nicht Null. In all diesen Fällen gibt es eine Nullhypothese ohne Wirkung und eine Alternativhypothese für eine Wirkung.
Dieses binäre Denken ist im Allgemeinen nicht das, woran wir am meisten interessiert sind. Wenn Sie über Ihre Forschungsfrage nachdenken, werden Sie fast immer feststellen, dass Sie tatsächlich an der Schätzung von Parametern interessiert sind. Sie interessieren sich für die tatsächliche Differenz zwischen dem Gruppenmittelwert, die Größe der Korrelation, die Größe des Regressionskoeffizienten oder den Betrag der erklärten Varianz.
Wenn wir eine Stichprobe von Daten erhalten, stimmt die Stichprobenschätzung eines Parameters natürlich nicht mit dem Populationsparameter überein. Wir müssen also unsere Unsicherheit über den Wert des Parameters quantifizieren. Aus einer häufigeren Perspektive bieten Konfidenzintervalle eine Möglichkeit, dies zu tun, obwohl bayesianische Puristen möglicherweise argumentieren, dass sie die Schlussfolgerungen, die Sie möglicherweise ziehen möchten, nicht strikt zulassen. Aus Bayes-Sicht bieten glaubwürdige Intervalle für posteriore Dichten eine direktere Möglichkeit, Ihre Unsicherheit über den Wert eines Populationsparameters zu quantifizieren.
Parameter / Effektgrößen
Wenn Sie sich vom Testansatz für binäre Hypothesen entfernen, werden Sie gezwungen, kontinuierlich zu denken. Welcher Größenunterschied in Gruppenmitteln wäre zum Beispiel theoretisch interessant? Wie würden Sie den Unterschied zwischen Gruppenmitteln auf subjektive Sprache oder praktische Implikationen abbilden? Standardisierte Wirkungsmaße und kontextbezogene Normen sind eine Möglichkeit, eine Sprache zur Quantifizierung der Bedeutung verschiedener Parameterwerte zu erstellen. Solche Maßnahmen werden oft als "Effektgrößen" bezeichnet (z. B. Cohens d, r, usw.). Es ist jedoch durchaus sinnvoll und oftmals vorzuziehen, über die Bedeutung eines Effekts mit Hilfe nicht standardisierter Maßnahmen zu sprechen (z. B. bedeutet der Unterschied in der Gruppe, dass wichtige nicht standardisierte Variablen wie Einkommensniveau, Lebenserwartung usw. betroffen sind).R2
In der Psychologie (und anderen Bereichen) gibt es eine große Literatur, die sich mit p-Werten, Nullhypothesen-Signifikanztests usw. beschäftigt (siehe diese Google Scholar-Suche ). In dieser Literatur wird häufig empfohlen, Effektgrößen mit Konfidenzintervallen als Auflösung anzugeben (z. B. APA Task Force von Wilkinson, 1999).
Schritte zur Abkehr vom Testen binärer Hypothesen
Wenn Sie darüber nachdenken, dieses Denken zu übernehmen, gibt es meines Erachtens immer ausgefeiltere Ansätze:
- Ansatz 1a. Geben Sie die Punktschätzung Ihres Stichprobeneffekts (z. B. Gruppenmittelwertdifferenzen) in unformatierter und standardisierter Form an. Besprechen Sie beim Berichten Ihrer Ergebnisse, was eine solche Größenordnung für Theorie und Praxis bedeuten würde.
- Ansatz 1b. Addieren Sie zu 1a, zumindest auf einer sehr einfachen Ebene, ein gewisses Gefühl für die Unsicherheit um Ihre Parameterschätzung basierend auf Ihrer Stichprobengröße.
- Ansatz 2. Geben Sie auch Konfidenzintervalle für Effektgrößen an und beziehen Sie diese Unsicherheit in Ihre Überlegungen zu den plausiblen Werten des interessierenden Parameters ein.
- Ansatz 3. Geben Sie glaubwürdige Bayes'sche Intervalle an und untersuchen Sie die Auswirkungen verschiedener Annahmen auf dieses glaubwürdige Intervall, z.
Unter vielen möglichen Referenzen wird Andrew Gelman in seinem Blog und in seinen Recherchen viel über diese Themen sprechen.
Verweise
- Nickerson, RS (2000). Null-Hypothese-Signifikanz-Test: Ein Rückblick auf eine alte und anhaltende Kontroverse. Psychologische Methoden, 5 (2), 241.
- Wilkinson, L. (1999). Statistische Methoden in psychologischen Fachzeitschriften: Richtlinien und Erläuterungen. Amerikanischer Psychologe, 54 (8), 594. PDF