Als Reaktion auf eine wachsende Zahl von Statistikern und Forschern, die den Nutzen von Nullhypothesentests (NHT) für die Wissenschaft als kumulatives Unterfangen kritisieren, hat die Task Force für statistische Inferenz der American Psychological Association ein völliges Verbot von NHT vermieden, aber stattdessen vorgeschlagen, dass Forscher geben die Effektgrößen zusätzlich zu den von NHT abgeleiteten p-Werten an.
Die Effektgrößen können jedoch nicht leicht in allen Studien akkumuliert werden. Metaanalytische Ansätze können Verteilungen von Effektgrößen akkumulieren. Die Effektgrößen werden jedoch in der Regel als Verhältnis zwischen der Stärke des Roheffekts und dem unerklärten "Rauschen" in den Daten eines bestimmten Experiments berechnet Variabilität in der rohen Stärke des Effekts über Studien hinweg, aber auch Variabilität in der Manifestation von Lärm über Studien hinweg.
Im Gegensatz dazu ermöglicht ein alternatives Maß für die Effektstärke und das Wahrscheinlichkeitsverhältnis sowohl eine intuitive Interpretation für jede Studie als auch eine einfache Aggregation für alle Studien zur Metaanalyse. In jeder Studie stellt die Wahrscheinlichkeit die Beweiskraft für ein Modell mit einem bestimmten Effekt im Verhältnis zu einem Modell dar, das den Effekt nicht enthält, und kann typischerweise als "Berechnung eines Wahrscheinlichkeitsverhältnisses für den Effekt von X" angegeben werden 8 mal mehr Beweise für die Wirkung als für ihre jeweilige Null ". Darüber hinaus ermöglicht das Wahrscheinlichkeitsverhältnis auch eine intuitive Darstellung der Stärke von Nullbefunden, sofern Wahrscheinlichkeitsverhältnisse unter 1 Szenarien darstellen, in denen die Null bevorzugt wird und der Kehrwert dieses Werts das Beweisgewicht für die Null gegenüber dem Effekt darstellt. Vor allem, Das Wahrscheinlichkeitsverhältnis wird mathematisch als das Verhältnis der unerklärten Varianzen der beiden Modelle dargestellt, die sich nur in der durch den Effekt erklärten Varianz unterscheiden und somit keine große konzeptionelle Abweichung von einer Effektgröße darstellen. Auf der anderen Seite ist die Berechnung eines metaanalytischen Wahrscheinlichkeitsverhältnisses, das das Gewicht der Evidenz für einen Effekt über Studien hinweg darstellt, einfach eine Frage der Ermittlung des Produkts der Wahrscheinlichkeitsverhältnisse über Studien hinweg.
Daher behaupte ich, dass für die Wissenschaft, die den Grad der groben Evidenz zugunsten eines Effekts / Modells ermitteln möchte, die Wahrscheinlichkeitsverhältnisse der richtige Weg sind.
Es gibt differenziertere Fälle, in denen Modelle nur in der spezifischen Größe eines Effekts differenzierbar sind. In diesem Fall wird möglicherweise eine Darstellung des Intervalls bevorzugt, in dem die Daten unserer Ansicht nach mit den Effektparameterwerten übereinstimmen. In der Tat empfiehlt die APA-Task Force auch die Meldung von Vertrauensintervallen, die zu diesem Zweck verwendet werden können, aber ich vermute, dass dies auch ein unüberlegter Ansatz ist.
Konfidenzintervalle werden bedauerlicherweise häufig falsch interpretiert (sowohl von Studenten als auch von Forschern ). Ich befürchte auch, dass ihre Fähigkeit zur Verwendung in der NHT (durch Einschätzung der Einbeziehung von Null in das CI) nur dazu beitragen wird, das Aussterben der NHT als eine inferentielle Praxis weiter zu verzögern.
Wenn Theorien nur durch die Größe der Effekte differenzierbar sind, empfehle ich stattdessen einen Bayes'schen Ansatz, bei dem die vorherige Verteilung jedes Effekts von jedem Modell separat definiert und die resultierenden hinteren Verteilungen verglichen werden.
Scheint dieser Ansatz, p-Werte, Effektgrößen und Konfidenzintervalle durch Wahrscheinlichkeitsverhältnisse und gegebenenfalls Bayes'schen Modellvergleich zu ersetzen, ausreichend? Fehlt ein notwendiges Inferenzmerkmal, das die hier beschriebenen Alternativen bieten?