Bieten Wahrscheinlichkeitsverhältnisse und Bayes'scher Modellvergleich überlegene und ausreichende Alternativen zu Nullhypothesentests?

Als Reaktion auf eine wachsende Zahl von Statistikern und Forschern, die den Nutzen von Nullhypothesentests (NHT) für die Wissenschaft als kumulatives Unterfangen kritisieren, hat die Task Force für statistische Inferenz der American Psychological Association ein völliges Verbot von NHT vermieden, aber stattdessen vorgeschlagen, dass Forscher geben die Effektgrößen zusätzlich zu den von NHT abgeleiteten p-Werten an.

Die Effektgrößen können jedoch nicht leicht in allen Studien akkumuliert werden. Metaanalytische Ansätze können Verteilungen von Effektgrößen akkumulieren. Die Effektgrößen werden jedoch in der Regel als Verhältnis zwischen der Stärke des Roheffekts und dem unerklärten "Rauschen" in den Daten eines bestimmten Experiments berechnet Variabilität in der rohen Stärke des Effekts über Studien hinweg, aber auch Variabilität in der Manifestation von Lärm über Studien hinweg.

Im Gegensatz dazu ermöglicht ein alternatives Maß für die Effektstärke und das Wahrscheinlichkeitsverhältnis sowohl eine intuitive Interpretation für jede Studie als auch eine einfache Aggregation für alle Studien zur Metaanalyse. In jeder Studie stellt die Wahrscheinlichkeit die Beweiskraft für ein Modell mit einem bestimmten Effekt im Verhältnis zu einem Modell dar, das den Effekt nicht enthält, und kann typischerweise als "Berechnung eines Wahrscheinlichkeitsverhältnisses für den Effekt von X" angegeben werden 8 mal mehr Beweise für die Wirkung als für ihre jeweilige Null ". Darüber hinaus ermöglicht das Wahrscheinlichkeitsverhältnis auch eine intuitive Darstellung der Stärke von Nullbefunden, sofern Wahrscheinlichkeitsverhältnisse unter 1 Szenarien darstellen, in denen die Null bevorzugt wird und der Kehrwert dieses Werts das Beweisgewicht für die Null gegenüber dem Effekt darstellt. Vor allem, Das Wahrscheinlichkeitsverhältnis wird mathematisch als das Verhältnis der unerklärten Varianzen der beiden Modelle dargestellt, die sich nur in der durch den Effekt erklärten Varianz unterscheiden und somit keine große konzeptionelle Abweichung von einer Effektgröße darstellen. Auf der anderen Seite ist die Berechnung eines metaanalytischen Wahrscheinlichkeitsverhältnisses, das das Gewicht der Evidenz für einen Effekt über Studien hinweg darstellt, einfach eine Frage der Ermittlung des Produkts der Wahrscheinlichkeitsverhältnisse über Studien hinweg.

Daher behaupte ich, dass für die Wissenschaft, die den Grad der groben Evidenz zugunsten eines Effekts / Modells ermitteln möchte, die Wahrscheinlichkeitsverhältnisse der richtige Weg sind.

Es gibt differenziertere Fälle, in denen Modelle nur in der spezifischen Größe eines Effekts differenzierbar sind. In diesem Fall wird möglicherweise eine Darstellung des Intervalls bevorzugt, in dem die Daten unserer Ansicht nach mit den Effektparameterwerten übereinstimmen. In der Tat empfiehlt die APA-Task Force auch die Meldung von Vertrauensintervallen, die zu diesem Zweck verwendet werden können, aber ich vermute, dass dies auch ein unüberlegter Ansatz ist.

Konfidenzintervalle werden bedauerlicherweise häufig falsch interpretiert (sowohl von Studenten als auch von Forschern ). Ich befürchte auch, dass ihre Fähigkeit zur Verwendung in der NHT (durch Einschätzung der Einbeziehung von Null in das CI) nur dazu beitragen wird, das Aussterben der NHT als eine inferentielle Praxis weiter zu verzögern.

Wenn Theorien nur durch die Größe der Effekte differenzierbar sind, empfehle ich stattdessen einen Bayes'schen Ansatz, bei dem die vorherige Verteilung jedes Effekts von jedem Modell separat definiert und die resultierenden hinteren Verteilungen verglichen werden.

Scheint dieser Ansatz, p-Werte, Effektgrößen und Konfidenzintervalle durch Wahrscheinlichkeitsverhältnisse und gegebenenfalls Bayes'schen Modellvergleich zu ersetzen, ausreichend? Fehlt ein notwendiges Inferenzmerkmal, das die hier beschriebenen Alternativen bieten?

— Mike Lawrence
quelle

Könnte eine konzentriertere Frage sein? Vielleicht eine über wahrscheinlichkeitsorientierte Ansätze zu einem bestimmten Inferenzproblem?

— Conjugateprior

Aber während wir hier sind: Auf den Punkt gebracht: Haben Sie Maße der Effektgröße, die normalerweise mit einem Parameter identifiziert werden, für Maße der vergleichenden Evidenz für ein vollständiges Modell verwechselt? LRs sehen nur wie Kandidaten für letztere aus. Wenn Sie möchten, dass Likelihood-Funktionen allein oder in Kombination Ihnen alles mitteilen, was die Daten über ein Modell aussagen, dann sind Sie im Grunde genommen ein Bayesianer. Denn das ist das Wahrscheinlichkeitsprinzip. (Komm rein, das Wasser ist wunderschön :-)

— conjugateprior

Ihr Titel und Ihr abschließender Absatz scheinen sich nicht darüber einig zu sein, ob Sie vorschlagen, Konfidenzintervalle zu verwenden oder sie zu ersetzen.

— am

@onestop: In der Tat ist mir gerade klar geworden, dass ich vergessen habe, den Titel zu ändern. Ich habe meine Meinung bezüglich der Vertrauensintervalle geändert, während ich die Frage geschrieben habe. Ich habe den Titel jetzt bearbeitet. Entschuldigung für die Verwirrung.

— Mike Lawrence

@Conjugate Prior: Stimmen Sie Ihren ersten beiden Sätzen vollständig zu. Sie können das Likelihood-Prinzip jedoch akzeptieren, ohne Bayesianer zu sein, wenn Sie die Idee der Prioritäten nicht mögen und nur auf Likelihoods schließen möchten - siehe Bücher von Edwards books.google.com/books?id=2a_XZ-gvct4C und Royall books.google .com / books? id = oysWLTFaI_gC . Obwohl jemand (und ich wünschte, ich erinnere mich, wer und wo) dies einmal mit dem Brechen von Eiern verglichen hat, aber nicht das Omelett gegessen hat.

— am

Die Hauptvorteile eines Bayes'schen Ansatzes, zumindest für mich als Forscher in der Psychologie, sind:

1) können Sie Beweise für die Null sammeln

2) umgeht die theoretischen und praktischen Probleme der sequentiellen Prüfung

3) ist nicht anfällig für die Zurückweisung einer Null, nur wegen eines großen N (siehe vorherigen Punkt)

4) ist besser geeignet, wenn mit kleinen Effekten gearbeitet wird (bei großen Effekten stimmen häufig sowohl die häufige als auch die bayesianische Methode überein)

5) ermöglicht es, hierarchische Modellierung auf praktikable Weise durchzuführen. Das Einführen von Element- und Teilnehmer-Effekten in einigen Modellklassen, z. B. Multinomial Processing Tree-Modellen, müsste beispielsweise in einem Bayes-Framework erfolgen, da sonst die Rechenzeit wahnsinnig lang wäre.

6) Sie erhalten "echte" Konfidenzintervalle

7) Sie benötigen drei Dinge: die Wahrscheinlichkeit, die Prioritäten und die Wahrscheinlichkeit der Daten. Das erste erhalten Sie aus Ihren Daten, das zweite erstellen Sie und das dritte brauchen Sie bei gegebener Verhältnismäßigkeit überhaupt nicht. Ok, vielleicht übertreibe ich ein wenig ;-)

Insgesamt kann man die Frage umkehren: Bedeutet das alles, dass klassische Frequentist-Statistiken nicht ausreichen? Ich denke, "Nein" zu sagen ist ein zu hartes Urteil. Die meisten Probleme lassen sich einigermaßen vermeiden, wenn man über p-Werte hinausgeht und sich Dinge wie Effektgrößen, die Möglichkeit von Gegenstandseffekten und die konsequente Replikation von Ergebnissen anschaut (zu viele Ein-Experiment-Artikel werden veröffentlicht!).

Bei Bayes ist aber nicht alles so einfach. Nehmen Sie zum Beispiel die Modellauswahl mit nicht verschachtelten Modellen. In diesen Fällen sind die Priors äußerst wichtig, da sie die Ergebnisse stark beeinflussen. Manchmal haben Sie nicht so viel Wissen über die meisten Modelle, mit denen Sie arbeiten möchten, um die richtigen Priors zu erhalten. Auch dauert sehr lange ....

Ich hinterlasse zwei Referenzen für alle, die sich für das Tauchen in Bayes interessieren.

"Ein Kurs in Bayesian Graphical Modeling for Cognitive Science" von Lee und Wagenmakers

"Bayesian Modeling Using WinBUGS" von Ntzoufras

— Dave Kellen
quelle