Warum neigt das Testen von Frequentist-Hypothesen dazu, die Nullhypothese bei ausreichend großen Stichproben abzulehnen?

Ich habe gerade diesen Artikel über den Bayes-Faktor gelesen, als ich auf diese Passage gestoßen bin

Das Testen von Hypothesen mit Bayes-Faktoren ist robuster als das Testen von häufig auftretenden Hypothesen, da die Bayes-Form eine Verzerrung der Modellauswahl vermeidet, Belege zugunsten der Nullhypothese auswertet, Modellunsicherheit einschließt und das Vergleichen von nicht verschachtelten Modellen ermöglicht (obwohl das Modell natürlich verglichen werden muss) haben die gleiche abhängige Variable). Frequentistische Signifikanztests neigen auch dazu, die Nullhypothese mit einer ausreichend großen Stichprobe abzulehnen. [Betonung hinzugefügt]

Ich habe diese Behauptung bereits in Karl Fristons 2012er Veröffentlichung in NeuroImage gesehen , wo er sie den Irrtum der klassischen Folgerung nennt .

Ich hatte einige Probleme, einen wirklich pädagogischen Bericht darüber zu finden, warum dies wahr sein sollte. Im Einzelnen frage ich mich:

warum dies auftritt
wie man sich dagegen schützt
Wenn das nicht gelingt, wie man es erkennt

hypothesis-testing frequentist

— blz
quelle

Es ist etwas umstritten, weil es falsch ist, wenn die Null buchstäblich stimmt, aber da dies so selten der Fall ist (aufgrund aller Arten von Komplexitäten wie falschen Korrelationen), gilt dies wahrscheinlich für die meisten praktischen Anwendungen. Hypothetisch gesehen konnte man aufgrund einer Kette von Mediatoren, die hunderte von Variablen lang war, trotz einer ähnlichen Anzahl von unkontrollierten Moderatoren die schwächste der störenden Korrelationen (z. B. r = 0,001) feststellen, wenn die Stichprobe kolossal genug war. Vermutlich besteht diese Beziehung tatsächlich, also, ob das wirklich "Voreingenommenheit" ist, ist immer noch fraglich, IMO ...

— Nick Stauner

@ NickStauner, Ah das macht eigentlich viel Sinn! Danke für die intuitive Erklärung!

— Blz

Tal Yarkoni schrieb eine sehr aufschlussreiche Kritik an Fristons

— jona

@jona, Scheint, als würde ich hier auf die ganze Cogsci-Menge treffen =) Danke für den Hinweis, das sieht in der Tat nach guter Lektüre aus!

— blz

Unter den gegebenen Annahmen scheint diese Aussage in der jetzigen Form streng falsch zu sein, aber es handelt sich um ein echtes Problem. . Wenn Leute das als Problem empfinden, deutet dies normalerweise darauf hin, dass das Testen von Hypothesen nicht das ist, was sie brauchen. In dieser Antwort wird

— Glen_b

Antworten:

$p$ $p$

Antwort auf Frage 2: Innerhalb eines Rahmens für das Testen von Frequentist-Hypothesen kann man sich davor schützen, indem man nicht nur auf das Erkennen von Unterschieden schließt . Zum Beispiel kann man Schlussfolgerungen über Differenz und Äquivalenz so kombinieren , dass man die Beweislast für den Nachweis der Wirkung nicht gegenüber dem Beweis für die Abwesenheit der Wirkung bevorzugt (oder in Konflikt bringt!) . Der Beweis für das Fehlen einer Wirkung kommt zum Beispiel von:

zwei einseitige Äquivalenztests (TOST),
gleichmäßig leistungsfähigste Äquivalenztests und
$1-2\alpha$ $\alpha$

Was diese Ansätze alle gemeinsam haben, ist eine a priori Entscheidung darüber, welche Effektgröße einen relevanten Unterschied darstellt, und eine Nullhypothese, die in Bezug auf einen Unterschied festgelegt ist, der mindestens so groß ist, wie das, was als relevant angesehen wird.

$_{0}^{+}$ $_{0}^{-}$

Vier Möglichkeiten aus kombinierten Differenztests und Äquivalenztests

Beachten Sie den linken oberen Quadranten: ein überwältigten Test ist , wo ja Sie die Nullhypothese keinen Unterschied ablehnen, aber Sie lehnen auch die Nullhypothese relevanter Unterschied, also ja es gibt einen Unterschied, aber Sie haben von vornherein entschieden Sie sich nicht um sie kümmern es, weil es zu klein ist.

Antwort auf Frage 3: Siehe Antwort auf 2.

— Alexis
quelle

Antworten wie diese sind, warum ich immer wieder hierher komme. Danke!

— Blz

1 - α

$1-\alpha$

α

$\alpha$

2 α

$2\alpha$

Zur Ergänzung der Antwort auf Frage 1 ein relevanter Blogbeitrag von Cosma Shalizi

Ich bin ein bisschen überrascht, dass jeder diese Frage so hilfreich findet, obwohl die "Antwort auf Frage 1" von Michael Lew - Alexis tatsächlich viel angemessener beantwortet wird, da es fast klar ist, dass dies so bleibt, vielleicht könnten Sie Ihre Antwort korrigieren mathematisch gesehen sind Hypothesentests gemäß der normalen Definition der Verzerrung in der Tat NICHT von einer großen Stichprobe abhängig (umgekehrt kann eine kleine Stichprobe ein Problem sein)!

— Florian Hartig

Ich verstehe das Problem und stimme der Einschätzung zu - es ist nicht aussagekräftig oder irreführend, einen Hypothesentest durchzuführen, wenn H0 an erster Stelle unendlich wahrscheinlich ist und Sie eine Leistung nahe 1 haben. es sei denn, Ihre Definition von Verzerrung ist, dass eine Methode das richtige Ergebnis für eine Frage liefert, die Ihrer Meinung nach nicht gestellt werden sollte.

— Florian Hartig

Frequentistische Tests mit großen Stichproben weisen KEINE Tendenz auf, die Nullhypothese abzulehnen, wenn die Nullhypothese wahr ist. Wenn die Annahmen des Tests gültig sind und die Nullhypothese wahr ist, besteht kein höheres Risiko, dass eine große Stichprobe zur Ablehnung der Nullhypothese führt als eine kleine Stichprobe. Wenn die Null nicht wahr ist, würden wir sie mit Sicherheit gerne ablehnen. Die Tatsache, dass eine große Stichprobe häufiger eine falsche Null als eine kleine Stichprobe ablehnt, ist keine Verzerrung, sondern ein angemessenes Verhalten.

Die Angst vor übermächtigen Experimenten basiert auf der Annahme, dass es nicht gut ist, die Nullhypothese abzulehnen, wenn sie beinahe wahr ist. Aber wenn es nur annähernd wahr ist, dann ist es tatsächlich falsch! Verwerfen, aber die beobachtete Effektgröße nicht übersehen (und deutlich ausweisen). Es mag trivial klein sein und daher keine ernsthafte Überlegung wert sein, aber eine Entscheidung zu diesem Thema muss nach Berücksichtigung von Informationen von außerhalb des Hypothesentests getroffen werden.

— Michael Lew
quelle

0

$0$

0 + really frickin' tiny

$0 + \text{really frickin' tiny}$

@ Alexis Lesen Sie den zweiten Absatz noch einmal. Ich stimme absolut zu, dass wirklich verdammt winzig nicht wesentlich ist, aber es ist auch nicht logisch Null.

— Michael Lew

Entschuldigung für einen Kommentar, der für die Öffentlichkeit wertlos ist, aber @MichaelLew, Ihre Antwort hat mir sehr gut gefallen. Der erste Satz ist ziemlich wichtig und ich denke nicht, dass er in Alexis 'Antwort effizient erläutert wurde (was natürlich auch schön ist).

— Richard Hardy