Könnte jemand erklären, warum Richard McElreath sagt, dass der genaue Test von Fisher in seinem ausgezeichneten Bayes'schen Einführungsbuch ( Statistical Rethinking ) selten angemessen verwendet wird ?
Als Referenz ist der Kontext unten:
Warum reichen die Tests für innovative Forschung nicht aus? Die klassischen Verfahren der Einführungsstatistik sind in der Regel unflexibel und fragil. Mit unflexibel meine ich, dass sie nur sehr begrenzte Möglichkeiten haben, sich an einzigartige Forschungskontexte anzupassen. Mit fragil meine ich, dass sie auf unvorhersehbare Weise versagen, wenn sie auf neue Kontexte angewendet werden. Dies ist wichtig, da an den Grenzen der meisten Wissenschaften kaum klar ist, welches Verfahren angemessen ist. Keiner der traditionellen Golems wurde in neuartigen Forschungsumgebungen evaluiert, daher kann es schwierig sein, einen auszuwählen und dann zu verstehen, wie er sich verhält.Ein gutes Beispiel ist der exakte Fisher-Test, der (genau) auf einen extrem engen empirischen Kontext zutrifft, aber regelmäßig verwendet wird, wenn die Zellzahl gering ist. Ich habe persönlich Hunderte von Verwendungen von Fischers genauem Test in wissenschaftlichen Fachzeitschriften gelesen, aber abgesehen von Fischers ursprünglicher Verwendung habe ich nie gesehen, dass er angemessen verwendet wurde. Sogar ein Verfahren wie die gewöhnliche lineare Regression, das in vielerlei Hinsicht sehr flexibel ist und eine große Vielfalt interessanter Hypothesen codieren kann, ist manchmal fragil. Wenn beispielsweise bei Vorhersagevariablen ein erheblicher Messfehler vorliegt, kann das Verfahren auf spektakuläre Weise fehlschlagen. Noch wichtiger ist jedoch, dass es fast immer möglich ist, eine bessere als die gewöhnliche lineare Regression zu erzielen, was hauptsächlich auf ein Phänomen zurückzuführen ist, das als Überanpassung bekannt ist.