Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie wird dies jedoch allgemein als eine sehr fehlerhafte Analysemethode akzeptiert (sofern nicht alle) Die Schritte sind im Vorfeld klar definiert und richtig geplant.
Die adaptive Datenanalyse gibt in der Regel an, wie viele Forscher ihre Analysen tatsächlich durchführen, was für Statistiker eine große Enttäuschung darstellt. Wenn man dies auf statistisch gültige Weise tun könnte, würde dies die statistische Praxis revolutionieren.
Der folgende Wissenschaftsartikel behauptet, eine Methode dafür gefunden zu haben (ich entschuldige mich für die Paywall, aber wenn Sie an einer Universität sind, haben Sie wahrscheinlich Zugang): Dwork et al .
Persönlich war ich immer skeptisch gegenüber Statistikartikeln, die in Science veröffentlicht wurden , und dies ist nicht anders. Tatsächlich kann ich nach zweimaligem Lesen des Artikels, einschließlich des ergänzenden Materials, (überhaupt) nicht verstehen, warum die Autoren behaupten, dass ihre Methode eine Überanpassung verhindert.
Ich verstehe, dass sie ein Holdout-Dataset haben, das sie wiederverwenden. Sie scheinen zu behaupten, durch "Fuzzing" der Ausgabe der Bestätigungsanalyse auf dem Holdout-Datensatz wird eine Überanpassung verhindert (es ist erwähnenswert, dass das Fuzzing nur Rauschen zuzufügen scheint, wenn die berechnete Statistik der Trainingsdaten ausreichend weit ist aus der berechneten Statistik zu den Holdout-Daten ). Soweit ich das beurteilen kann, gibt es keinen wirklichen Grund, der eine Überanpassung verhindern könnte.
Habe ich mich geirrt, was die Autoren vorschlagen? Gibt es einen subtilen Effekt, den ich übersehen habe? Oder hat die Wissenschaft die bisher schlechteste statistische Praxis gebilligt?