Am meisten (und am häufigsten) ärgert mich die "Validierung", die auf Verallgemeinerungsfehler von Vorhersagemodellen abzielt, bei denen die Testdaten nicht unabhängig sind (z. B. typischerweise mehrere Messungen pro Patient in den Daten, Messungen außerhalb des Bootstraps oder keine Aufteilung der Kreuzvalidierung) Patienten ).
Noch ärgerlicher sind Arbeiten, die solche fehlerhaften Kreuzvalidierungsergebnisse liefern, sowie ein unabhängiges Testset, das die überoptimistische Tendenz der Kreuzvalidierung zeigt, aber nicht ein einziges Wort darüber, dass das Design der Kreuzvalidierung falsch ist ...
(Ich würde mich sehr freuen, wenn die gleichen Daten vorliegen würden. "Wir wissen, dass die Kreuzvalidierung Patienten aufteilen sollte, aber wir stecken in einer Software, die dies nicht zulässt. Deshalb haben wir zusätzlich eine wirklich unabhängige Gruppe von Testpatienten getestet ")
(Mir ist auch bewusst, dass Bootstrapping = Resampling mit Ersetzung in der Regel besser ist als Kreuzvalidierung = Resampling ohne Ersetzung. Wir haben jedoch für spektroskopische Daten (simulierte Spektren und leicht künstliche Modelleinstellungen, aber reale Spektren) festgestellt, dass die Kreuzvalidierung wiederholt / iteriert wurde und nicht -of-bootstrap hatte eine ähnliche allgemeine Unsicherheit, oob hatte mehr Voreingenommenheit, aber weniger Varianz - zum Umrechnen betrachte ich dies aus einer sehr pragmatischen Perspektive: Die wiederholte Kreuzvalidierung im Vergleich zu Out-of-Bootstrap spielt keine Rolle, solange es nicht so viele Papiere gibt aufgrund der begrenzten Stichprobengröße weder patientenseitig aufgeteilt noch zufällige Unsicherheiten melden / diskutieren / erwähnen.)
Abgesehen davon, dass dies falsch ist, hat dies auch den Nebeneffekt, dass Menschen, die eine ordnungsgemäße Validierung durchführen, häufig verteidigen müssen, warum ihre Ergebnisse so viel schlechter sind als all diese anderen Ergebnisse in der Literatur.