Ich habe den folgenden Ausdruck schon einmal gehört:
"Optimierung ist die Wurzel allen Übels in der Statistik".
Die beste Antwort in diesem Thread gibt diese Aussage beispielsweise in Bezug auf die Gefahr einer zu aggressiven Optimierung bei der Modellauswahl wieder.
Meine erste Frage lautet wie folgt: Kann dieses Zitat jemand anderem zugeschrieben werden? (zB in der Statistikliteratur)
Soweit ich weiß, bezieht sich die Aussage auf die Risiken einer Überanpassung. Traditionelle Erkenntnisse besagen, dass eine korrekte Kreuzvalidierung bereits gegen dieses Problem vorgeht, aber es sieht so aus, als gäbe es bei diesem Problem noch mehr.
Sollten Statistiker und ML-Praktiker vorsichtig sein, ihre Modelle zu optimieren, selbst wenn sie strenge Kreuzvalidierungsprotokolle einhalten (z. B. 100 verschachtelte 10-fache CV)? Wenn ja, woher wissen wir, wann wir aufhören müssen, nach dem "besten" Modell zu suchen?