Betrachten Sie die elastische Netzregression mit einer glmnet
ähnlichen Parametrisierung der VerlustfunktionIch habe einen Datensatz mit n \ ll p (44 bzw. 3000) und verwende eine wiederholte 11-fache Kreuzvalidierung, um die optimalen Regularisierungsparameter \ alpha und \ lambda auszuwählen . Normalerweise würde ich einen quadratischen Fehler als Leistungsmetrik für den Testsatz verwenden, z. B. diese R-quadratische Metrik: L_ \ text {test} = 1- \ frac {\ lVert y_ \ text {test} - \ hat \ beta_0 - X_ \ text {test} \ hat \ beta \ rVert ^ 2} {\ lVert y_ \ text {test} - \ hat \ beta_0 \ rVert ^ 2},
Es ist klar, dass diese beiden Leistungsmetriken nicht genau gleichwertig sind, aber seltsamerweise stimmen sie nicht ganz überein:
Beachten Sie insbesondere, was bei kleinen Alphas passiert, z. B. (grüne Linie): Die maximale Testsatzkorrelation wird erreicht, wenn der Testsatz im Vergleich zu seinem Maximum ziemlich stark abfällt. Im Allgemeinen scheint für jedes gegebene Korrelation bei einem größeren als einem quadratischen Fehler maximiert zu sein .
Warum passiert es und wie geht man damit um? Welches Kriterium sollte bevorzugt werden? Hat jemand diesen Effekt erlebt?