AIC- und Ridge-Regression können kompatibel gemacht werden, wenn bestimmte Annahmen getroffen werden. Es gibt jedoch keine einzige Methode zur Auswahl einer Schrumpfung für die Kammregression, sodass es keine allgemeine Methode zur Anwendung von AIC auf diese gibt. Die Ridge-Regression ist eine Teilmenge der Tikhonov-Regularisierung . Es gibt viele Kriterien , die zur Auswahl der Glättungsfaktoren für Tikhonov Regularisierung angewendet werden können, siehe zB dies . Um AIC in diesem Zusammenhang zu verwenden, gibt es ein Papier, das ziemlich spezifische Annahmen darüber macht, wie diese Regularisierung durchgeführt werden soll: Auswahl von auf der Informationskomplexität basierenden Regularisierungsparametern zur Lösung von schlecht konditionierten inversen Problemen . Im Einzelnen wird dies vorausgesetzt
„In einem statistischen Rahmen, ... den Wert des Regelungsparameter entschieden α und durch die maximale Wahrscheinlichkeit bestraft Verwendung (MPL) Methode .... Wenn man bedenkt unkorreliert Gaußsches Rauschen mit der Varianz σ2 und verwende die Strafe p(x)= eine komplizierte Norm, siehe Link oben , die MPL-Lösung ist die gleiche wie die von Tikhonov (1963) regulierte Lösung. "
Dann stellt sich die Frage, ob diese Annahmen getroffen werden sollten. Die Frage nach den benötigten Freiheitsgraden ist zweitrangig gegenüber der Frage, ob AIC und Gratregression in einem konsistenten Kontext verwendet werden. Ich würde vorschlagen, den Link für Details zu lesen. Ich vermeide die Frage nicht, es ist nur so, dass man viele Dinge als Kammziele verwenden kann, zum Beispiel könnte man den Glättungsfaktor verwenden, der den AIC selbst optimiert . Daher verdient eine gute Frage die andere: "Warum sollte man sich mit AIC im Kammkontext beschäftigen?" In einigen Gratregressionskontexten ist es schwierig zu erkennen, wie AIC relevant gemacht werden könnte. Beispielsweise wurde eine Gratregression angewendet, um die relative Fehlerausbreitung von b , d. H. Min [SD(b)b]der Gammaverteilung (GD) gegeben durch
GD(t;a,b)=1te−bt(bt)aΓ(a);t≥0,
[0,∞)[t1,tn]Zeitproben. Klar ist, dass dies geschieht, weil die AUC ein schlecht positioniertes Integral ist, und andernfalls, z. B. bei Verwendung von ML, die Anpassung der Gammaverteilung keine Robustheit aufweisen würde. Somit ist für diese spezielle Anwendung die maximale Wahrscheinlichkeit, also AIC, tatsächlich irrelevant. (Es wird gesagt, dass AIC für die Vorhersage und BIC für die Anpassungsgüte verwendet wird. Vorhersage und Anpassungsgüte hängen jedoch beide eher indirekt mit einem robusten Maß der AUC zusammen.)
dfλdf=pλ=0df=0λ=∞dfdf∞df
dfridge=∑(λi/(λi+λλiXTXdf