Ich habe 150 Funktionen, von denen viele stark miteinander korreliert sind. Mein Ziel ist es, den Wert einer diskreten Variablen vorherzusagen, deren Bereich 1-8 ist . Meine Stichprobengröße beträgt 550 und ich verwende die 10-fache Kreuzvalidierung.
AFAIK: Unter den Regularisierungsmethoden (Lasso, ElasticNet und Ridge) ist Ridge strenger in Bezug auf die Korrelation zwischen den Merkmalen. Deshalb habe ich erwartet, dass ich mit Ridge eine genauere Vorhersage erhalten sollte. Meine Ergebnisse zeigen jedoch, dass der mittlere absolute Fehler von Lasso oder Elastic bei 0,61 liegt, wohingegen dieser Wert 0,97 für die Gratregression beträgt . Ich frage mich, was eine Erklärung dafür wäre. Liegt das daran, dass ich viele Funktionen habe und Lasso eine bessere Leistung erbringt, weil es eine Art Funktionsauswahl vornimmt und die überflüssigen Funktionen beseitigt?