Wie man die Ergebnisse interpretiert, wenn sowohl Grat als auch Lasso getrennt gut abschneiden, aber unterschiedliche Koeffizienten erzeugen

Ich führe sowohl mit Lasso als auch mit Ridge ein Regressionsmodell durch (um eine diskrete Ergebnisvariable im Bereich von 0 bis 5 vorherzusagen). Bevor ich das Modell ausführe, verwende ich die SelectKBestMethode scikit-learn, um den Funktionsumfang von 250 auf 25 zu reduzieren . Ohne eine anfängliche Merkmalsauswahl ergeben sowohl Lasso als auch Ridge niedrigere Genauigkeitswerte [was möglicherweise auf die geringe Stichprobengröße von 600 zurückzuführen ist]. Beachten Sie auch, dass einige Funktionen korreliert sind.

Nach dem Ausführen des Modells stelle ich fest, dass die Vorhersagegenauigkeit bei Lasso und Ridge nahezu gleich ist. Wenn ich jedoch die ersten 10 Merkmale überprüfe, nachdem ich sie nach dem absoluten Wert der Koeffizienten geordnet habe, sehe ich, dass es höchstens% 50 Überlappung gibt.

Das heißt, da jeder Methode eine unterschiedliche Bedeutung von Merkmalen zugewiesen wurde, kann ich je nach gewähltem Modell eine völlig andere Interpretation haben.

Normalerweise repräsentieren die Funktionen einige Aspekte des Benutzerverhaltens auf einer Website. Daher möchte ich die Ergebnisse erläutern, indem ich die Merkmale (Benutzerverhalten) mit einer stärkeren Vorhersagefähigkeit gegenüber schwächeren Merkmalen (Benutzerverhalten) hervorhole. Ich weiß jedoch noch nicht, wie ich vorankommen soll. Wie soll ich mit der Interpretation des Modells umgehen? Sollte zum Beispiel beides kombiniert und das überlappende hervorgehoben werden, oder sollte ich mich für Lasso entscheiden, da es mehr Interpretierbarkeit bietet?

— Renakre
quelle

(+1) Regularisierung kann als Verschlechterung der Schätzungen einzelner Koeffizienten angesehen werden, während ihre kollektive Leistung bei der Vorhersage neuer Antworten verbessert wird. Was genau versuchst du mit deiner Interpretation zu erreichen?

— Scortchi - Monica wieder einsetzen

@ Scortchi danke für die Antwort. Ich fügte hinzu

Normally, the features represent some aspects of user behavior in a web site. Therefore, I want to explain the findings by highlighting the features (user behaviors) with stronger predictive ability vs weaker features (user behaviors) .

— renakre

+1 AFAIK Die Beziehung zwischen Gratkoeffizienten und Lambda muss nicht monoton sein, während dies im Lasso der Fall ist. Daher kann bei bestimmten Schrumpfungsniveaus der Absolutwert der Koeffizienten in Grat und Lasso stark variieren. Trotzdem würde ich mich freuen, wenn jemand einen Beweis dafür skizzieren oder ihn kurz mathematisch erklären kann

— Łukasz Grad

Stellen Sie sicher, dass Sie die "Beta" -Koeffizienten sortieren. Siehe stats.stackexchange.com/a/243439/70282. Sie können sie erhalten, indem Sie standardisierte Variablen trainieren oder später anpassen, wie im Link beschrieben.

— Chris

λ

$\lambda$

Die Ridge-Regression ermutigt alle Koeffizienten, klein zu werden. Lasso ermutigt viele / die meisten [**] Koeffizienten, Null zu werden, und einige, die nicht Null sind. Beide verringern die Genauigkeit des Trainingssatzes, verbessern jedoch die Vorhersage in gewisser Weise:

Die Ridge-Regression versucht, die Verallgemeinerung des Testsatzes zu verbessern, indem die Überanpassung verringert wird
Lasso reduziert die Anzahl der Koeffizienten ungleich Null, auch wenn dies die Leistung sowohl bei Trainings- als auch bei Testsätzen beeinträchtigt

Sie können verschiedene Koeffizienten auswählen, wenn Ihre Daten stark korreliert sind. Sie haben also möglicherweise 5 Funktionen, die korreliert sind:

Durch Zuweisen kleiner, aber nicht Null-Koeffizienten zu all diesen Merkmalen kann die Gratregression einen geringen Verlust am Trainingssatz erzielen, was plausibel auf den Testsatz verallgemeinern könnte
Lasso könnte nur eine davon auswählen, die gut mit den anderen vier korreliert. und es gibt keinen Grund, warum das Feature mit dem höchsten Koeffizienten in der Ridge-Regressionsversion ausgewählt werden sollte

[*] für eine Definition der Bedeutung 'wählen': Weist einen Koeffizienten ungleich Null zu, der immer noch ein wenig von Hand bewegt wird, da die Gratregressionskoeffizienten dazu neigen, alle ungleich Null zu sein, aber z. B. könnten einige wie 1e-8 sein und andere könnten zB 0,01 sein

$\lambda$

— Hugh Perkins
quelle

Gute Vorschläge. Ein guter Check-out ist eine Korrelationsmatrix. Die nicht überlappenden Variablen können stark korreliert sein.

— Chris

Gute Antwort! Ich bin mir jedoch nicht sicher, ob es fair ist, darauf hinzuweisen, dass Ridge allgemein versucht, die Testleistung zu verbessern, ohne dies für Lasso zu sagen. Wenn zum Beispiel das wahre Modell spärlich ist (und in der Teilmenge unserer Prädiktoren), können wir sofort erwarten, dass Lasso eine bessere Testleistung als Ridge hat

— user795305

Dies ist das Prinzip der Wette auf Sparsamkeit. Zum Beispiel sehen Sie die erste Handlung hier: Fakultät.bscb.cornell.edu

— ~

Vergleiche von Variablenauswahlmöglichkeiten (LASSO) und Regressionskoeffizienten zwischen mehreren Bootstrap-Stichproben der Daten können diese Probleme gut veranschaulichen. Bei korrelierten Prädiktoren können die von LASSO aus verschiedenen Bootstraps ausgewählten Prädiktoren sehr unterschiedlich sein und dennoch eine ähnliche Vorhersageleistung bieten. Im Idealfall sollte der gesamte Modellierungsprozess einschließlich der anfänglichen Reduzierung des Funktionsumfangs auf mehreren Bootstraps wiederholt werden, um die Qualität des Prozesses zu dokumentieren.

— EdM

λ

$\lambda$ alle Variablen aus, schrumpft jedoch genau wie der Grat.

— Richard Hardy