Interpretation der LASSO-Regressionskoeffizienten

Ich arbeite derzeit daran, ein Vorhersagemodell für ein binäres Ergebnis in einem Datensatz mit ~ 300 Variablen und 800 Beobachtungen zu erstellen. Ich habe auf dieser Website viel über die Probleme gelesen, die mit der schrittweisen Regression verbunden sind, und warum man sie nicht verwendet.

Ich habe die LASSO-Regression und ihre Fähigkeit zur Funktionsauswahl gelesen und konnte sie erfolgreich mithilfe des "caret" -Pakets und "glmnet" implementieren.

Ich bin in der Lage, den Koeffizienten des Modells mit dem Optimum lambdaund alphaaus "caret" zu extrahieren ; Ich bin jedoch nicht mit der Interpretation der Koeffizienten vertraut.

Werden die LASSO-Koeffizienten nach der gleichen Methode wie die logistische Regression interpretiert?
Wäre es angemessen, die von LASSO ausgewählten Funktionen für die logistische Regression zu verwenden?

BEARBEITEN

Interpretation der Koeffizienten wie bei den potenzierten Koeffizienten aus der LASSO-Regression als logarithmische Wahrscheinlichkeit für eine Änderung des Koeffizienten um 1 Einheit, während alle anderen Koeffizienten konstant gehalten werden.

https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

— Michael Luu
quelle

Können Sie ein wenig ausfüllen, was Sie unter "genauso interpretiert wie logistische Regression" verstehen? Es wäre sehr nützlich, genau zu wissen, welche Interpretationen Sie verallgemeinern möchten.

— Matthew Drury

@Matthew Drury - Vielen Dank, dass Sie sich die Zeit genommen haben, mir zu helfen, da meine Kursarbeit nie über LASSO ging. Nach dem, was mir während meiner Abschlusskurse beigebracht wurde, ergeben die potenzierten Koeffizienten aus einer logistischen Regression im Allgemeinen die logarithmischen Chancen einer Erhöhung des Koeffizienten um 1 Einheit, während alle anderen Koeffizienten konstant gehalten werden.

— Michael Luu

In "caret" wählen Sie

und

. Woher kommt

? Ist es wahrscheinlich ein Hyperparameter eines elastischen Netzes (das relative Gewicht von LASSO gegenüber der Gratstrafe) (in diesem Fall würden Sie tatsächlich ein elastisches Netz anstelle von LASSO verwenden)?

α

$\alpha$

λ

$\lambda$

α

$\alpha$

— Richard Hardy

Soweit ich das beurteilen kann, wurden in den meisten LASSO-Implementierungen keine Signifikanztests für Koeffizienten eingeführt. Könnte ein Unterschied nicht darin bestehen, dass wir zwar statistisch signifikante Variablen in OLS bestimmen können, dies jedoch mit LASSO nicht tun können, außer eine schwächere Aussage darüber zu treffen, dass die LASSO-Koeffizienten der ausgewählten ausgewählten Variablen die "wichtigen" zu berücksichtigenden Variablen sind?

— Godspeed

Werden die LASSO-Koeffizienten nach der gleichen Methode wie die logistische Regression interpretiert?

Lassen Sie mich umformulieren: Werden die LASSO-Koeffizienten genauso interpretiert wie beispielsweise die ~~OLS-~~ Maximum-Likelihood-Koeffizienten in einer logistischen Regression?

LASSO (eine bestrafte Schätzmethode) zielt darauf ab, die gleichen Größen (Modellkoeffizienten) zu ~~schätzen wie beispielsweise die~~ maximale Wahrscheinlichkeit von ~~OLS~~ (eine nicht bestrafte Methode). Das Modell ist das gleiche und die Interpretation bleibt gleich. Die numerischen Werte von LASSO unterscheiden sich normalerweise von denen der maximalen Wahrscheinlichkeit von ~~OLS~~ : Einige sind näher an Null, andere sind genau Null. Wenn ein vernünftiger Betrag an Bestrafung angewendet wurde, liegen die LASSO-Schätzungen näher an den wahren Werten als die ~~OLS-~~ Maximum-Likelihood-Schätzungen, was ein wünschenswertes Ergebnis ist.

Wäre es angemessen, die von LASSO ausgewählten Funktionen für die logistische Regression zu verwenden?

Damit ist kein Problem verbunden, aber Sie können LASSO nicht nur zur Merkmalsauswahl, sondern auch zur Koeffizientenschätzung verwenden. Wie oben erwähnt, sind LASSO-Schätzungen möglicherweise genauer als beispielsweise ~~OLS-~~ Maximum-Likelihood-Schätzungen.

— Richard Hardy
quelle

Vielen Dank für diese Antwort! Macht viel Sinn! Bitte entschuldigen Sie mein begrenztes Wissen in dieser Angelegenheit. Wie Sie in einem anderen Kommentar erwähnt haben, verwende ich möglicherweise eher ein elastisches Netz als LASSO über Caret, da es das optimale Lambda und Alpha auswählt. Würde das auch für die Koeffizienten gelten?

— Michael Luu

Ja es würde. Die Grundlogik bleibt gleich.

— Richard Hardy

Sie schreiben "Interpretation bleibt gleich". Könnten Sie mir helfen, diesen Punkt zu verstehen? Es scheint mir, dass die Interpretation von OLS-Koeffizienten in einer multiplen Regressionseinstellung auf partiellen Regressionskurven beruht . Diese Eigenschaft gilt jedoch nicht für Lasso-Koeffizienten, was mich zu der Annahme veranlasst, dass die Interpretation anders wäre.

— user795305

@Ben, Wenn wir ein zugrunde liegendes statistisches Modell annehmen, können wir seine Parameter auf verschiedene Arten schätzen, wobei zwei beliebte OLS und Lasso sind. Die geschätzten Koeffizienten zielen auf dieselben Ziele ab, und beide weisen einen Schätzfehler auf (der, wenn er quadriert wird, in Vorspannung und Varianz zerlegt werden kann), so dass in diesem Sinne ihre Interpretation dieselbe ist. Jetzt sind die Methoden natürlich nicht dieselben, sodass Sie unterschiedliche geschätzte Koeffizientenwerte erhalten. Wenn Sie sich für die Methoden und ihre algebraischen und geometrischen Interpretationen interessieren, sind diese nicht gleich. Die thematischen Interpretationen sind jedoch dieselben.

— Richard Hardy

(1, \dots, p)^{T}

$(1, \dots, p)^T$