Interpretation logistischer Regressionskoeffizienten mit einem Regularisierungsterm

8

Ich verstehe, dass die Koeffizienten einer logistischen Gleichung als ungerades Verhältnis interpretiert werden können. Wie ändert sich die Interpretation der Koeffizienten, wenn ein Regularisierungsterm zur Kontrolle der Überanpassung hinzugefügt wird?

— Jim T.
quelle

10

Die Koeffizienten, die standardmäßig mit einer logistischen Regressionsanpassung zurückgegeben werden, sind keine Quotenverhältnisse. Sie stellen die Änderung der logarithmischen Erfolgsaussichten dar, die mit einer Änderung ihrer jeweiligen Variablen um eine Einheit verbunden sind, wenn alle anderen gleich gehalten werden. Wenn Sie einen Koeffizienten potenzieren, können Sie das Ergebnis als Odds Ratio interpretieren (dies gilt natürlich nicht für den Achsenabschnitt). Mehr dazu finden Sie in meiner Antwort hier: Interpretation einfacher Vorhersagen zu Quotenverhältnissen in der logistischen Regression .

Das Hinzufügen einer Strafe zur Modellanpassung ändert (möglicherweise) den angepassten Wert der geschätzten Koeffizienten, ändert jedoch nicht die Interpretation der Koeffizienten in dem in Ihrer Frage / oben beschriebenen Sinne. *

$X_1$ $\hat\beta_1$ $X_1$ $\exp(\hat\beta_1)$ $X_1$ $\hat\beta_1$ $X_1$

— gung - Monica wieder einsetzen
quelle

1

Ich habe nie verstanden, warum Leute abstimmen, ohne einen Kommentar zu hinterlassen. Auf jeden Fall ist dies eine großartige Antwort.

— Digio

7

Regularisierte lineare Regression und regulierte logistische Regression können aus Bayes'scher Sicht gut interpretiert werden. Der Regularisierungsparameter entspricht einer Auswahl der vorherigen Verteilung auf die Gewichte, beispielsweise einer Normalverteilung, die bei Null zentriert ist und deren Standardabweichung durch die Umkehrung des Regularisierungsparameters gegeben ist. Über Ihre Trainingsdaten werden diese Verteilungen dann aktualisiert, um Ihnen schließlich die hinteren Verteilungen auf den Gewichten zu geben.

So bedeutet beispielsweise ein größerer Regularisierungsparameter, dass wir nach wie vor der Meinung sind, dass die Gewichte näher bei Null liegen sollten. Daher ist es bei diesem Aufbau weniger wahrscheinlich, dass die posterioren Verteilungen weit entfernt von Null unterstützt werden - was übereinstimmt die Intuition dessen, was Regularisierung "tun soll".

Bei den meisten Implementierungen der regulierten Regression ist die endgültige Ausgabe der Gewichte nur der erwartete Wert der posterioren Verteilungen.

Übrigens kann unregelmäßige Regression grundsätzlich genauso interpretiert werden: Es ist die Grenze, wenn der Regularisierungsparameter auf Null geht.

— Kevin H. Lin
quelle

Das ist eine gute Möglichkeit, regulierte lineare Schätzungen zu interpretieren. Ändert sich Ihre Antwort überhaupt, wenn der "Prior" (Regularisierungsparameter) basierend auf den Daten ausgewählt wird (z. B. durch Kreuzvalidierung)?

— Andrew M