Ja, Regularisierung kann in allen linearen Methoden verwendet werden, einschließlich Regression und Klassifikation. Ich möchte Ihnen zeigen, dass es keinen zu großen Unterschied zwischen Regression und Klassifikation gibt: Der einzige Unterschied ist die Verlustfunktion.
Insbesondere gibt es drei Hauptkomponenten der linearen Methode: Verlustfunktion, Regularisierung, Algorithmen . Wobei Verlustfunktion plus Regularisierung die Zielfunktion des Problems in Optimierungsform ist und der Algorithmus der Weg zu seiner Lösung ist (die Zielfunktion ist konvex, wir werden in diesem Beitrag nicht darauf eingehen).
L(y^,y)=(y^−y)2L(y^,y)=|y^−y|L(⋅)yy^
L(y^,y)=log(1+exp(−y^y))L(y^,y)=(1−y^y)+y{−1,1}y^y^
In der Regularisierungseinstellung, die Sie über die L1- und L2-Regularisierung erwähnt haben, gibt es auch andere Formen, auf die in diesem Beitrag nicht eingegangen wird.
Daher ist auf hohem Niveau eine lineare Methode
minimizew ∑x,yL(w⊤x,y)+λh(w)
Wenn Sie die Verlustfunktion von der Regressionseinstellung zum logistischen Verlust ersetzen, erhalten Sie die logistische Regression mit der Regularisierung.
Bei der Gratregression ist das Optimierungsproblem beispielsweise
minimizew ∑x,y(w⊤x−y)2+λw⊤w
Wenn Sie die Verlustfunktion durch logistischen Verlust ersetzen, tritt das Problem auf
minimizew ∑x,ylog(1+exp(−w⊤x⋅y))+λw⊤w
Hier haben Sie die logistische Regression mit L2-Regularisierung.
So sieht es in einem spielzeugsynthetisierten Binärdatensatz aus. Die linke Abbildung zeigt die Daten mit dem linearen Modell (Entscheidungsgrenze). Die rechte Abbildung zeigt die Zielfunktionskontur (x- und y-Achse repräsentieren die Werte für 2 Parameter.). Der Datensatz wurde aus zwei Gaußschen Werten generiert, und wir passen das logistische Regressionsmodell ohne Unterbrechung an, sodass wir in der rechten Unterabbildung nur zwei Parameter visualisieren können.
Die blauen Linien sind die logistische Regression ohne Regularisierung und die schwarzen Linien sind die logistische Regression mit L2-Regularisierung. Die blauen und schwarzen Punkte in der rechten Abbildung sind optimale Parameter für die Zielfunktion.
λ0
Hier ist ein weiteres Beispiel mit L1-Regularisierung.
Beachten Sie, dass der Zweck dieses Experiments darin besteht, zu zeigen, wie die Regularisierung in der logistischen Regression funktioniert, aber nicht, dass ein regularisiertes Modell besser ist.
λλ0
wxyy^=f(x)=w⊤x1
yy∈{−1,1}
y^=w⊤xy^yy^=w⊤x{−1,1}y^
y∈{0,1}
Den Code findest du in meiner anderen Antwort hier.
Gibt es eine intuitive Erklärung dafür, warum logistische Regression für einen perfekten Trennungsfall nicht funktioniert? Und warum behebt das Hinzufügen von Regularisierung das Problem?