Sei nicht beunruhigt. Logistische Regression (LR) kann ein Klassifizierungsschema sein. LR minimiert den folgenden Verlust:
wobei und der Merkmalsvektor und der sind, zum Beispiel aus Ihrem Trainingssatz. Diese Funktion ergibt sich aus der gemeinsamen Wahrscheinlichkeit aller Trainingsbeispiele, was ihre probabalistische Natur erklärt, obwohl wir sie zur Klassifizierung verwenden. In der Gleichung ist Ihr Gewichtsvektor und Ihre Vorspannung. Ich vertraue darauf, dass Sie wissen, was
minw,b∑i=1nlog(1+exp(−yifw,b(xi)))+λ∥w∥2
xiyiiwbfw,b(xi)ist. Der letzte Term im Minimierungsproblem ist der Regularisierungsterm, der unter anderem die Generalisierung des Modells steuert.
Angenommen, alle Ihre sind normalisiert, beispielsweise durch Abweichung von der Größe von , ist es ziemlich einfach zu erkennen, welche Variablen wichtiger sind: diejenigen, die größer sind als die anderen oder (auf der negativen Seite) ) kleiner von den anderen. Sie beeinflussen den Verlust am meisten.xx
Wenn Sie die wirklich wichtigen Variablen finden und dabei nichts dagegen haben, ein paar , können Ihre Verlustfunktion regulieren:
ℓ1
minw,b∑i=1nlog(1+exp(−yifw,b(xi)))+λ|w|
Die Derivate oder der Regularizer sind recht einfach, daher werde ich sie hier nicht erwähnen. Wenn Sie diese Form der Regularisierung und ein geeignetes werden die weniger wichtigen Elemente in auf Null gesetzt und die anderen nicht.λw
Ich hoffe das hilft. Fragen Sie, wenn Sie weitere Fragen haben.