Ich bin neu bei ML. Ich wurde informiert, dass die L2-Normalisierung der Gratregression den Achsenabschnitt nicht bestraft . Wie in der Kostenfunktion: Der L2-Normalisierungsterm summiert sich nur von bis , nicht von bis . Ich habe das auch gelesen:
In den meisten Fällen (in allen Fällen?) ist es besser, nicht zu regulieren , da es unwahrscheinlich ist, dass die Überanpassung verringert und der Raum für darstellbare Funktionen verkleinert wird
Dies ergibt sich aus der letzten Antwort von user48956 von Warum ist ein lineares Regressionsmodell mit null Abschnitten besser vorhersagbar als ein Modell mit einem Abschnitt?
Ich bin verwirrt darüber, wie die Ableitung der Kostenfunktion zu lösen ist, da: wobei , und .Θ
Θθθ und sind unterschiedlich. Daher können sie aus meiner Sicht nicht gemischt werden. Und die Ableitung handelt von das . Nachdem ich gegoogelt und die Fragen in diesem Forum angesehen habe, kann ich immer noch keine Lösung finden: Kann mir jemand einen Hinweis geben? Vielen Dank im Voraus für Ihre Hilfe! Θ=(XTX+λ∗I) - 1 XTY.
Ich denke jedoch, dass es zwei schnelle Lösungen für dieses Problem gibt:
Zunächst fügen wir nicht die Spalte all 1 zu . Nämlich . Das heißt, wir nehmen den Achsenabschnitt überhaupt nicht in das Modell auf: Ich glaube, diese Methode wurde in das klassische Buch Maschinelles Lernen in Aktion von Peter Harrington übernommen, das ich gerade lese. Bei der Implementierung der Ridge-Regression (P166 und P177, wenn Sie auch das Buch haben) enthält das gesamte an die Ridge-Regression übergebene nicht die Spalte all 1.X = [ X ( 1 ) 1 X ( 1 ) 2 . . y= θ 1 X 1 + θ 2 X 2 +. . . + θ n X n . X.
Zweitens wird der Abschnitt auch in der Realität bestraft.
Die logistische Regression von scikit reguliert standardmäßig den Achsenabschnitt.
Dies kommt wiederum aus der letzten Antwort von user48956 von Warum ist ein lineares Regressionsmodell mit null Abschnitten besser vorhersagbar als ein Modell mit einem Abschnitt?
Beide Schnellkorrekturen führen zur Lösung
Kann also die Ableitung der L2-Normalisierung der Gratregression tatsächlich gelöst werden oder wird sie nur durch schnelle Korrekturen gelöst?