Für ein lineares Modell ist der Schrumpfterm immer .
Was ist der Grund, warum wir den Verzerrungsbegriff nicht verkleinern ? Sollen wir den Bias-Term in den neuronalen Netzwerkmodellen verkleinern?
Für ein lineares Modell ist der Schrumpfterm immer .
Was ist der Grund, warum wir den Verzerrungsbegriff nicht verkleinern ? Sollen wir den Bias-Term in den neuronalen Netzwerkmodellen verkleinern?
Antworten:
Die Elemente des statistischen Lernens von Hastie et al. Definieren Sie die Gratregression wie folgt (Abschnitt 3.4.1, Gleichung 3.41): dh schließe den Intercept-Term explizit von der Ridge-Strafe aus. β 0
Dann schreiben sie:
[...] beachten Sie, dass der Intercept aus der Strafzeit herausgelassen wurde. Die Bestrafung des Abschnitts würde das Verfahren von dem für gewählten Ursprung abhängig machen ; Das heißt, das Hinzufügen einer Konstante zu jedem der Ziele würde nicht einfach zu einer Verschiebung der Vorhersagen um den gleichen Betrag . Y c y i c
In der Tat führt das Hinzufügen von zu allen bei Vorhandensein des Intercept-Terms einfach dazu, dass sich auch um erhöht, und dementsprechend steigen auch alle vorhergesagten Werte um . Dies gilt nicht, wenn der Achsenabschnitt bestraft wird: muss um weniger als erhöht werden .y i β 0 C y i c β 0 C
Tatsächlich gibt es einige nette und bequeme Eigenschaften der linearen Regression, die davon abhängen, dass ein geeigneter (ungepunkteter) Intercept-Term vorliegt. ZB sind der Durchschnittswert von und der Durchschnittswert von gleich, und (folglich) ist der quadratische Mehrfachkorrelationskoeffizient gleich dem Bestimmungskoeffizienten : siehe zB diesen Thread für eine Erklärung: Geometrische Interpretation des multiplen Korrelationskoeffizienten und des Bestimmungskoeffizienten .y i R R 2 ( R ) 2 = cos 2 ( y , y ) = ‖ y ‖ 2RR2
Das Abfangen zu bestrafen würde dazu führen, dass all dies nicht mehr wahr ist.
Erinnern Sie sich an den Zweck des Schrumpfens oder Regularisierens. Es soll verhindert werden, dass der Lernalgorithmus die Trainingsdaten überpasst oder gleichwertig - beliebig große Parameterwerte auswählt. Dies ist wahrscheinlicher für Datensätze mit mehr als wenigen Übungsbeispielen in Gegenwart von Lärm (eine sehr interessante Diskussion über das Vorhandensein von Lärm und dessen Auswirkungen wird in "Learning from Data" von Yaser Abu-Mustafa diskutiert). Ein Modell, das mit verrauschten Daten ohne Regularisierung gelernt wurde, wird an einigen unsichtbaren Datenpunkten wahrscheinlich schlecht abschneiden.
Stellen Sie sich vor diesem Hintergrund 2D-Datenpunkte vor, die Sie in zwei Klassen einteilen möchten. Wenn alle Parameter außer den Bias-Parametern festgelegt sind, wird durch Variieren des Bias-Terms lediglich die Grenze nach oben oder unten verschoben. Sie können dies auf einen höher dimensionalen Raum verallgemeinern.
Der Lernalgorithmus kann keine willkürlich großen Werte für den Bias-Term festlegen, da dies möglicherweise zu einem Bruttoverlustwert führt (das Modell passt nicht zu den Trainingsdaten). Mit anderen Worten, bei einem bestimmten Trainingssatz können Sie (oder ein Lernalgorithmus) die Ebene nicht beliebig weit von der tatsächlichen Ebene entfernen.
Es gibt also keinen Grund, den Bias-Term zu verkleinern, der Lernalgorithmus findet den Guten ohne das Risiko einer Überanpassung.
Ein letzter Hinweis: Ich habe in einem Artikel gesehen, dass es bei der Arbeit in hochdimensionalen Räumen für die Klassifizierung nicht unbedingt erforderlich ist, den Bias-Term zu modellieren. Dies funktioniert möglicherweise für linear trennbare Daten, da mit mehr hinzugefügten Dimensionen mehr Möglichkeiten bestehen, die beiden Klassen zu trennen.
Der Intercept-Term ist absolut nicht immun gegen Schrumpfung. Die allgemeine Formulierung "Schrumpfung" (dh Regularisierung) versetzt den Regularisierungsterm in die Verlustfunktion, z.
Wobei normalerweise mit einer Lebesgue-Norm zusammenhängt und ; ein Skalar ist, der steuert, wie viel Gewicht wir auf den Schrumpfungsbegriff legen.λ
Wenn Sie den Schrumpfterm wie folgt in die Verlustfunktion einfügen, wirkt er sich auf alle Koeffizienten im Modell aus. Ich vermute, Ihre Frage ergibt sich aus einer Verwirrung über die Notation, in der das (in ) ein Vektor aller Koeffizienten einschließlich von . Ihr lineares Modell wahrscheinlich besser geschrieben werden würde wo ist das „Design - Matrix“ , womit ich meine , es ist Ihre Daten mit einer Spalte von auf der linken Seite angehängt (die Intercept zu nehmen ).P ( β ) β 0 y = X β + ϵ X 1 ' s
Jetzt kann ich nicht mit Regularisierung für neuronale Netze sprechen. Es ist möglich, dass Sie für neuronale Netze das Schrumpfen des Bias-Terms vermeiden oder die regulierte Verlustfunktion auf andere Weise als die oben beschriebene Formulierung entwerfen möchten. Ich weiß es einfach nicht. Ich bin jedoch der festen Überzeugung, dass die Gewichtungen und Voreingenommenheitsterme gemeinsam reguliert werden.
Ich bin mir nicht sicher, ob die obige Antwort von David Marx ganz richtig ist. Gemäß Andrew Ng wird der Bias / Intercept-Koeffizient üblicherweise nicht in einer linearen Regression reguliert, und in jedem Fall macht es keinen signifikanten Unterschied, ob er reguliert wird oder nicht.