Grund für die Nichtverringerung des Bias-Terms (Intercept-Terms) bei der Regression

21

Für ein lineares Modell ist der Schrumpfterm immer . $y=\beta_0+x\beta+\varepsilon$ $P(\beta)$

Was ist der Grund, warum wir den Verzerrungsbegriff nicht verkleinern ? Sollen wir den Bias-Term in den neuronalen Netzwerkmodellen verkleinern? $\beta_0$

— yliueagle
quelle

Die in scikit-learn verwendete liblineare Bibliothek für logistische Regression bestraft den Verzerrungsterm (ich denke, dies ist ein Implementierungsartefakt, Verzerrung wird als zusätzliche Eingabevariable behandelt)

— seanv507

33

Die Elemente des statistischen Lernens von Hastie et al. Definieren Sie die Gratregression wie folgt (Abschnitt 3.4.1, Gleichung 3.41): dh schließe den Intercept-Term explizit von der Ridge-Strafe aus.

\hat{β}^{r ich d G e} = \underset{β}{ein r G m ich n} {\sum_{ich = 1}^{N} (y_{ich} - β_{0} - \sum_{j = 1}^{p} x_{ich j} β_{j})^{2} + λ \sum_{j = 1}^{p} β_{j}^{2}},

$\hat \beta{}^\mathrm{ridge} = \underset{\beta}{\mathrm{argmin}}\left\{\sum_{i=1}^N(y_i - \beta_0 - \sum_{j=1}^p x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^p \beta_j^2\right\},$

β_{0}

$\beta_0$

Dann schreiben sie:

[...] beachten Sie, dass der Intercept aus der Strafzeit herausgelassen wurde. Die Bestrafung des Abschnitts würde das Verfahren von dem für gewählten Ursprung abhängig machen ; Das heißt, das Hinzufügen einer Konstante zu jedem der Ziele würde nicht einfach zu einer Verschiebung der Vorhersagen um den gleichen Betrag . $\beta_0$ $Y$ $c$ $y_i$ $c$

In der Tat führt das Hinzufügen von zu allen bei Vorhandensein des Intercept-Terms einfach dazu, dass sich auch um erhöht, und dementsprechend steigen auch alle vorhergesagten Werte um . Dies gilt nicht, wenn der Achsenabschnitt bestraft wird: muss um weniger als erhöht werden . $c$ $y_i$ $\beta_0$ $c$ $\hat y_i$ $c$ $\beta_0$ $c$

Tatsächlich gibt es einige nette und bequeme Eigenschaften der linearen Regression, die davon abhängen, dass ein geeigneter (ungepunkteter) Intercept-Term vorliegt. ZB sind der Durchschnittswert von und der Durchschnittswert von gleich, und (folglich) ist der quadratische Mehrfachkorrelationskoeffizient gleich dem Bestimmungskoeffizienten : siehe zB diesen Thread für eine Erklärung: Geometrische Interpretation des multiplen Korrelationskoeffizienten und des Bestimmungskoeffizienten . $y_i$ $\hat y_i$ $R$ $R^2$

(R)^{2} = \cos^{2} (\hat{y}, y) = \frac{‖ \hat{y} ‖^{2}}{‖ y ‖^{2}} = R^{2},

$(R)^2 = \cos^2(\hat {\mathbf y}, \mathbf y) = \frac{\|\hat{\mathbf y}\|^2}{\|\mathbf y\|^2} = R^2,$

R

$R$

R^{2}

$R^2$

Das Abfangen zu bestrafen würde dazu führen, dass all dies nicht mehr wahr ist.

— Amöbe sagt Reinstate Monica
quelle

2

Erinnern Sie sich an den Zweck des Schrumpfens oder Regularisierens. Es soll verhindert werden, dass der Lernalgorithmus die Trainingsdaten überpasst oder gleichwertig - beliebig große Parameterwerte auswählt. Dies ist wahrscheinlicher für Datensätze mit mehr als wenigen Übungsbeispielen in Gegenwart von Lärm (eine sehr interessante Diskussion über das Vorhandensein von Lärm und dessen Auswirkungen wird in "Learning from Data" von Yaser Abu-Mustafa diskutiert). Ein Modell, das mit verrauschten Daten ohne Regularisierung gelernt wurde, wird an einigen unsichtbaren Datenpunkten wahrscheinlich schlecht abschneiden.

Stellen Sie sich vor diesem Hintergrund 2D-Datenpunkte vor, die Sie in zwei Klassen einteilen möchten. Wenn alle Parameter außer den Bias-Parametern festgelegt sind, wird durch Variieren des Bias-Terms lediglich die Grenze nach oben oder unten verschoben. Sie können dies auf einen höher dimensionalen Raum verallgemeinern.

Der Lernalgorithmus kann keine willkürlich großen Werte für den Bias-Term festlegen, da dies möglicherweise zu einem Bruttoverlustwert führt (das Modell passt nicht zu den Trainingsdaten). Mit anderen Worten, bei einem bestimmten Trainingssatz können Sie (oder ein Lernalgorithmus) die Ebene nicht beliebig weit von der tatsächlichen Ebene entfernen.

Es gibt also keinen Grund, den Bias-Term zu verkleinern, der Lernalgorithmus findet den Guten ohne das Risiko einer Überanpassung.

Ein letzter Hinweis: Ich habe in einem Artikel gesehen, dass es bei der Arbeit in hochdimensionalen Räumen für die Klassifizierung nicht unbedingt erforderlich ist, den Bias-Term zu modellieren. Dies funktioniert möglicherweise für linear trennbare Daten, da mit mehr hinzugefügten Dimensionen mehr Möglichkeiten bestehen, die beiden Klassen zu trennen.

— Vladislavs Dovgalecs
quelle

Können Sie Referenzen für einige Artikel angeben, die besagen, dass bei der Arbeit in hochdimensionalen Räumen für die Klassifizierung der Verzerrungsbegriff nicht unbedingt modelliert werden muss?

— Chandresh

1

Der Intercept-Term ist absolut nicht immun gegen Schrumpfung. Die allgemeine Formulierung "Schrumpfung" (dh Regularisierung) versetzt den Regularisierungsterm in die Verlustfunktion, z.

$RSS(\beta) = \|y_i - X_i \beta \|^2$

$RegularizedLoss(\beta) = RSS(\beta) - \lambda f(\beta)$

Wobei normalerweise mit einer Lebesgue-Norm zusammenhängt und ; ein Skalar ist, der steuert, wie viel Gewicht wir auf den Schrumpfungsbegriff legen. $f(\beta)$ $\lambda$

Wenn Sie den Schrumpfterm wie folgt in die Verlustfunktion einfügen, wirkt er sich auf alle Koeffizienten im Modell aus. Ich vermute, Ihre Frage ergibt sich aus einer Verwirrung über die Notation, in der das (in ) ein Vektor aller Koeffizienten einschließlich von . Ihr lineares Modell wahrscheinlich besser geschrieben werden würde wo ist das „Design - Matrix“ , womit ich meine , es ist Ihre Daten mit einer Spalte von auf der linken Seite angehängt (die Intercept zu nehmen ). $\beta$ $P(\beta)$ $\beta_0$ $y = X \beta + \epsilon$ $X$ $1's$

Jetzt kann ich nicht mit Regularisierung für neuronale Netze sprechen. Es ist möglich, dass Sie für neuronale Netze das Schrumpfen des Bias-Terms vermeiden oder die regulierte Verlustfunktion auf andere Weise als die oben beschriebene Formulierung entwerfen möchten. Ich weiß es einfach nicht. Ich bin jedoch der festen Überzeugung, dass die Gewichtungen und Voreingenommenheitsterme gemeinsam reguliert werden.

— David Marx
quelle

2

Es kommt auf die Konvention an, aber zB The Elements of Statistical Learning von Hastie et al. Definieren Sie die Gratregression so, dass der Schnittpunkt nicht beeinträchtigt wird (siehe meine Antwort). Ich vermute, dass dies mehr Standard als sonst sein könnte.

— Amöbe sagt Reinstate Monica

1

Ich bin mir nicht sicher, ob die obige Antwort von David Marx ganz richtig ist. Gemäß Andrew Ng wird der Bias / Intercept-Koeffizient üblicherweise nicht in einer linearen Regression reguliert, und in jedem Fall macht es keinen signifikanten Unterschied, ob er reguliert wird oder nicht.

— Xenocyon
quelle

1

Ich werde die einfachste Erklärung geben und dann erweitern.

y_{t} = ε_{t}

$y_t=\varepsilon_t$

E [ε_{t}] = E [y_{t}] \neq 0

$E[\varepsilon_t]=E[y_t]\ne 0$

$\beta$

$\beta$ $\beta_0$

y_{t} = β_{0} + ε_{t}

$y_t=\beta_0+\varepsilon_t$

E [y_{t}] = β_{0} + E [ε_{t}]

$E[y_t]=\beta_0+E[\varepsilon_t]$

E [ε_{t}] = 0

$E[\varepsilon_t]=0$

β_{0} = μ = E [y_{t}]

$\beta_0=\mu=E[y_t]$

Dieses Modell ist nicht so sexy wie das Originalmodell, es ist in der Tat ziemlich albern. Es ist jedoch ein legitimes Modell. Sie könnten beispielsweise ANOVA darauf ausführen.

$\beta_0=E[y_t]$

— Aksakal
quelle