Warum bestraft die Regularisierung in der linearen Regression auch die Parameterwerte?

Ich lernte gerade die Gratregression und war etwas verwirrt über die Bestrafung komplexerer Modelle (oder die Definition eines komplexeren Modells).

Soweit ich weiß, korreliert die Komplexität des Modells nicht unbedingt mit der Polynomordnung. Also: ist ein komplexeres Modell als:

2 + 3 + 4 x^{2} + 5 x^{3} + 6 x^{4}

$2 + 3+ 4x^2 + 5x^3 + 6x^4$

5 x^{5}

$5x^5$

Und ich weiß, dass der Punkt der Regularisierung darin besteht, die Modellkomplexität niedrig zu halten. wir zum Beispiel an, wir haben ein Polynom 5. Ordnung

f (x; w) = w_{0} + w_{1} x + w_{2} x^{2} + w_{3} x^{3} + w_{4} x^{4} + w_{5} x^{5}

$f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5$

Je mehr Parameter 0 sind, desto besser.

Was ich aber nicht verstehe ist, wenn es das gleiche Ordnungspolynom war, warum werden niedrigere Parameterwerte weniger bestraft? Warum also:

2 + 5 x + x^{3}

$2 + 5x + x^3$ ist ein weniger komplexes Modell als

433 + 342 x + 323 x^{3}

$433+ 342x + 323x^3$ beide haben dieselbe Polynomreihenfolge, und die Parameterwerte hängen einfach von den Daten ab.

Vielen Dank!

regression regularization hyperparameter

— Physco111
quelle

Die Parameterwerte hängen einfach von den Daten ab

Dies ist der Schlüsselteil Ihrer Frage. Hier sind Sie verwirrt.

Ja, die Parameterwerte hängen von den Daten ab. Die Daten werden jedoch festgelegt, wenn wir ein Modell anpassen. Mit anderen Worten, wir passen ein Modell an, das von den Beobachtungen abhängig ist . Es ist nicht sinnvoll, die Komplexität verschiedener Modelle zu vergleichen , die an verschiedene Datensätze angepasst wurden .

Und im Kontext eines festen Datensatzes ein Modell

2 + 5 x + x^{3}

$2 + 5x + x^3$

ist in der Tat näher an dem einfachsten Modell, nämlich dem Flat-Zero-Modell, als

433 + 342 x + 323 x^{3},

$433+ 342x + 323x^3,$

und dies gilt unabhängig vom Umfang Ihrer Beobachtungen.

Im Übrigen wird der Achsenabschnitt ( und in Ihrem Beispiel) häufig nicht bestraft, z. B. in den meisten Lasso-Formulierungen, da wir ihn normalerweise gut variieren lassen können, um den Gesamtdurchschnitt der Beobachtungen zu erfassen. Mit anderen Worten, wir verkleinern das Modell in Richtung des Durchschnitts der Beobachtungen, nicht in Richtung eines vollständigen Nullmodells (wobei die Null oft willkürlich ist). In diesem Sinne würden ein Flat und ein Flat Modell als gleich komplex angesehen. $2$ $433$ $2$ $433$

— Stephan Kolassa
quelle

Die niedrigeren Größenkoeffizienten sind weiter von der flachen Null entfernt als die höheren Koeffizienten? Ist das ein Tippfehler oder verstehe ich falsch, warum ein Modell, das weiter von der Konstante entfernt ist, nicht so sehr bestraft wird wie ein Modell, das der Konstanten näher kommt?

— RM

Entschuldigung, das war in der Tat ein Tippfehler. Lass mich bearbeiten. Vielen Dank für den Hinweis!

— Stephan Kolassa