Vorspannungs- und Varianz-Eigenschaften der Normalisierung von gegen


7

Sollte ich beim Übergang von der zur Normalisierung in der linearen Regression mehr Verzerrung oder Varianz erwarten? Beachten Sie, dass die Vorspannung ein Zeichen für eine Unteranpassung ist und die Varianz ein Zeichen für eine Überanpassung ist. Nehmen Sie eine Konstante λ an.L2L1

Ich suche hier eine allgemeine Faustregel. Wenn es keinen gibt und die Antwort von einigen anderen Faktoren abhängt, die ich nicht berücksichtigt habe, erklären Sie dies bitte.


+1 Behalten wir das gleiche ? λ
Haitao Du

2
Ich denke, das ist zu weit gefasst, um verantwortlich zu sein. Haben Sie weitere Details zum Problem?
Richard Hardy

1
Ich suche nach einer allgemeinen Faustregel, die absichtlich vage ist. Wenn dies bedeutet, dass es keine Antwort gibt, es sei denn, es gibt weitere Details, ist dies akzeptabel. Ich wäre gespannt, welche Details hinzugefügt werden müssten, um zu einem Ergebnis zu kommen.
Max

Antworten:


1

Die Varianz wird zunehmen, das Problem bei der L1-Regularisierung besteht darin, dass einige der Koeffizienten höchst unvorhersehbar sind. Die Antwort hängt davon ab, wie stark Ihre Regularisierung ist (λWert). Ich habe eine Sinuswelle mit Gaußschem Rauschen mit verschiedenen Samen erzeugt und was beobachtet wird, ist genauso niedrigλ Wert Die l1-Norm hat eine geringere Varianz als λ Werte erhöhen die l2-Norm hat eine geringere Varianz.
Geben Sie hier die Bildbeschreibung ein

Wie Sie im Bild sehen können, ist das Alpha der Regularisierungskoeffizient. beimα=1e15entsprechend sehen wir den großen Unterschied zwischen den Rigde-Regressionskoeffizienten, aber wenn Alpha zunimmt, nimmt die Abweichung im Grat drastisch ab. aber wennα=10Das Lasso und der Grat weisen beide eine geringere Varianz auf. Wenn das Alpha abnimmt, nimmt die Varianz des Kamms drastisch zu.

PS: Ich habe mehrmals mit diesem Setup experimentiert und der Trend ist konsistent.
Wenn Sie also Ihre Frage beantworten, erhöht sich die Varianz, wenn Sie vom L1- zum L2-Regularisierer wechseln (und das Ausmaß der Erhöhung hängt davon abλ Wert.)

Geben Sie hier die Bildbeschreibung ein

auch ich habe die dot produkte von hinzugefügt W vector.just um zu sehen, wie unterschiedlich die w. Die diagonalen Einträge sind -ve, was besagt, dass es einen großen Unterschied zwischen den gibtWs. Dies wird durch eine detailliertere Analyse weiter ausgebaut.


Haben Sie eine Referenz dafür (außer Ihren eigenen Simulationen)?
kjetil b halvorsen

Nein, ich habe keine Referenzen
Vivek Barsopia
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.