Warum L1-Regularisierung über L2 verwenden?


10

ich ein lineares Regressionsmodell mit einer Verlustfunktion durchführe, warum sollte ich anstelle der Regularisierung verwenden?L.1L.2

Ist es besser, eine Überanpassung zu verhindern? Ist es deterministisch (also immer eine einzigartige Lösung)? Ist es besser bei der Auswahl von Features (weil spärliche Modelle hergestellt werden)? Verteilt es die Gewichte auf die Merkmale?


2
L2 führt keine Variablenauswahl durch, daher ist L1 definitiv besser darin.
Michael M

Antworten:


5

Grundsätzlich fügen wir einen Regularisierungsterm hinzu, um zu verhindern, dass die Koeffizienten so perfekt zur Überanpassung passen.

Der Unterschied zwischen L1 und L2 ist, dass L1 die Summe der Gewichte ist und L2 nur die Summe des Quadrats der Gewichte ist.

L1 kann nicht in gradientenbasierten Ansätzen verwendet werden, da es im Gegensatz zu L2 nicht differenzierbar ist

L1 hilft bei der Feature-Auswahl in spärlichen Feature-Räumen. Bei der Feature-Auswahl muss bekannt sein, welche Features hilfreich und welche redundant sind.

Der Unterschied zwischen ihren Eigenschaften kann wie folgt zusammengefasst werden:

l1 vs l2


Es ist nicht wahr, dass "L1 nicht in gradientenbasierten Ansätzen verwendet werden kann". Keras unterstützt es zum Beispiel. Ja, die Ableitung ist immer konstant, so dass es für den Gradientenabstieg schwieriger ist, das Minimum zu finden. Aber Regularisierung ist ein kleiner Begriff innerhalb der Verlustfunktion, daher ist er im großen Schema der Dinge nicht sehr wichtig.
Ricardo Cruz

-1

L2 hat einen sehr wichtigen Vorteil gegenüber L1, nämlich die Invarianz gegenüber Rotation und Skalierung.

Dies ist besonders wichtig bei der geografischen / physischen Anwendung.

Angenommen, Ihr Techniker hat Ihren Sensor versehentlich in einem 45-Grad-Winkel installiert. L1 wäre betroffen, während L2 (euklidischer Abstand) gleich bleibt.


4
Dies ist überhaupt keine Antwort auf die Frage.
Brose

Könnten Sie bitte die Invarianz erklären?
Aneesh Joshi

@Chati, die Frage ist über Regularisierung. Sie verwechseln es mit anderen Verwendungen von 1-Norm und 2-Norm in Verlustfunktionen.
Ricardo Cruz
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.