Warum sehen wir nur und Regularisierung aber nicht andere Normen?

Ich bin nur neugierig, warum es normalerweise nur und Regularisierungen gibt. Gibt es Beweise, warum diese besser sind? $L_1$ $L_2$

lasso regularization ridge-regression

— user10024395
quelle

(+1) Ich habe diese Frage nicht speziell untersucht, aber die Erfahrung mit ähnlichen Situationen legt nahe, dass es eine gute qualitative Antwort geben kann: Alle Normen, die am Ursprung als zweite differenzierbar sind, sind lokal äquivalent, von denen die Norm ist der Standard. Alle anderen Normen sind am Ursprung nicht unterscheidbar und reproduziert qualitativ ihr Verhalten. Das deckt den Spielraum ab. Tatsächlich nähert eine lineare Kombination einer und Norm eine beliebige Norm der zweiten Ordnung am Ursprung an - und dies ist das Wichtigste bei der Regression ohne äußere Residuen.

L^{2}

$L^2$

L^{1}

$L^1$

L^{1}

$L^1$

L^{2}

$L^2$

— whuber

Ja, das ist im Wesentlichen Taylors Satz.

— whuber

Die Prämisse der Frage ist falsch: Andere -Normale werden verwendet, wenn auch viel seltener.

ℓ_{p}

$\ell_p$

— Firebug

Die von @whuber erwähnte lineare Kombination wird oft als elastisches Netz bezeichnet .

— Luca Citi

Unter den Lp-Normen bekommt auch eine Menge Kilometer.

L^{\infty}

$L^\infty$

— user795305

Antworten:

Zusätzlich zu den Kommentaren von @ whuber (*).

Das Buch von Hastie et al. Statistical learning with Sparsity diskutiert dies. Sie verwenden auch die sogenannte Norm (Anführungszeichen, da dies keine Norm im engeren mathematischen Sinne ist (**)), die einfach die Anzahl der Nicht-Null-Komponenten eines Vektors zählt. $L_0$

In diesem Sinne wird die Norm für die Variablenauswahl verwendet, aber sie ist zusammen mit den Normen mit nicht konvex, so dass eine Optimierung schwierig ist. Sie argumentieren , (ein Argument , das ich kommen denke von Donohoe in Compressed Sensing) , dass die Norm, das heißt, das lasso, ist die beste convexification der „Norm“ ( „die nächste konvexe Lockerung des besten Subgruppenauswahl“). In diesem Buch wird auch auf einige Verwendungen anderer Normen . Die Einheitenkugel in der -Norm mit sieht so aus $L_0$ $l_q$ $q<1$ $L_1$ $L_0$ $L_q$ $l_q$ $q<1$

(Bild aus Wikipedia), während eine bildliche Erklärung, warum das Lasso eine variable Auswahl bieten kann, ist

Dieses Bild stammt aus dem oben genannten Buch. Wie Sie sehen, ist es im Lasso-Fall (der als Diamant gezeichneten Einheitskugel) viel wahrscheinlicher, dass die ellipsoiden (Summe der Quadrate) Konturen den Diamanten zuerst an einer der Ecken berühren. Im nicht-konvexen Fall (erste Einheitskugelfigur) ist es sogar noch wahrscheinlicher, dass sich die erste Berührung zwischen Ellipsoid und Einheitskugel an einer der Ecken befindet, sodass in diesem Fall die variable Auswahl noch mehr im Vordergrund steht als beim Lasso.

Wenn Sie dieses "Lasso mit nicht-konvexer Strafe" in Google ausprobieren, erhalten Sie viele Probleme mit nicht-konvexer Strafe wie mit . $l_q$ $q < 1$

(*) Der Vollständigkeit halber kopiere ich in Whubers Kommentare hier:

Ich habe diese Frage nicht speziell untersucht, aber die Erfahrung mit ähnlichen Situationen legt nahe, dass es eine gute qualitative Antwort geben kann: Alle Normen, die am Ursprung als zweite differenzierbar sind, sind lokal äquivalent zueinander, wobei die Norm der Standard ist. Alle anderen Normen sind am Ursprung nicht unterscheidbar und reproduziert qualitativ ihr Verhalten. Das deckt den Spielraum ab. In der Tat eine lineare Kombination einer und annähert Norm jede Norm zweite Ordnung im Ursprung - und das ist das, was in der Regression ohne Rand Residuen am wichtigsten ist . $L_2$ $L_1$ $L_1$ $L_2$

(**) Der - "Norm" fehlt die Homogenität, die eines der Axiome für Normen ist. Homogenität bedeutet für dass. $l_0$ $\alpha \ge 0$ $\| \alpha x \| = \alpha \| x \|$

— kjetil b halvorsen
quelle

@kjetilbhalvorsen Vielen Dank für Ihre fundierte Antwort. Ich wähle die ungewöhnliche Hochstellung, um mit der Frage und dem Titel übereinzustimmen. Natürlich können Sie es so schreiben, wie Sie es möchten.

— Ferdi

@kjetilbhalvorsen Können Sie Whubers Kommentar etwas näher erläutern? Es ist allgemein bekannt, dass die Norm im Ursprung nicht differenzierbar ist (betrachten Sie beispielsweise ). Es ist auch nicht klar, was unter „lokaler Gleichwertigkeit“ von Normen zu verstehen ist. Referenzen sind, gelinde gesagt, notwendig.

L^{2}

$L^2$

x \mapsto | x |

$x \mapsto |x|$

— Olivier

@Olivier Die -Norm ist am Ursprung unterscheidbar, Sie denken an die -Norm.

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

— Firebug

@Firebug Nein. Ich denke über die Norm in 1-Dimension nach, die dort die gleiche ist wie die Norm. Vermisse ich etwas?

L^{2}

$L^2$

L^{1}

$L^1$

— Olivier

@Olivier Oh, du hast tatsächlich recht. Ich habe es falsch verstanden, weil das Quadrat -norm tatsächlich verwendet wird und es überall differenzierbar ist.

ℓ_{2}

$\ell_2$

— Firebug

Ich denke, die Antwort auf die Frage hängt stark davon ab, wie Sie "besser" definieren. Wenn ich richtig interpretiere, möchten Sie wissen, warum diese Normen im Vergleich zu anderen Optionen so häufig auftreten. In diesem Fall lautet die Antwort einfach. Die Intuition hinter der Regularisierung ist, dass ich einen Vektor habe und ich möchte, dass dieser Vektor in gewissem Sinne "klein" ist. Wie beschreibt man die Größe eines Vektors? Nun, Sie haben die Wahl:

Zählen Sie, wie viele Elemente es hat ? $(L_0)$
Addieren Sie alle Elemente ? $(L_1)$
Messen Sie, wie "lang" der "Pfeil" ist ? $(L_2)$
Verwenden Sie die Größe des größten Elements ? $(L_\infty)$

Sie könnten alternative Normen wie , aber sie haben keine freundlichen, physikalischen Interpretationen wie die oben genannten. $L_3$

In dieser Liste hat die Norm zufällig nette, geschlossene analytische Lösungen für Dinge wie Kleinste-Quadrate-Probleme. Ohne unbegrenzte Rechenleistung wäre man sonst kaum in der Lage, Fortschritte zu erzielen. Ich würde spekulieren, dass das visuelle "Länge des Pfeils" auch für Menschen attraktiver ist als andere Größenmaße. Auch wenn sich die Norm, die Sie für die Regularisierung wählen, auf die Art der Residuen auswirkt, die Sie mit einer optimalen Lösung erhalten, glaube ich nicht, dass sich die meisten Menschen a) dessen bewusst sind oder b) dies bei der Formulierung ihres Problems gründlich berücksichtigen. An diesem Punkt erwarte ich, dass die meisten Leute weil es "das ist, was jeder tut". $L_2$ $L_2$

Eine Analogie wäre die Exponentialfunktion, - diese zeigt sich buchstäblich überall in der Physik, Wirtschaft, Statistik, maschinellem Lernen oder einem anderen mathematisch gesteuerten Bereich. Ich fragte mich für immer, warum alles im Leben mit Exponentialen beschrieben zu werden schien, bis mir klar wurde, dass wir Menschen einfach nicht so viele Tricks im Ärmel haben. Exponentiale haben sehr nützliche Eigenschaften für die Ausführung von Algebra und Kalkül und sind daher die Nummer 1 in der Toolbox eines jeden Mathematikers, wenn er versucht, etwas in der realen Welt zu modellieren. Es mag sein, dass Dinge wie die Dekohärenzzeit durch ein Polynom höherer Ordnung "besser" beschrieben werden, aber mit diesen ist es relativ schwierig, eine Algebra zu erstellen. Letztendlich geht es darum, dass Ihr Unternehmen Geld verdient - das Exponential ist einfacher und gut genug. $e^x$

Ansonsten hat die Wahl der Norm sehr subjektive Auswirkungen, und es liegt an Ihnen als Person, die das Problem angibt, zu definieren, was Sie in einer optimalen Lösung bevorzugen. Interessiert es Sie mehr, dass alle Komponenten in Ihrem Lösungsvektor eine ähnliche Größe haben oder dass die Größe der größten Komponente so klein wie möglich ist? Diese Wahl hängt von dem spezifischen Problem ab, das Sie lösen.

— Roter Panda
quelle

Der Hauptgrund für das Sehen meist und Normen ist , dass sie die Mehrheit der aktuellen Anwendungen abdecken. Zum Beispiel kann die Norm die auch als taxicab Norm , ein Gitter geradlinige Verbindungs Norm enthält die absolute Wert Norm . $L_1$ $L_2$ $L_1$

$L_2$ Normen sind neben den kleinsten Quadraten auch die euklidischen Abstände im Raum $n$ sowie die komplexe variable Norm . Darüber hinaus werden Tikhonov-Regularisierung und Gratregression , dh Anwendungen, die , häufig als Normen betrachtet . $\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$ $L_2$

Wikipedia gibt Auskunft über diese und die anderen Normen . Erwähnenswert sind . Die verallgemeinerte Norm, die Norm, wird auch als einheitliche Norm bezeichnet . $L_0$ $L_p$ $L_\infty$

— Carl
quelle