Sparsity-induzierende Regularisierung für stochastische Matrizen


10

Es ist bekannt (z. B. auf dem Gebiet der Druckabtastung ), dass die Norm "sparsity-induzierend" ist, in dem Sinne, dass wenn wir die funktionale (für feste Matrix und Vektor ) minimieren für groß genug \ lambda> 0 , wir haben wahrscheinlich für viele Auswahlmöglichkeiten von A , \ vec {b} und \ lambda viele genau null Einträge im resultierenden \ vec {x} .L1Ab

fA,b(x)=Axb22+λx1
λ>0Abλx

Aber wenn wir minimieren fA,b unter der Bedingung , dass die Einträge von x sind positiv und die Summe auf 1 , dann ist der L1 Begriff hat keine Wirkung (weil x1=1 von fiat). Gibt es einen analogen Regularisierer vom Typ L1 , der in diesem Fall dafür sorgt, dass das resultierende x spärlich ist?


Könnten Sie näher darauf eingehen, "dann hat der L_1-L1 Term keine Wirkung (weil ||x||1=1 von fiat)"?
Cam.Davidson.Pilon

2
@ Cam.Davidson.Pilon: xi0 und ixi=1 implizieren x1=1 . :)
Kardinal

1
Justin: Einige weitere Details könnten eine bessere Chance auf eine nützliche Antwort geben. Hier sind einige Fragen, die sich sofort beim Lesen Ihrer Beschreibung stellen: ( 1 ) Wo ist die "stochastische Matrix" in all dem? Sie scheinen nur eine Situation mit einem stochastischen Vektor zu beschreiben . Dies können nur einzelne Zeilen Ihrer stochastischen Matrix sein, oder eine andere Struktur kann offensichtlich werden, sobald weitere Details vorhanden sind. ( 2 ) Sie möchten, dass die Wahrscheinlichkeiten selbst spärlich oder in angemessener Weise spärlich sind? Wenn der erste, warum? (Ist dies ein zufälliger Spaziergang auf einem gewichteten (spärlichen) Graphen?)
Kardinal

Warum fordern Sie , dass die Einträge von sind positiv ? Sollten Sie stattdessen verlangen, dass sie nicht negativ sind ? Haben Sie auch über eine Neuparametrisierung nachgedacht, um die Einschränkung zu beseitigen (vorausgesetzt, Sie meinen nicht negativ)? Mit anderen Worten, versuchen Siexxi=exp(wi)jexp(wj)
jrennie

1
@jrennie: der Kontext gegeben, durch positiven Justin sicherlich gemeint nichtnegativ .
Kardinal

Antworten:


2

Eine allgemeine Methode zum Erstellen spärlicher Lösungen ist die MAP-Schätzung mit einem Mittelwert von Null vor einer unbekannten Varianz.

p(xi|σi2)N(0,σi2)

Wenn Sie dann ein vor zuweisen, das einen Modus bei Null hat, ist der hintere Modus normalerweise spärlich. Das ergibt sich aus diesem Ansatz durch eine exponentielle Mischungsverteilung.σi2L1

p(σi2|λ)Expo(λ22)

Dann bekommst du

log[p(xi|λ)]=λ|xi|+log[λ2]

Einige Alternativen sind das verallgemeinerte Double Pareto, Half Cauchy, Inverted Beta. In gewissem Sinne sind diese besser als Lasso, weil sie große Werte nicht verkleinern. Tatsächlich bin ich mir ziemlich sicher, dass das verallgemeinerte Doppelpareto als eine Mischung von Exponentialen geschrieben werden kann. Das heißt, wir schreiben und setzen dann ein Gamma vor . Wir bekommen:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

Beachten Sie, dass ich Normalisierungskonstanten aufgenommen habe, da diese bei der Auswahl guter globaler Parameter helfen. Wenn wir nun die Bereichsbeschränkung anwenden, haben wir ein komplizierteres Problem, da wir über den Simplex renormieren müssen.

Ein weiteres generisches Merkmal von Sparsity-induzierenden Strafen ist, dass sie bei Null nicht differenzierbar sind. Normalerweise liegt dies daran, dass die linken und rechten Grenzen ein entgegengesetztes Vorzeichen haben.

Dies basiert auf der brillanten Arbeit von Nicolas Polson und James Scott über Varianz-Mittelwert-Mischungsdarstellungen, die sie zur Entwicklung von TIRLS verwenden - eine massive Erweiterung der kleinsten Quadrate auf eine sehr große Klasse von Verlust-Strafe-Kombinationen.

Alternativ können Sie einen Prior verwenden, der auf dem Simplex definiert ist, jedoch Modi in den Randverteilungen bei Null aufweist. Ein Beispiel ist die Dirichlet-Verteilung mit allen Parametern zwischen 0 und 1. Die implizite Strafe würde folgendermaßen aussehen:

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

Wobei . Sie müssen jedoch bei der numerischen Optimierung vorsichtig sein, da die Strafe Singularitäten aufweist. Ein robusterer Schätzprozess ist die Verwendung des posterioren Mittelwerts. Obwohl Sie die exakte Spärlichkeit verlieren, erhalten Sie viele hintere Mittelwerte, die nahe bei Null liegen0<ai<1


Dies scheint eine sehr interessante Idee zu sein, obwohl wir nicht in der Lage sind, die Details zu verstehen! Wenn ich das richtig verstehe, ist die Idee, dass der Prior von der Annahme dass die Variablen einer Exponentialverteilung um 0 folgen. Wir brauchen also eine Verteilung, die auf 0 zentriert ist und für unsere Variablen besser funktioniert. Aber es gibt keinen klaren Gewinner, oder? Gibt es Verteilungen über "positive Variablen, die sich zu 1 summieren"? Danke für Ihre Hilfe! L1
Justin Solomon

Um Sparsity zu erhalten, benötigen Sie eine Verteilung mit einem Modus bei Null. Und die Dirichlet-Verteilung liegt über dem Simplex, genau diesen Verteilungen, die sich zu 1 summieren. Eine andere allgemeine Klasse ist logistisch-normal oder logistisch t, ​​wobei Sie eine Normal / t-Verteilung fürlog[xixn]
Wahrscheinlichkeitslogik

Ah, das Dirichlet scheint ziemlich interessant zu sein, da es sich um den Simplex handelt, an dem wir interessiert sind, wie Sie erwähnen! Es scheint, dass die beiden anderen, die Sie erwähnen, eine gewisse Asymmetrie bei hervorrufen könnten , oder? Mein Mitarbeiter und ich werden morgen die von Dirichlet implizierte Energiefunktion durcharbeiten und darüber berichten! Vielen Dank für Ihre bisherige geduldige Hilfe - dies ist weit von unserem üblichen Gebiet entfernt, aber wenn wir es herausfinden können, können die Ergebnisse einen erheblichen Fortschritt in der Geometrieverarbeitung bedeuten! [Und natürlich werden wir Ihnen die gebührende Anerkennung geben!]xn
Justin Solomon

1

Zwei Optionen:

  1. Verwenden Sie eine Strafe für . Der offensichtliche Nachteil ist, dass dies nicht konvex und daher schwer zu optimieren ist.L0x
  2. Parametrisieren Sie und verwenden Sie eine Strafe für den neuen (natürlichen) Parametervektor. Dies wird dazu ermutigen, dass Ereignisse gleichermaßen wahrscheinlich sind, es sei denn, es gibt einen guten Grund dafür, dass dies nicht der Fall ist.xi=exp(wi)jexp(wj)w

Können Sie erklären, wie Ihre Reparametrisierung die Sparsamkeit fördert? Es scheint eher das Gegenteil zu garantieren .
Kardinal

Es fördert die Sparsity in , was dem Ermutigen verschiedener Einträge von , denselben Wert zu haben. wx
jrennie

Ja ich verstehe das. Diese Werte sind jedoch nicht Null. Wenn wir das OP wörtlich nehmen, hilft dies nicht und wird tatsächlich (in gewissem Sinne) "weh tun". Es ist jedoch möglich, dass das OP in Bezug auf eine andere Grundlage an Sparsamkeit interessiert ist. In diesem Fall wäre dies eine davon. :)
Kardinal

Aus diesem Grund habe ich in meiner Antwort zwei Optionen angegeben: Ich denke, eine nicht konvexe Strafe wäre erforderlich, um Nullen in zu fördern . Wie Sie bemerkt haben, meint Justin wahrscheinlich nicht wörtlich, was er gesagt hat. x
jrennie

Ja, leider brauchen wir Sparsamkeit in der Identitätsbasis. Also in diesem Fall würden wir wollen so viele ‚s wie möglich gleich . wi
Justin Solomon

1

Die Prämisse der Frage ist nur teilweise richtig. Während es wahr ist, dass die Norm nur eine Konstante unter der Einschränkung ist, könnte das Problem der Einschränkungsoptimierung sehr wohl eine spärliche Lösung haben.L1

Die Lösung bleibt jedoch von der Wahl von unberührt , sodass entweder eine spärliche Lösung vorliegt oder nicht. Eine andere Frage ist, wie man die Lösung tatsächlich findet. Natürlich kann ein quadratischer Standardoptimierer unter linearen Bedingungen verwendet werden, aber gängige Algorithmen für den Koordinatenabstieg können nicht sofort verwendet werden.λ

Ein Vorschlag könnte darin bestehen, nur unter einem Positivitätskontrakt für verschiedene zu optimieren und dann die Lösung so zu , dass sie Norm 1 aufweist. Ein Algorithmus für den Koordinatenabstieg sollte meines Erachtens leicht modifizierbar sein, um die Lösung unter einem Positivitätswert zu berechnen Zwang.λL1


0

Ich kann mir drei Methoden ausdenken.

  • Bayes'sche Methode: Einführung einer vorherigen Verteilung mit einem Mittelwert von Null und Verwendung der Wahrscheinlichkeit vom Typ II zur Schätzung der Parameter und Hyperparameter.

  • Verwenden Sie stattdessen als Regularisierung. Dies ist jedoch nicht differenzierbar. Sie können eine Norm höherer Ordnung verwenden, um sie zu approximieren.

  • Verwenden Sie .i=1logxi

Tatsächlich sind die erste und die dritte Methode gleich.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.