Eine allgemeine Methode zum Erstellen spärlicher Lösungen ist die MAP-Schätzung mit einem Mittelwert von Null vor einer unbekannten Varianz.
p(xi|σ2i)∼N(0,σ2i)
Wenn Sie dann ein vor zuweisen, das einen Modus bei Null hat, ist der hintere Modus normalerweise spärlich. Das ergibt sich aus diesem Ansatz durch eine exponentielle Mischungsverteilung.σ2iL1
p(σ2i|λ)∼Expo(λ22)
Dann bekommst du
log[p(xi|λ)]=−λ|xi|+log[λ2]
Einige Alternativen sind das verallgemeinerte Double Pareto, Half Cauchy, Inverted Beta. In gewissem Sinne sind diese besser als Lasso, weil sie große Werte nicht verkleinern. Tatsächlich bin ich mir ziemlich sicher, dass das verallgemeinerte Doppelpareto als eine Mischung von Exponentialen geschrieben werden kann. Das heißt, wir schreiben und setzen dann ein Gamma vor . Wir bekommen:λ=λip(λi|αβ)
p(xi|αβ)=α2β(1+|xi|β)−(α+1)
Beachten Sie, dass ich Normalisierungskonstanten aufgenommen habe, da diese bei der Auswahl guter globaler Parameter helfen. Wenn wir nun die Bereichsbeschränkung anwenden, haben wir ein komplizierteres Problem, da wir über den Simplex renormieren müssen.
Ein weiteres generisches Merkmal von Sparsity-induzierenden Strafen ist, dass sie bei Null nicht differenzierbar sind. Normalerweise liegt dies daran, dass die linken und rechten Grenzen ein entgegengesetztes Vorzeichen haben.
Dies basiert auf der brillanten Arbeit von Nicolas Polson und James Scott über Varianz-Mittelwert-Mischungsdarstellungen, die sie zur Entwicklung von TIRLS verwenden - eine massive Erweiterung der kleinsten Quadrate auf eine sehr große Klasse von Verlust-Strafe-Kombinationen.
Alternativ können Sie einen Prior verwenden, der auf dem Simplex definiert ist, jedoch Modi in den Randverteilungen bei Null aufweist. Ein Beispiel ist die Dirichlet-Verteilung mit allen Parametern zwischen 0 und 1. Die implizite Strafe würde folgendermaßen aussehen:
−∑i=1n−1(ai−1)log(xi)−(an−1)log(1−∑i=1n−1xi)
Wobei . Sie müssen jedoch bei der numerischen Optimierung vorsichtig sein, da die Strafe Singularitäten aufweist. Ein robusterer Schätzprozess ist die Verwendung des posterioren Mittelwerts. Obwohl Sie die exakte Spärlichkeit verlieren, erhalten Sie viele hintere Mittelwerte, die nahe bei Null liegen0<ai<1