Bayesianische Spitze und Platte versus bestrafte Methoden

Ich lese Steven Scotts Folien über das BSTS R-Paket (Sie finden sie hier: Folien ).

Wenn er über die Einbeziehung vieler Regressoren in das strukturelle Zeitreihenmodell spricht, führt er irgendwann die Spitzen- und Plattenprioren von Regressionskoeffizienten ein und sagt, dass sie im Vergleich zu bestraften Methoden besser sind.

Scott bezieht sich auf ein Beispiel eines Datensatzes mit 100 Prädiktoren:

Bestrafte Methoden treffen eine einzige Entscheidung darüber, welche Variablen eingeschlossen / ausgeschlossen werden, dh sie entscheiden über eine Teilmenge von Prädiktoren, dh ein Modell unter den möglichen. $2^{100}$
"Lasso (und verwandte) Priors sind nicht spärlich, sie induzieren Sparsamkeit im Modus, aber nicht in der posterioren Verteilung."

An dieser Stelle stellt er die Spike- und Slab-Priors vor.

Ich glaube, ich habe die Intuition, aber ich möchte sicher sein:

Sind sie in dem Sinne besser, dass sie grundsätzlich einen Brute-Force- Ansatz verwenden, um jede mögliche Untergruppe von Regressoren zu testen?
Ist der Nachteil die Rechenzeit dabei?
Was meinst du, was er meint, wenn er "Lasso (und verwandte) ... aber nicht in der hinteren Verteilung" sagt?

— Tommaso Guerrini
quelle

Ich werde zuerst Ihre dritte Frage beantworten und später Ihre beiden anderen ansprechen.

Was meinst du, was er meint, wenn er "Lasso (und verwandte) ... aber nicht in der hinteren Verteilung" sagt?

Diese Figur aus seinen Folien zeigt, was er meint. Wenn Sie den Lasso-Regularisierer als vorherige Verteilung ausdrücken, bedeutet dies, dass Ihre vorherige Verteilung die Form einer Laplace- oder Doppelexponentialverteilung hat . Diese Verteilung weist im Mittelwert einen charakteristischen nicht glatten Peak auf, der auf 0 gesetzt wird, um einen spärlichen Regularisierungseffekt zu erzielen. Um direkt ein Lasso-reguliertes Ergebnis zu erhalten, sollten Sie den Modus Ihrer posterioren Verteilung wählen.

Prüfung

In der Abbildung repräsentiert die blaue gestrichelte Linie die vorherige Verteilung des Laplace. Die posteriore Verteilung in festem Schwarz hat ihren Modus bei 0 links mit einer schwachen Wahrscheinlichkeit, während der Modus rechts mit einer starken Wahrscheinlichkeit ungleich Null ist.

Die vollständige posteriore Verteilung ist jedoch nicht spärlich, denn wenn Sie daraus eine Stichprobe erstellen, erhalten Sie nur selten einen Wert nahe 0, und weil es sich um eine kontinuierliche Verteilung handelt, erhalten Sie niemals genau 0.

Um mit einem Lasso-Ansatz eine Sparsamkeit zu erreichen, müssen Sie normalerweise einen Grenzwert für den posterioren Modus festlegen. Der Idealfall ist, wenn Ihr posteriorer Modus gleich 0 ist. Sie können dies jedoch lockern und Ihre Variable entfernen, wenn der posteriore Modus nach der Ermittlung des Absolutwerts weniger als 0,2 beträgt.

Die Durchführung dieser Sparsifikation unter Lasso ergibt einen bestimmten Satz eliminierter und beibehaltener Regressoren. Dies ist die "Einzelentscheidung" darüber, welche Regressoren eingeschlossen oder ausgeschlossen werden.

Ein vollständig Bayes'scher Ansatz zur Variablenauswahl, die Spitze und die Platte vor, behält die Unsicherheit darüber bei, welche Variablen während des gesamten Modells eingeschlossen oder ausgeschlossen werden sollten.

Um Ihre erste Frage zu beantworten:

Sind sie in dem Sinne besser, dass sie grundsätzlich einen Brute-Force-Ansatz verwenden, um jede mögliche Untergruppe von Regressoren zu testen?

Dies ist ein Missverständnis, da keine der beiden Methoden alle möglichen Untergruppen von Regressoren testet, um sie einzuschließen.

Ist der Nachteil die Rechenzeit dabei?

Dies ist auch ein Missverständnis, da die Rechenzeit nicht durch Brute-Force-Tests jeder möglichen Teilmenge von Regressoren dominiert wird.

Um Scotts Standpunkt zu verdeutlichen, erhalten Sie bei einigen Daten genau einen Satz eingeschlossener und ausgeschlossener Regressoren, wenn Sie einen Ansatz zur Bestrafung der bestraften Wahrscheinlichkeit verwenden. Wenn Sie jedoch einen Spike- und Platten-Sparsifizierungsansatz verwenden, haben Sie für jeden Regressor eine vollständige posteriore Verteilung, wobei jeder eine eigene Wahrscheinlichkeit hat, eingeschlossen oder ausgeschlossen zu werden. Einige Regressoren haben möglicherweise eine 70% ige Chance, aufgenommen zu werden, andere eine 25% ige Chance. Dies kann in vielen Anwendungen vorzuziehen sein, da wir bei einem einzelnen Datensatz immer noch unsicher sein sollten, welche Regressoren wichtig sind oder nicht.

Intuitiv repräsentiert ein Spike und eine Platte vorher den möglichen Raum von eingeschlossenen / ausgeschlossenen Regressoren besser als ein Ansatz mit bestrafter Wahrscheinlichkeit wie Lasso.

— mxwsn
quelle

Vielen Dank! Mein Verständnis von Scotts Folien war so oberflächlich und teilweise falsch, dass Sie es deutlich gemacht haben!

— Tommaso Guerrini