Stichprobenkosten von gegenüber

Ich bin auf das folgende Simulationsproblem : Bei einer Menge bekannter reeller Zahlen wird eine Verteilung auf durch wobei den positiven Teil von . Ich kann mir zwar einen Metropolis-Hastings-Sampler vorstellen, der auf diese Verteilung abzielt, aber ich frage mich, ob es einen effizienten direkten Sampler gibt, der die große Anzahl von Nullwahrscheinlichkeiten ausnutzt, um die Reihenfolge des Algorithmus von auf zu verringern . $\{\omega_1,\ldots,\omega_d\}$ $\{-1,1\}^d$

P (X = (x_{1}, \dots, x_{d})) \propto (x_{1} ω_{1} + \dots + x_{d} ω_{d})_{+}

$\mathbb{P}(X=(x_1,\ldots,x_d))\propto (x_1\omega_1+\ldots+x_d\omega_d)_+$

(z)_{+}

$(z)_+$

z

$z$

O (2^{d})

$O(2^d)$

O (d)

$O(d)$

— Xi'an
quelle

Hier ist ein ziemlich offensichtlicher rekursiver Sampler, der im besten Fall ist (in Bezug auf die Gewichte ), im schlimmsten Fall jedoch exponentiell. $O(d)$ $\omega_i$

Angenommen, wir haben bereits und möchten auswählen . Wir müssen berechnen und wähle mit der Wahrscheinlichkeit Der Nenner ist für jede gültige Auswahl von Stichproben ungleich Null . $x_1, \dots, x_{i-1}$ $x_{i}$

w (x_{1}, \dots, x_{i - 1}, x_{i}) = \sum_{x_{i + 1} \in {- 1, 1}} \dots \sum_{x_{d} \in {- 1, 1}} {(\sum_{j = 1}^{d} ω_{j} x_{j})}_{+}

$w(x_1, \dots, x_{i-1}, x_i) = \sum_{x_{i+1} \in \{-1, 1\}} \cdots \sum_{x_{d} \in \{-1, 1\}} \left( \sum_{j=1}^d \omega_j x_j \right)_+$

x_{i} = 1

$x_i = 1$

\frac{w (x_{1}, \dots, x_{i - 1}, 1)}{w (x_{1}, \dots, x_{i - 1}, 1) + w (x_{1}, \dots, x_{i - 1}, - 1)} .

$\frac{w(x_1, \dots, x_{i-1}, 1)}{w(x_1, \dots, x_{i-1}, 1) + w(x_1, \dots, x_{i-1}, -1)}.$

x_{1}, \dots, x_{i - 1}

$x_1, \dots, x_{i-1}$

Nun stellt sich natürlich die Frage, wie berechnet wird . $w(x_1, \dots, x_i)$

Wenn wir das , dann für jedes mit führenden Einträgen , und so wird : $C := \sum_{j=1}^{i} \omega_j x_j \ge \sum_{j=i+1}^{d} \lvert \omega_j \rvert$ $\omega \cdot x \ge 0$ $x$ $x_{1:i}$ $w$

\begin{aligned} \sum_{x_{i + 1}} \dots \sum_{x_{d}} ω \cdot x & = ω \cdot (\sum_{x_{i + 1}} \dots \sum_{x_{d}} x) \\ = \sum_{j = 1}^{i} ω_{j} \underset{2^{d - i} x_{j}}{\underset{⏟}{(\sum_{x_{i + 1}} \dots \sum_{x_{d}} x_{j})}} + \sum_{j = i + 1}^{d} ω_{j} \underset{0}{\underset{⏟}{(\sum_{x_{i + 1}} \dots \sum_{x_{d}} x_{j})}} \\ = 2^{d - i} C . \end{aligned}

$\begin{align} \sum_{x_{i+1}} \cdots \sum_{x_d} \omega \cdot x &= \omega \cdot \left( \sum_{x_{i+1}} \cdots \sum_{x_d} x \right) \\&= \sum_{j=1}^i \omega_j \underbrace{\left( \sum_{x_{i+1}} \cdots \sum_{x_d} x_j \right)}_{2^{d-i} x_j} + \sum_{j=i+1}^d \omega_j \underbrace{\left( \sum_{x_{i+1}} \cdots \sum_{x_d} x_j \right)}_{0} \\&= 2^{d-i} C .\end{align}$

Im umgekehrten Fall, , haben wir das und damit . $C \le - \sum_{j=i+1}^{d} \lvert \omega_j \rvert$ $\omega \cdot x \le 0$ $w(x_1, \dots, x_i) = 0$

Andernfalls müssen wir mit . $w(x_1, \dots, x_i) = w(x_1, \dots, x_i, 1) + w(x_1, \dots, x_i, -1)$

Angenommen, der Speicher ist kein Problem und wir können alle Unterberechnungen in , in einem Baum zwischenspeichern - bis zu dem Punkt, an dem wir einen der "netten" Fälle treffen, danach jeden Anrufe dauern konstant. (Wir müssen sowieso diesen ganzen Baum berechnen, um auszuwählen .) Sobald dieser Baum von Berechnungen erstellt ist, benötigt der Sampler nur noch Zeit. Die Frage ist, wie lange es dauert, den Baum zu bauen, oder wie groß er ist. $w(1)$ $w(-1)$ $x_1$ $w$ $O(d)$

Wir werden die "netten" Fälle natürlich schneller wenn die sortiert sind, . $\omega_i$ $\omega_1 \ge \omega_2 \ge \dots \ge \omega_d$

Im besten Fall . Dann treffen wir sofort einen "schönen" Fall für entweder oder , so dass die Baumkonstruktion konstante Zeit benötigt und der gesamte Sampler Zeit benötigt. $\lvert \omega_1 \rvert > \sum_{j=2}^d \lvert \omega_j \rvert$ $w(1)$ $w(-1)$ $w$ $O(d)$

Im schlimmsten (sortierten) Fall ist . Dann ist die Frage: Wie groß ist der Gesamtbaum? $\omega_1 = \omega_2 = \dots = \omega_d$

Nun, die ersten Pfade, die beendet werden müssen, sind natürlich und der Länge . Der Baum ist daher bis zu dieser Tiefe vollständig und enthält daher mindestens Knoten. (Es hat mehr; Sie können es wahrscheinlich mit einem Argument finden, wie es bei den Ruinenproblemen von Spielern verwendet wurde, aber ich konnte es in zwei Minuten Googeln nicht finden und es ist mir egal - ist schlecht genug....) $(1, 1, \dots, 1)$ $(-1, -1, \dots, -1)$ $\lceil d/2 \rceil$ $O(2^{d/2})$ $2^{d/2}$

Wenn Ihre Einstellung nur wenige sehr große , ist dies wahrscheinlich ein einigermaßen praktischer Ansatz. Wenn die alle von ähnlicher Größe sind, ist es wahrscheinlich immer noch exponentiell und für große zu teuer . $\omega_i$ $\omega_i$ $d$

— Dougal
quelle

Vielen Dank für diese Art der Eliminierung nach Viterbi. Wenn Sie "Im umgekehrten Fall" schreiben, Ich nehme an, Sie meinen nicht die Ergänzung des ersten Falls

C_{i} \leq - \sum_{j = i + 1}^{d} | ω_{j} |

$C_i\le -\sum_{j=i+1}^{d} \lvert \omega_j \rvert$

C_{i} \geq \sum_{j = i + 1}^{d} | ω_{j} |

$C_i\ge \sum_{j=i+1}^{d} \lvert \omega_j \rvert$

— Xi'an

Nein, nicht die Ergänzung: Wenn es sehr groß ist, wissen Sie, dass die Kürzung nicht angewendet wird, wenn es sehr klein ist, wird es immer angewendet, und dazwischen müssen Sie zurückgreifen, um herauszufinden, wann es angewendet wird oder nicht.

— Dougal