Ich bin verwirrt darüber, wie die Verwirrung einer Holdout-Stichprobe bei der Latent Dirichlet Allocation (LDA) berechnet wird. Die Zeitungen über das Thema rauschen darüber hinweg und lassen mich denken, ich vermisse etwas Offensichtliches ...

Ratlosigkeit wird als ein gutes Maß für die Leistung von LDA angesehen. Die Idee ist, dass Sie eine Holdout-Stichprobe aufbewahren, Ihre LDA auf den Rest der Daten trainieren und dann die Ratlosigkeit des Holdouts berechnen.

Die Ratlosigkeit könnte durch die Formel gegeben sein:

$per({D}_{test})=exp\{-\frac{\sum _{d=1}^{M}\mathrm{log}p({\mathbb{w}}_{d})}{\sum _{d=1}^{M}{N}_{d}}\}$

(Taken from Image retrieval on large-scale image databases, Horster et al.)

Here $M$ is the number of documents (in the test sample, presumably), ${\mathbb{w}}_{d}$ represents the words in document $d$, ${N}_{d}$ the number of words in document $d$.

It is not clear to me how to sensibly calcluate $p({\mathbb{w}}_{d})$, since we don't have topic mixtures for the held out documents. Ideally, we would integrate over the Dirichlet prior for all possible topic mixtures and use the topic multinomials we learned. Calculating this integral doesn't seem an easy task however.

Alternatively, we could attempt to learn an optimal topic mixture for each held out document (given our learned topics) and use this to calculate the perplexity. This would be doable, however it's not as trivial as papers such as Horter et al and Blei et al seem to suggest, and it's not immediately clear to me that the result will be equivalent to the ideal case above.