Die Antwort hängt davon ab , ob Sie die symmetrische oder asymmetrische Dirichlet - Verteilung sind unter der Annahme (oder, technisch, ob die Basismaßnahme einheitlich ist). Sofern nichts anderes angegeben ist, gehen die meisten Implementierungen von LDA davon aus, dass die Verteilung symmetrisch ist.
Bei der symmetrischen Verteilung bedeutet ein hoher Alpha-Wert, dass jedes Dokument wahrscheinlich eine Mischung aus den meisten Themen und nicht nur ein einzelnes Thema enthält. Ein niedriger Alpha-Wert schränkt Dokumente weniger ein und bedeutet, dass es wahrscheinlicher ist, dass ein Dokument eine Mischung aus nur wenigen oder sogar nur einem der Themen enthält. Ebenso bedeutet ein hoher Beta-Wert, dass jedes Thema wahrscheinlich eine Mischung aus den meisten Wörtern und nicht ein bestimmtes Wort enthält, während ein niedriger Wert bedeutet, dass ein Thema möglicherweise eine Mischung aus nur wenigen Wörtern enthält.
Wenn die Verteilung andererseits asymmetrisch ist, bedeutet ein hoher Alpha-Wert, dass eine bestimmte Themenverteilung (abhängig vom Basismaß) für jedes Dokument wahrscheinlicher ist. In ähnlicher Weise bedeutet ein hoher Beta-Wert, dass jedes Thema mit größerer Wahrscheinlichkeit eine bestimmte Wortmischung enthält, die durch das Basismaß definiert wird.
In der Praxis führt ein hoher Alpha-Wert dazu, dass Dokumente in Bezug auf die darin enthaltenen Themen ähnlicher sind. Ein hoher Beta-Wert führt in ähnlicher Weise dazu, dass Themen in Bezug auf die enthaltenen Wörter ähnlicher sind.
Also, ja, die Alpha-Parameter geben frühere Annahmen über die Sparsamkeit / Homogenität von Themen in den Dokumenten an. Ich bin mir jedoch nicht ganz sicher, was Sie unter "gegenseitiger Ausschließlichkeit von Themen in Worten" verstehen.
Im Allgemeinen sind dies Konzentrationsparameter für die im LDA-Modell verwendete Dirichlet-Verteilung. Diese Präsentation enthält einige schöne Abbildungen sowie eine gute Erklärung der LDA im Allgemeinen, um ein intuitives Verständnis der Funktionsweise zu erlangen .
( α1, α2, . . . , αK)u = ( u1, u2, . . . , uK)αα ∗ u = ( α1, α2, . . . , αK)α( α1, α2, . . . , αK)(α1,α2,...,αK)