Natürliche Interpretation für LDA-Hyperparameter

21

Kann jemand erklären, was die natürliche Interpretation für LDA-Hyperparameter ist? ALPHAund BETAsind Parameter von Dirichlet-Verteilungen für (pro Dokument) Themen- bzw. (pro Thema) Wortverteilungen. Kann jemand erklären, was es bedeutet, größere Werte dieser Hyperparameter gegenüber kleineren Werten zu wählen? Bedeutet das, dass vorher in Bezug auf die thematische Sparsamkeit in Dokumenten und die gegenseitige Ausschließlichkeit von Themen in Bezug auf Wörter geglaubt wurde?

Diese Frage bezieht sich auf die latente Dirichlet-Zuordnung, aber der Kommentar von BGReene direkt unten bezieht sich auf die lineare Diskriminanzanalyse, die verwirrenderweise auch als LDA abgekürzt wird.

— abhinavkulkarni
quelle

Ich denke, Sie müssen etwas detaillierter angeben, welche LDA-Formulierung Sie verwenden. Im Allgemeinen haben nur RDA-Modelle diese Parameter, LDA wird normalerweise vollständig durch den Mittelwert des Vektors, die Kovarianzmatrix und frühere Wahrscheinlichkeiten definiert.

— BGreene

11

David Blei hält einen großartigen Vortrag, in dem er Schülern einer Sommerklasse LDA vorstellt: http://videolectures.net/mlss09uk_blei_tm/

Im ersten Video behandelt er ausführlich die Grundidee der Themenmodellierung und wie die Dirichlet-Distribution ins Spiel kommt. Die Plattennotation wird erklärt, als ob alle versteckten Variablen beobachtet würden, um die Abhängigkeiten aufzuzeigen. Grundsätzlich sind Themen Verteilungen über Wörter und Dokumentverteilungen über Themen.

Im zweiten Video zeigt er die Wirkung von Alpha anhand einiger Beispielgrafiken. Je kleiner das Alpha, desto spärlicher die Verteilung. Außerdem führt er einige Inferenzansätze ein.

— Karsten
quelle

7

Dies sollte nicht die akzeptierte Antwort sein

— Samsamara

Ich schätze du hast Recht. Ich habe völlig vergessen, dass ich das geschrieben habe.

— Karsten

Oh! habe nicht erwartet, einen Kommentar des Autors zu sehen! hehe :)

— samsamara

48

Die Antwort hängt davon ab , ob Sie die symmetrische oder asymmetrische Dirichlet - Verteilung sind unter der Annahme (oder, technisch, ob die Basismaßnahme einheitlich ist). Sofern nichts anderes angegeben ist, gehen die meisten Implementierungen von LDA davon aus, dass die Verteilung symmetrisch ist.

Bei der symmetrischen Verteilung bedeutet ein hoher Alpha-Wert, dass jedes Dokument wahrscheinlich eine Mischung aus den meisten Themen und nicht nur ein einzelnes Thema enthält. Ein niedriger Alpha-Wert schränkt Dokumente weniger ein und bedeutet, dass es wahrscheinlicher ist, dass ein Dokument eine Mischung aus nur wenigen oder sogar nur einem der Themen enthält. Ebenso bedeutet ein hoher Beta-Wert, dass jedes Thema wahrscheinlich eine Mischung aus den meisten Wörtern und nicht ein bestimmtes Wort enthält, während ein niedriger Wert bedeutet, dass ein Thema möglicherweise eine Mischung aus nur wenigen Wörtern enthält.

Wenn die Verteilung andererseits asymmetrisch ist, bedeutet ein hoher Alpha-Wert, dass eine bestimmte Themenverteilung (abhängig vom Basismaß) für jedes Dokument wahrscheinlicher ist. In ähnlicher Weise bedeutet ein hoher Beta-Wert, dass jedes Thema mit größerer Wahrscheinlichkeit eine bestimmte Wortmischung enthält, die durch das Basismaß definiert wird.

In der Praxis führt ein hoher Alpha-Wert dazu, dass Dokumente in Bezug auf die darin enthaltenen Themen ähnlicher sind. Ein hoher Beta-Wert führt in ähnlicher Weise dazu, dass Themen in Bezug auf die enthaltenen Wörter ähnlicher sind.

Also, ja, die Alpha-Parameter geben frühere Annahmen über die Sparsamkeit / Homogenität von Themen in den Dokumenten an. Ich bin mir jedoch nicht ganz sicher, was Sie unter "gegenseitiger Ausschließlichkeit von Themen in Worten" verstehen.

Im Allgemeinen sind dies Konzentrationsparameter für die im LDA-Modell verwendete Dirichlet-Verteilung. Diese Präsentation enthält einige schöne Abbildungen sowie eine gute Erklärung der LDA im Allgemeinen, um ein intuitives Verständnis der Funktionsweise zu erlangen .

$(\alpha_1, \alpha_2, ... ,\alpha_K)$ $u = (u_1, u_2, ..., u_K)$ $\alpha$ $\alpha * \textbf{u} = (\alpha_1, \alpha_2, ... ,\alpha_K)$ $\alpha$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$ $(\alpha_1, \alpha_2, ... ,\alpha_K)$

— AMO
quelle

2

+1 informative Antwort! Ich möchte fragen, wie hoch / niedrig ein hoher / niedriger Wert für Alpha und Beta im Allgemeinen ist.

— Samsamara

Beta soll eine Verteilung über die Wörter für jedes Thema sein (eine Matrix), richtig? Wie übersetzt sich ein einzelner Wert in eine Matrix?

— Noamiko

Habe ich zu Recht den Schluss gezogen, dass hohes Alpha bedeutet, dass Dokumente ähnlich sind, und hohes Beta bedeutet, dass Themen ähnlich sind?

— Lewistrick