Wann sollte LDA über GMM für das Clustering verwendet werden?

Ich habe einen Datensatz mit Benutzeraktivitäten mit 168 Dimensionen, in dem ich Cluster mithilfe von unbeaufsichtigtem Lernen extrahieren möchte. Es ist mir nicht klar, ob ich einen Themenmodellierungsansatz in der Latent Dirichlet Allocation (LDA) oder in Gaussian Mixture Models (GMM) verwenden soll, der eher ein Bayes'scher Ansatz ist. In dieser Hinsicht habe ich 2 verwandte Fragen:

Was ist das Hauptunterscheidungsmerkmal zwischen den beiden Methoden? Ich kenne die Grundlagen der beiden Modelle, bin aber gespannt, was das eine wirklich vom anderen unterscheidet. Kann mir etwas in den Problemen / Daten sagen, ob ein Modell besser passt?
Wie kann ich die Ergebnisse vergleichen, wenn ich beide Methoden auf meine Daten anwende, um festzustellen, welche Methode besser ist?

Aktualisieren

Die Aktivitätsvariablen der 168 Benutzer sind Zählungen einer Aktivität, wodurch positive diskrete Werte gespeichert werden. Es gibt keinen Maximalwert, aber ungefähr 90% der Variablen erreichen Werte im Intervall . $[0,3]$

Es mag sinnvoll sein, alle diese Aktivitätsvariablen einfach als binäre Variablen zu modellieren, die beschreiben, ob sie Null oder Nicht-Null sind, aber wir wissen noch nicht genug über das Problem, um dies zu bestimmen. Die Hauptsache, nach der wir suchen, sind Einblicke in die verschiedenen Cluster von Benutzeraktivitäten.

— pir
quelle

Erfordert LDA nicht, dass Ihre Daten alle multinomiale kategoriale Variablen sind, während GMM sicher erfordert, dass Ihre Daten alle kontinuierlichen Variablen sind. Welche Art von Daten sind Ihre 168 Benutzeraktivitätsvariablen?

— Gung - Reinstate Monica

Das könnte sein. Siehe aktualisierten Originalbeitrag.

— Pir

Ich würde keine Gaußschen Mischungsmodelle verwenden, da sie erfordern, dass die Verteilungen der Bestandteile alle normal sind. Sie haben Zählungen, daher ist GMM per Definition unangemessen.

Die latente Dirichlet-Zuweisung (vollständige Offenlegung: Ich kenne die Themenmodellierung nicht wirklich) erfordert, dass Ihre Daten multinomial sind. In diesem Fall können Sie jedoch Zählungen vornehmen - dies sind Zählungen des Auftretens verschiedener Kategorien einer Variablen. Eine andere Möglichkeit besteht darin, dass Ihre Zählungen Zählungen verschiedener Variablen sind, wie bei mehreren Poisson- Variablen. Dies ist eine ontologische Frage, wie Sie über Ihre Daten denken.

Stellen Sie sich ein einfaches Beispiel vor, in dem ich zum Lebensmittelgeschäft gehe, weil ich etwas Obst möchte. Ich werde eine bestimmte Anzahl von Äpfeln, Orangen, Pfirsichen und Bananen kaufen. Jede davon kann als separate Poisson-Variable betrachtet werden. Wenn ich nach Hause komme, lege ich sie alle in eine Obstschale. Später, wenn ich Lust auf einen Snack habe, greife ich vielleicht in die Schüssel, ohne hinzuschauen, und nehme zwei Fruchtstücke (z. B. einen Apfel und einen Pfirsich). Dies kann als Unentschieden aus einer multinomialen Verteilung angesehen werden. In beiden Fällen habe ich eine Anzahl von Kategorien, aber wir sehen sie anders. Im ersten Fall sind die Früchte, die ich kaufen werde, bekannt, bevor ich zum Lebensmittelgeschäft komme, aber die Anzahl der in jeder Kategorie gekauften Früchte kann variieren. Im zweiten Fall weiß ich nicht, welche Früchte ich pflücken werde, aber ich weiß, dass ich zwei von den möglichen Sorten nehme.

Wenn Ihre Daten dem Beispiel einer Obstschale entsprechen, ist LDA möglicherweise für Sie geeignet. Wenn sie jedoch dem Beispiel eines Lebensmittelgeschäfts ähneln, können Sie Poisson Finite Mixing Modeling ausprobieren . Das heißt, Sie können die Mischungsmodellierung mit anderen Verteilungen als Gauß / Normal verwenden. GMMs sind bei weitem die häufigsten; andere Distributionen (wie Poisson) sind exotischer. Ich weiß nicht, wie weit sie in Software implementiert sind. Wenn Sie R verwenden, führte Googeln zur Entdeckung von ? PoisMixClus im HTSCluster- Paket und im Rebmix- Paket (Hinweis, den ich weder verwendet noch Poisson-Mischungsmodellierung durchgeführt habe). Möglicherweise können auch Implementierungen für andere Software gefunden werden.

Einige Besonderheiten hinzufügen: Ich würde sagen, LDA ist mindestens genauso eine Bayes'sche Technik wie GMM.

Ich vermute, die wichtigste Unterscheidung zwischen LDA und GMM ist die Art der Daten, von denen sie annehmen, dass Sie sie haben.
Sie können sie nicht vergleichen, da sie für verschiedene Arten von Daten bestimmt sind. (Ich würde LDA und Poisson MM auch nicht wirklich vergleichen wollen, da sie die Zählungen unterschiedlich konzipieren.)

Ich würde Ihre Daten nicht in Null / Nicht-Null dichotomisieren.

— gung - Monica wieder einsetzen
quelle

Diese 168 Benutzeraktivitätsvariablen werden über eine Woche gezählt, wenn tatsächlich mehrere Wochen Daten für jeden Benutzer vorliegen. Wenn wir den Mittelwert von mehr als 30 Wochen Zähldaten nehmen und diese für das Clustering verwenden würden - würde das einen Unterschied machen? Nach meinem Verständnis der CLT wären die auf dem Mittelwert basierenden Variablen normalverteilt und würden daher die Anforderungen an GMM erfüllen.

— Pir

Mittelwerte aus Verteilungen mit großem N sollten normal sein. Ich denke, Sie könnten dann GMM verwenden.

— Gung - Reinstate Monica