Ich würde keine Gaußschen Mischungsmodelle verwenden, da sie erfordern, dass die Verteilungen der Bestandteile alle normal sind. Sie haben Zählungen, daher ist GMM per Definition unangemessen.
Die latente Dirichlet-Zuweisung (vollständige Offenlegung: Ich kenne die Themenmodellierung nicht wirklich) erfordert, dass Ihre Daten multinomial sind. In diesem Fall können Sie jedoch Zählungen vornehmen - dies sind Zählungen des Auftretens verschiedener Kategorien einer Variablen. Eine andere Möglichkeit besteht darin, dass Ihre Zählungen Zählungen verschiedener Variablen sind, wie bei mehreren Poisson- Variablen. Dies ist eine ontologische Frage, wie Sie über Ihre Daten denken.
Stellen Sie sich ein einfaches Beispiel vor, in dem ich zum Lebensmittelgeschäft gehe, weil ich etwas Obst möchte. Ich werde eine bestimmte Anzahl von Äpfeln, Orangen, Pfirsichen und Bananen kaufen. Jede davon kann als separate Poisson-Variable betrachtet werden. Wenn ich nach Hause komme, lege ich sie alle in eine Obstschale. Später, wenn ich Lust auf einen Snack habe, greife ich vielleicht in die Schüssel, ohne hinzuschauen, und nehme zwei Fruchtstücke (z. B. einen Apfel und einen Pfirsich). Dies kann als Unentschieden aus einer multinomialen Verteilung angesehen werden. In beiden Fällen habe ich eine Anzahl von Kategorien, aber wir sehen sie anders. Im ersten Fall sind die Früchte, die ich kaufen werde, bekannt, bevor ich zum Lebensmittelgeschäft komme, aber die Anzahl der in jeder Kategorie gekauften Früchte kann variieren. Im zweiten Fall weiß ich nicht, welche Früchte ich pflücken werde, aber ich weiß, dass ich zwei von den möglichen Sorten nehme.
Wenn Ihre Daten dem Beispiel einer Obstschale entsprechen, ist LDA möglicherweise für Sie geeignet. Wenn sie jedoch dem Beispiel eines Lebensmittelgeschäfts ähneln, können Sie Poisson Finite Mixing Modeling ausprobieren . Das heißt, Sie können die Mischungsmodellierung mit anderen Verteilungen als Gauß / Normal verwenden. GMMs sind bei weitem die häufigsten; andere Distributionen (wie Poisson) sind exotischer. Ich weiß nicht, wie weit sie in Software implementiert sind. Wenn Sie R verwenden, führte Googeln zur Entdeckung von ? PoisMixClus im HTSCluster- Paket und im Rebmix- Paket (Hinweis, den ich weder verwendet noch Poisson-Mischungsmodellierung durchgeführt habe). Möglicherweise können auch Implementierungen für andere Software gefunden werden.
Einige Besonderheiten hinzufügen: Ich würde sagen, LDA ist mindestens genauso eine Bayes'sche Technik wie GMM.
- Ich vermute, die wichtigste Unterscheidung zwischen LDA und GMM ist die Art der Daten, von denen sie annehmen, dass Sie sie haben.
- Sie können sie nicht vergleichen, da sie für verschiedene Arten von Daten bestimmt sind. (Ich würde LDA und Poisson MM auch nicht wirklich vergleichen wollen, da sie die Zählungen unterschiedlich konzipieren.)
Ich würde Ihre Daten nicht in Null / Nicht-Null dichotomisieren.