Da dies einer der Top-Treffer von Google zu diesem Thema ist, möchte ich darauf hinweisen, dass Latent Dirichlet Allocation (LDA), Hierarchical Dirichlet Processes (HDP) und Hierarchical Latent Dirichlet Allocation (hLDA) unterschiedliche Modelle sind.
LDA-Modelle dokumentieren als Dirichletmischungen einer festen Anzahl von Themen, die vom Benutzer als Parameter des Modells ausgewählt wurden und wiederum Dirichletmischungen von Wörtern sind. Dies erzeugt eine flache, weiche probabilistische Gruppierung von Begriffen in Themen und Dokumenten in Themen.
HDP modelliert Themen als Wortmischungen, ähnlich wie LDA, aber anstelle von Dokumenten, die aus einer festen Anzahl von Themen bestehen, wird die Anzahl der Themen durch einen Dirichlet-Prozess generiert, was dazu führt, dass die Anzahl der Themen ebenfalls eine Zufallsvariable ist. Der "hierarchische" Teil des Namens bezieht sich auf eine andere Ebene, die dem generativen Modell hinzugefügt wird (der Dirichlet-Prozess, der die Anzahl der Themen erzeugt), nicht auf die Themen selbst - die Themen sind immer noch flache Cluster.
hLDA hingegen ist eine Adaption von LDA, die Themen als Mischungen aus einer neuen, unterschiedlichen Ebene von Themen modelliert, die aus Dirichlet- Verteilungen stammenund nicht verarbeitet. Die Anzahl der Themen wird weiterhin als Hyperparameter behandelt, dh unabhängig von den Daten. Der Unterschied besteht darin, dass das Clustering jetzt hierarchisch ist - es lernt ein Clustering der ersten Gruppe von Themen selbst, wodurch allgemeinere, abstraktere Beziehungen zwischen Themen (und damit Wörtern und Dokumenten) entstehen. Stellen Sie sich vor, Sie würden den Stapelaustausch in Mathematik, Naturwissenschaften, Programmierung, Geschichte usw. gruppieren, statt Data Science und Cross Validation in ein abstraktes Statistik- und Programmierthema zu gruppieren, das einige Konzepte mit beispielsweise Software-Engineering teilt, aber das Software-Engineering Der Austausch wird auf einer konkreteren Ebene mit dem Austausch der Informatik gebündelt, und die Ähnlichkeit zwischen allen genannten Börsen tritt erst in der oberen Schicht der Cluster auf.