In der (unbeaufsichtigten) Textmodellierung ist Latent Dirichlet Allocation (LDA) eine Bayes-Version der probabilistischen latenten semantischen Analyse (PLSA). Im Wesentlichen hat LDA = PLSA + Dirichlet Vorrang vor seinen Parametern. Nach meinem Verständnis ist LDA jetzt der Referenzalgorithmus und wird in verschiedenen Paketen implementiert, während PLSA nicht mehr verwendet werden sollte.
Bei der (überwachten) Textkategorisierung könnten wir jedoch genau dasselbe für den multinomialen Naive Bayes-Klassifikator tun und ein Dirichlet vor die Parameter setzen. Aber ich glaube, ich habe noch nie jemanden gesehen, der das getan hat, und die "Point Estimate" -Version von multinomial Naive Bayes scheint die Version zu sein, die in den meisten Paketen implementiert ist. Gibt es einen Grund dafür?