Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten nur eine sehr geringe Leistung erbringen.
Kennt jemand etwas, das in diesem Bereich geleistet wurde? In diesem Artikel geht es um das Anwenden von LDA auf Twitter, aber es interessiert mich wirklich, ob es andere Algorithmen gibt, die im Kontext mit kurzen Dokumenten eine bessere Leistung erzielen.