Themenmodelle für kurze Dokumente

14

Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten nur eine sehr geringe Leistung erbringen.

Kennt jemand etwas, das in diesem Bereich geleistet wurde? In diesem Artikel geht es um das Anwenden von LDA auf Twitter, aber es interessiert mich wirklich, ob es andere Algorithmen gibt, die im Kontext mit kurzen Dokumenten eine bessere Leistung erzielen.

— Martin O'Leary
quelle

2

Twitter ist ein besonders schwieriger Datensatz für die Themenmodellierung, nicht nur aufgrund der geringen Größe der "Dokumente", sondern auch aufgrund der Art des Texts. Menschen neigen dazu, verschiedene SMS-Abkürzungen zu verwenden, was das Erkennen von Co-Ereignissen noch schwieriger macht.

— Nick

Siehe die Liste der guten Artikel

— NQD

7

Dies ist eine späte Antwort, aber sie kann für andere nützlich sein, die nach ähnlichen Recherchen und Tools für dieses Problem suchen:

Weiwei Guo aus Columbia implementierte Code für die Modellierung von Kurztextthemen. Er beschrieb die Implementierung in dem Artikel "Modellieren von Sätzen im latenten Raum" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) und der Code ist hier verfügbar: http: // www .cs.columbia.edu / ~ weiwei / code.html
Obwohl dies keine Themenmodellierung ist, können Sie LibShortText verwenden, wenn Sie eine Klassifizierungsaufgabe mit kurzen Texten haben. Aus der Beschreibung ihrer Website

"LibShortText ist ein Open-Source-Tool für die Klassifizierung und Analyse von Kurztexten. Es kann beispielsweise die Klassifizierung von Titeln, Fragen, Sätzen und Kurznachrichten übernehmen ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/

— DPS
quelle

6

Obwohl ich mit seiner Arbeit nicht besonders vertraut bin, weiß ich, dass Jacob Eisenstein in der Textanalyse und in grafischen Modellen in Twitter-Daten gearbeitet hat. In diesem Artikel wird insbesondere eine Anwendung der Themenmodellierung in Twitter-Daten und Microblogs beschrieben.

Edit: eigentlich nach dem Lesen der Zeitung ein bisschen mehr, sagen sie:

Die durchschnittliche Nachricht auf Twitter besteht jedoch nur aus 16 Wort-Tokens, was für die traditionelle Themenmodellierung zu spärlich ist. Stattdessen haben wir alle Nachrichten eines bestimmten Benutzers in einem einzigen Dokument zusammengefasst.

Vielleicht hilft dieses Papier nicht viel, aber vielleicht führen Sie auch andere Eisenstein-Publikationen in die richtige Richtung.

— Junier
quelle

6

Ein kürzlich veröffentlichtes Papier mit dem Titel " Ein Biterm-Themenmodell für Kurztext " (WWW13) hat einige Fortschritte in diesem Thema erzielt. Hier ist der Code dafür

— Xiaohui Yan
quelle

2

Ich bestätige, dass BiTerm LDA für die Modellierung von kurzen Textäußerungen (3-8 Wörter) und die anschließende Klassifizierung ziemlich gut funktioniert hat.

— Vladislavs Dovgalecs