Themenmodelle für kurze Dokumente


14

Inspiriert von dieser Frage frage ich mich, ob an Themenmodellen für große Sammlungen von extrem kurzen Texten gearbeitet wurde. Meiner Intuition nach sollte Twitter eine natürliche Inspiration für solche Modelle sein. Nach einigen begrenzten Experimenten sieht es jedoch so aus, als ob Standardthemenmodelle (LDA usw.) mit dieser Art von Daten nur eine sehr geringe Leistung erbringen.

Kennt jemand etwas, das in diesem Bereich geleistet wurde? In diesem Artikel geht es um das Anwenden von LDA auf Twitter, aber es interessiert mich wirklich, ob es andere Algorithmen gibt, die im Kontext mit kurzen Dokumenten eine bessere Leistung erzielen.


2
Twitter ist ein besonders schwieriger Datensatz für die Themenmodellierung, nicht nur aufgrund der geringen Größe der "Dokumente", sondern auch aufgrund der Art des Texts. Menschen neigen dazu, verschiedene SMS-Abkürzungen zu verwenden, was das Erkennen von Co-Ereignissen noch schwieriger macht.
Nick

Siehe die Liste der guten Artikel
NQD

Antworten:


7

Dies ist eine späte Antwort, aber sie kann für andere nützlich sein, die nach ähnlichen Recherchen und Tools für dieses Problem suchen:

  1. Weiwei Guo aus Columbia implementierte Code für die Modellierung von Kurztextthemen. Er beschrieb die Implementierung in dem Artikel "Modellieren von Sätzen im latenten Raum" ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ) und der Code ist hier verfügbar: http: // www .cs.columbia.edu / ~ weiwei / code.html

  2. Obwohl dies keine Themenmodellierung ist, können Sie LibShortText verwenden, wenn Sie eine Klassifizierungsaufgabe mit kurzen Texten haben. Aus der Beschreibung ihrer Website

"LibShortText ist ein Open-Source-Tool für die Klassifizierung und Analyse von Kurztexten. Es kann beispielsweise die Klassifizierung von Titeln, Fragen, Sätzen und Kurznachrichten übernehmen ..."

http://www.csie.ntu.edu.tw/~cjlin/libshorttext/


6

Obwohl ich mit seiner Arbeit nicht besonders vertraut bin, weiß ich, dass Jacob Eisenstein in der Textanalyse und in grafischen Modellen in Twitter-Daten gearbeitet hat. In diesem Artikel wird insbesondere eine Anwendung der Themenmodellierung in Twitter-Daten und Microblogs beschrieben.

Edit: eigentlich nach dem Lesen der Zeitung ein bisschen mehr, sagen sie:

Die durchschnittliche Nachricht auf Twitter besteht jedoch nur aus 16 Wort-Tokens, was für die traditionelle Themenmodellierung zu spärlich ist. Stattdessen haben wir alle Nachrichten eines bestimmten Benutzers in einem einzigen Dokument zusammengefasst.

Vielleicht hilft dieses Papier nicht viel, aber vielleicht führen Sie auch andere Eisenstein-Publikationen in die richtige Richtung.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.