Ich weiß aber nicht, was zwischen Textklassifizierung und Themenmodellen in Dokumenten zu unterscheiden ist
Text Classification
ist eine Form des überwachten Lernens, daher sind die möglichen Klassen im Voraus bekannt / definiert und werden sich nicht ändern.
Topic Modeling
ist eine Form des unbeaufsichtigten Lernens (ähnlich wie Clustering), daher sind die möglichen Themen von vornherein unbekannt . Sie werden als Teil der Generierung der Themenmodelle definiert. Mit einem nicht deterministischen Algorithmus wie LDA erhalten Sie jedes Mal, wenn Sie den Algorithmus ausführen, andere Themen.
Text classification
Oft handelt es sich um sich gegenseitig ausschließende Klassen - stellen Sie sich diese als Eimer vor.
Aber es muss nicht so sein: Bei der richtigen Art von beschrifteten Eingabedaten können Sie eine Reihe von Binärklassifikatoren festlegen, die sich nicht gegenseitig ausschließen.
Topic modeling
schließt sich in der Regel nicht gegenseitig aus: Die Wahrscheinlichkeitsverteilung desselben Dokuments kann sich über viele Themen erstrecken. Darüber hinaus gibt es hierarchische Methoden zur Themenmodellierung.
Kann ich auch ein Themenmodell für die Dokumente verwenden, um später ein Thema zu identifizieren? Kann ich die Klassifizierung verwenden, um den Text in diesen Dokumenten zu klassifizieren?
Wenn Sie sich fragen, ob Sie alle Dokumente, die einem Thema durch einen Themenmodellierungsalgorithmus zugewiesen wurden, verwenden und dann einen Klassifikator auf diese Sammlung anwenden können, können Sie dies auf jeden Fall tun.
Ich bin mir jedoch nicht sicher, ob dies sinnvoll ist: Sie müssen mindestens einen Schwellenwert für die Themenwahrscheinlichkeitsverteilung festlegen, über dem Sie Dokumente in Ihre Sammlung aufnehmen (normalerweise 0.05-0.1).
Können Sie Ihren Anwendungsfall erläutern?
Übrigens, es gibt ein großartiges Tutorial zur Themenmodellierung mit der MALLET-Bibliothek für Java, das hier verfügbar ist: Erste Schritte mit der Themenmodellierung und MALLET