Was ist der Unterschied zwischen Textklassifizierung und Themenmodellen?

20

Ich kenne den Unterschied zwischen Clustering und Klassifikation beim maschinellen Lernen, verstehe aber nicht den Unterschied zwischen Textklassifikation und Themenmodellierung für Dokumente. Kann ich die Themenmodellierung über Dokumenten verwenden, um ein Thema zu identifizieren? Kann ich Klassifizierungsmethoden verwenden, um den Text in diesen Dokumenten zu klassifizieren?

classification text-mining topic-model

— Ali
quelle

28

Textklassifizierung

Ich gebe Ihnen eine Reihe von Dokumenten, an die jeweils ein Etikett angehängt ist. Ich bitte Sie, zu erfahren, warum Sie der Meinung sind, dass der Inhalt der Dokumente aufgrund ihrer Worte mit diesen Etiketten versehen wurde. Dann gebe ich Ihnen neue Dokumente und frage, was Ihrer Meinung nach das Etikett für jedes sein sollte. Die Etiketten haben für mich eine Bedeutung, nicht unbedingt für Sie.

Themenmodellierung

Ich gebe Ihnen ein paar Dokumente ohne Etiketten. Ich bitte Sie zu erklären, warum die Dokumente die Wörter haben, die sie tun, indem Sie einige Themen identifizieren, die jeweils "ungefähr" sind. Sie sagen mir die Themen, indem Sie mir sagen, wie viel von jedem in jedem Dokument ist, und ich entscheide, was die Themen "bedeuten", wenn überhaupt.

Du müsstest mir klar machen, was du meinst, indem du "ein Thema identifizierst" oder "den Text klassifizierst".

— Sean Owen
quelle

10

Ich weiß aber nicht, was zwischen Textklassifizierung und Themenmodellen in Dokumenten zu unterscheiden ist

Text Classificationist eine Form des überwachten Lernens, daher sind die möglichen Klassen im Voraus bekannt / definiert und werden sich nicht ändern.

Topic Modelingist eine Form des unbeaufsichtigten Lernens (ähnlich wie Clustering), daher sind die möglichen Themen von vornherein unbekannt . Sie werden als Teil der Generierung der Themenmodelle definiert. Mit einem nicht deterministischen Algorithmus wie LDA erhalten Sie jedes Mal, wenn Sie den Algorithmus ausführen, andere Themen.

Text classificationOft handelt es sich um sich gegenseitig ausschließende Klassen - stellen Sie sich diese als Eimer vor.
Aber es muss nicht so sein: Bei der richtigen Art von beschrifteten Eingabedaten können Sie eine Reihe von Binärklassifikatoren festlegen, die sich nicht gegenseitig ausschließen.

Topic modelingschließt sich in der Regel nicht gegenseitig aus: Die Wahrscheinlichkeitsverteilung desselben Dokuments kann sich über viele Themen erstrecken. Darüber hinaus gibt es hierarchische Methoden zur Themenmodellierung.

Kann ich auch ein Themenmodell für die Dokumente verwenden, um später ein Thema zu identifizieren? Kann ich die Klassifizierung verwenden, um den Text in diesen Dokumenten zu klassifizieren?

Wenn Sie sich fragen, ob Sie alle Dokumente, die einem Thema durch einen Themenmodellierungsalgorithmus zugewiesen wurden, verwenden und dann einen Klassifikator auf diese Sammlung anwenden können, können Sie dies auf jeden Fall tun.

Ich bin mir jedoch nicht sicher, ob dies sinnvoll ist: Sie müssen mindestens einen Schwellenwert für die Themenwahrscheinlichkeitsverteilung festlegen, über dem Sie Dokumente in Ihre Sammlung aufnehmen (normalerweise 0.05-0.1).

Können Sie Ihren Anwendungsfall erläutern?

Übrigens, es gibt ein großartiges Tutorial zur Themenmodellierung mit der MALLET-Bibliothek für Java, das hier verfügbar ist: Erste Schritte mit der Themenmodellierung und MALLET

— Charlie Greenbacker
quelle

4

Themenmodelle sind in der Regel unbeaufsichtigt . Es gibt auch "betreute Themenmodelle"; Aber auch dann versuchen sie, Themen innerhalb einer Klasse zu modellieren .

Sie haben vielleicht eine Klasse "Fußball", aber es kann Themen in dieser Klasse geben, die sich auf bestimmte Spiele oder Mannschaften beziehen.

Die Herausforderung bei Themen besteht darin, dass sie sich im Laufe der Zeit ändern. Betrachten Sie das obige Übereinstimmungsbeispiel. Solche Themen können auftauchen und wieder verschwinden.

— Erich Schubert
quelle