Klassifizierung von Gesprächen anhand von Inhalten


8

Ich möchte in der Lage sein, einen Klassifikator zu entwerfen, der zwischen verschiedenen Arten von Gesprächen unterscheiden kann (nicht unbedingt etwas über Stimmung, Aufrichtigkeit oder Ergebnis aussagen, das ist etwas zu weit hergeholt).

Zu wissen, dass unter 50 Stichproben von Gesprächen 10 beide Parteien einbeziehen, die Informationen über ein zukünftiges Ereignis suchen, 30 kein Ziel zu haben scheinen und 10 eine Partei einbeziehen, die Informationen von einem anderen über ein vergangenes Ereignis sucht (der Algorithmus würde dies tatsächlich klassifizieren diese als Typen I, II oder III ohne Rücksicht auf die tatsächlichen Umstände).

Mit anderen Worten, die Reihenfolge der Sprecher würde zusammen mit dem Inhalt eine Rolle spielen, möglicherweise unterstützt durch das Setzen des Algorithmus mit bestimmten Schlüsselwörtern.

Gibt es ein Klassifizierungssystem, das diese Aufgabe mit einem ziemlich hohen Maß an Präzision ausführen könnte?


1
Sind dies Textdaten oder Audiodaten?
tdc

1
@tdc Textdaten, sorry
jonsca

Antworten:


4

So würde ich es angehen. Sie müssen tatsächlich überprüfen, ob sich ein Text in Klasse I oder III befindet (andernfalls wäre es Klasse II).

  • Definieren Sie zunächst eine Worttasche für die Klassen I und III. Sie können dies manuell tun
  • Berechnen Sie für jeden Text die tf-idf für die Wörter in diesen beiden Klassen und addieren Sie sie (erhalten Sie zwei Summen).
  • Wenn einige dieser beiden Summen über einem vordefinierten Schwellenwert liegen, gehört sie zu dieser Klasse.

Wenn Sie einen Lerndatensatz haben, der groß genug ist, können Sie leicht herausfinden, was die beiden Wortbeutel sowie die beiden Schwellenwerte für sie sind.


Ich wollte gerade tf-idf überprüfen, nachdem ich Ihre Frage gelesen habe. Hört sich gut an.
Jonsca
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.