Umgang mit verschiedenen Textdaten


7

Ich arbeite derzeit mit einem Datensatz mit einer Vielzahl von Dokumentlängen - von einem einzelnen Wort bis zu einer ganzen Textseite. Darüber hinaus variieren die grammatikalische Struktur und die Verwendung von Interpunktion von Dokument zu Dokument erheblich. Ziel ist es, diese Dokumente in eine von etwa 10 bis 15 Kategorien einzuteilen. Ich verwende derzeit die Ridge-Regression und die logistische Regression für die Aufgabe sowie den CV für die Alpha-Werte von Ridge. Die Merkmalsvektoren sind tf-idf ngramme.

Kürzlich habe ich festgestellt, dass längere Dokumente viel seltener kategorisiert werden. Warum könnte dies der Fall sein und wie kann man für diese Art von Variation "normalisieren"? Wie geht man allgemein mit verschiedenen Datensätzen um? Sollten Dokumente basierend auf Metriken wie Dokumentlänge, Verwendung von Interpunktion, grammatikalischer Genauigkeit usw. gruppiert und dann durch verschiedene Klassifizierer geführt werden?


Können Sie Ihre Frage klären, indem Sie die Ziele dieser Analyse definieren? Was ist die Natur der 10 bis 15 Kategorien? Definieren Sie diese Kategorien a priori oder handelt es sich um Cluster, die von den Daten selbst vorgeschlagen werden? Ich habe den Eindruck, dass sich Ihre Frage eher auf die Auswahl eines guten Datencodierungs- / Transformationsprozesses als auf Datenanalysemethoden (z. B. Diskriminanzanalyse, Klassifizierung) konzentriert.
MrMeritology

1
Wenn Ihre Dokumente von einzelnen Wörtern bis zur ganzen Textseite reichen und Sie eine beliebige Kombination von Dokumentlängen / -typen in einer beliebigen Kategorie anstreben, müssen Sie eine sehr einfache Codierungsmethode wie "Bag of Words" verwenden. Alles, was komplizierter ist (z. B. Grammatikstil), lässt sich nicht über diesen Bereich skalieren.
MrMeritology

Antworten:


5

Ich bin nicht sicher, wie Sie ein Regressionsframework für die Dokumentklassifizierung anwenden. Die Art und Weise, wie ich mich dem Problem nähere, besteht darin, einen standardmäßigen diskriminativen Klassifizierungsansatz wie SVM anzuwenden.

Bei einem diskriminativen Klassifizierungsansatz ist der Begriff der Ähnlichkeit oder des umgekehrten Abstands zwischen Datenpunkten (in diesem Fall Dokumenten) von entscheidender Bedeutung. Zum Glück für Dokumente gibt es eine Standardmethode zum Definieren der paarweisen Ähnlichkeit. Dies ist das Standard- Cosinus-Ähnlichkeitsmaß , bei dem die Normalisierung der Dokumentlänge verwendet wird, um unterschiedliche Dokumentlängen zu berücksichtigen.

In der Kosinusähnlichkeit würden Sie praktisch mit relativen Termgewichten arbeiten, die durch Dokumentlängen normalisiert sind, und daher sollte die Diversität der Dokumentlänge bei der Ähnlichkeitsberechnung kein großes Problem darstellen.

Man muss auch vorsichtig sein, wenn man idf in Termgewichten anwendet. Wenn die Anzahl der Dokumente nicht signifikant groß ist, kann das IDF-Maß statistisch ungenau sein, wodurch den Begriffsgewichten Rauschen hinzugefügt wird. Es ist auch eine Standardpraxis, Stoppwörter und Satzzeichen zu ignorieren.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.