Ich arbeite derzeit mit einem Datensatz mit einer Vielzahl von Dokumentlängen - von einem einzelnen Wort bis zu einer ganzen Textseite. Darüber hinaus variieren die grammatikalische Struktur und die Verwendung von Interpunktion von Dokument zu Dokument erheblich. Ziel ist es, diese Dokumente in eine von etwa 10 bis 15 Kategorien einzuteilen. Ich verwende derzeit die Ridge-Regression und die logistische Regression für die Aufgabe sowie den CV für die Alpha-Werte von Ridge. Die Merkmalsvektoren sind tf-idf ngramme.
Kürzlich habe ich festgestellt, dass längere Dokumente viel seltener kategorisiert werden. Warum könnte dies der Fall sein und wie kann man für diese Art von Variation "normalisieren"? Wie geht man allgemein mit verschiedenen Datensätzen um? Sollten Dokumente basierend auf Metriken wie Dokumentlänge, Verwendung von Interpunktion, grammatikalischer Genauigkeit usw. gruppiert und dann durch verschiedene Klassifizierer geführt werden?