Das Problem, mit dem ich mich befasse, ist die Kategorisierung von Kurztexten in mehrere Klassen. Mein aktueller Ansatz ist die Verwendung von tf-idf-gewichteten Termfrequenzen und das Erlernen eines einfachen linearen Klassifikators (logistische Regression). Dies funktioniert recht gut (ca. 90% Makro F-1 am Testgerät, fast 100% am Trainingsgerät). Ein großes Problem sind unsichtbare Wörter / n-Gramm.
Ich versuche, den Klassifikator zu verbessern, indem ich andere Merkmale hinzufüge, z. B. einen Vektor mit fester Größe, der unter Verwendung von Verteilungsähnlichkeiten (wie von word2vec berechnet) berechnet wurde, oder andere kategoriale Merkmale der Beispiele. Meine Idee war es, die Features einfach zu den spärlichen Eingabefeatures aus der Worttüte hinzuzufügen. Dies führt jedoch zu einer schlechteren Leistung des Test- und Trainingssatzes. Die zusätzlichen Funktionen für sich allein ergeben etwa 80% F-1 im Testsatz, so dass sie kein Müll sind. Das Skalieren der Funktionen hat auch nicht geholfen. Ich bin der Meinung, dass diese Art von Funktionen nicht gut mit den (spärlichen) Wortfeatures zusammenpassen.
Die Frage ist also: Unter der Annahme, dass die zusätzlichen Funktionen zusätzliche Informationen liefern, wie lassen sie sich am besten integrieren? Könnte man getrennte Klassifikatoren trainieren und in einer Art Ensemble-Arbeit kombinieren (dies hätte wahrscheinlich den Nachteil, dass keine Interaktion zwischen den Merkmalen der verschiedenen Klassifikatoren erfasst werden könnte)? Gibt es andere komplexere Modelle, die ich berücksichtigen sollte?