Mein Datensatz ist klein (120 Samples), die Anzahl der Features variiert jedoch von (1000-200.000). Obwohl ich eine Feature-Auswahl vornehme, um eine Untergruppe von Features auszuwählen, ist diese möglicherweise immer noch zu groß.
Meine erste Frage ist, wie SVM mit Überanpassung umgeht, wenn überhaupt.
Zweitens bin ich beim Studium der Überanpassung bei der Klassifizierung zu dem Schluss gekommen, dass auch Datensätze mit einer geringen Anzahl von Merkmalen überanpassbar sind. Wenn wir keine Merkmale haben, die mit dem Klassenetikett korrelieren, findet auf jeden Fall eine Überanpassung statt. Deshalb frage ich mich jetzt, wozu die automatische Klassifizierung gut ist, wenn wir nicht die richtigen Features für ein Klassenlabel finden können. Im Falle einer Dokumentklassifizierung würde dies bedeuten, dass ein Thesaurus mit Wörtern, die sich auf die Etiketten beziehen, manuell erstellt wird, was sehr zeitaufwendig ist. Ich denke, was ich damit sagen will, ist, dass es sehr schwierig ist, ein verallgemeinertes Modell zu erstellen, ohne die richtigen Funktionen von Hand auszuwählen.
Auch wenn die experimentellen Ergebnisse nicht zeigen, dass die Ergebnisse eine geringe oder keine Überanpassung aufweisen, wird dies bedeutungslos. Gibt es eine Möglichkeit, dies zu messen?