Textklassifizierungsprobleme sind in der Regel sehr hochdimensional (viele Features) und hochdimensionale Probleme sind wahrscheinlich linear trennbar (da Sie alle d + 1-Punkte in einem d-dimensionalen Raum mit einem linearen Klassifikator trennen können, unabhängig davon, wie die Punkte lauten gekennzeichnet sind). Lineare Klassifikatoren, ob Ridge-Regression oder SVM mit einem linearen Kernel, dürften also gut abschneiden. In beiden Fällen wird die Komplexität des Klassifikators durch den Ridge-Parameter oder C für die SVM (als tdc-Erwähnung +1) gesteuert und eine Überanpassung vermieden, indem die Muster der einzelnen Klassen durch große Ränder getrennt werden (dh die Entscheidungsfläche verläuft entlang der SVM) Mitte der Lücke zwischen den beiden Punktesammlungen). Um jedoch eine gute Leistung zu erzielen, müssen die Kamm- / Regularisierungsparameter richtig eingestellt werden (ich verwende eine einmalige Kreuzvalidierung, da sie billig ist).
Der Grund, warum die Gratregression gut funktioniert, ist, dass nichtlineare Methoden zu leistungsfähig sind und es schwierig ist, eine Überanpassung zu vermeiden. Es mag einen nichtlinearen Klassifikator geben, der eine bessere Verallgemeinerungsleistung bietet als das beste lineare Modell, aber es ist zu schwierig, diese Parameter unter Verwendung der uns vorliegenden endlichen Stichprobe von Trainingsdaten abzuschätzen. Je einfacher das Modell in der Praxis ist, desto weniger Probleme haben wir bei der Schätzung der Parameter, sodass die Tendenz zur Überanpassung geringer ist und wir in der Praxis bessere Ergebnisse erzielen.
Ein weiteres Problem ist die Feature-Auswahl. Die Ridge-Regression vermeidet eine Überanpassung, indem die Gewichte reguliert werden, um sie klein zu halten. Die Modellauswahl ist einfach, da Sie nur den Wert eines einzelnen Regressionsparameters auswählen müssen. Wenn Sie versuchen, eine Überanpassung zu vermeiden, indem Sie den optimalen Satz von Merkmalen auswählen, wird die Modellauswahl schwierig, da für jedes Merkmal ein Freiheitsgrad (eine Art) besteht, mit dem Sie das Merkmalauswahlkriterium überanpassen können Am Ende stehen eine Reihe von Funktionen zur Verfügung, die für diese bestimmte Datenprobe optimal sind, jedoch eine schlechte Generalisierungsleistung bieten. Wenn Sie die Feature-Auswahl nicht durchführen und die Regularisierung nicht verwenden, kann dies häufig zu einer besseren Prognoseleistung führen.
Ich verwende oft Bagging (bilden Sie ein Komitee von Modellen, die auf bootstraped Samples aus dem Trainingssatz trainiert wurden) mit Ridge-Regression-Modellen, was häufig zu einer Leistungsverbesserung führt. Da alle Modelle linear sind, können Sie sie kombinieren, um ein einziges lineares Modell zu bilden Es gibt also keine Leistungseinbußen im Betrieb.