In Bezug auf den Ansatz leistet SVM mit einem RBF-Kernel gute Arbeit, aber SVMs können durch große Objektgrößen verlangsamt werden, es sei denn, Sie verwenden CV mit z. B. einem Zehntel der Daten, die zufällig jeder Falte zugewiesen werden. Haben Sie sich jedoch gefragt, warum Sie SVMs überhaupt einsetzen?
Haben Sie eine multivariate lineare Regression versucht, , wobei jeder Datensatz von mit codiert ist, wenn sich das te Objekt befindet Klasse und sonst? Wenn die Klassifizierungsgenauigkeit bei Verwendung der linearen Regression bemerkenswert hoch ist, sind Ihre Daten linear trennbar und komplexere Methoden wie SVMs und ANNs werden nicht benötigt. Schritt 2 würde zeigen, dass k-nächster Nachbar, naive Bayes, lineare (Fisher) Diskriminanzanalyse, polytome logistische Regression usw. zusammenbrechen und scheitern.Y=XβYyij=+1ijyij=−1
In Bezug auf die Terminologie könnten Sie das Problem der Erhöhung der Klassengewichte im Zusammenhang mit "geringeren Anteilen von Objekten in bestimmten Klassen" oder "Klassengröße nahe Null" ansprechen. Der Versatz wird in der Regel zur Beschreibung der Verteilung der Werte eines Features verwendet, z. B. bei Versatz, Fettschwänzen usw.
Wie viele Funktionen haben Sie? Haben Sie versucht, unbeaufsichtigtes Clustering (Klassenerkennung) für die 100.000 Objekte durchzuführen, bevor Sie mit SVM eine überwachte Klassifizierung (Klassenvorhersage) versucht haben? Möglicherweise können die 100.000 Objekte in weniger Klassen als 50 gruppiert werden, für die die neue Klassenmitgliedschaft während der Klassifizierungsanalyse als Zielklasse verwendet werden könnte. Dies kann das Problem einer Klassengröße nahe Null lindern.