Unterschied zwischen ep-SVR und nu-SVR (und SVR der kleinsten Quadrate)

11

Ich versuche herauszufinden, welcher SVR für diese Art von Daten geeignet ist.

Ich kenne 4 Arten von SVRs:

Epsilon
nu
kleinste Quadrate und
linear.

Ich verstehe, dass linearer SVR mehr oder weniger wie Lasso mit L1 Reg ist. Aber was ist der Unterschied zwischen den verbleibenden 3 Techniken?

regression svm

— Sharath Chandra
quelle

11

In -SVR wird der Parameter verwendet, um den Anteil der Anzahl der Unterstützungsvektoren, die Sie in Ihrer Lösung behalten möchten, an der Gesamtzahl der Proben im Datensatz zu bestimmen. In -SVR wird der Parameter in die Formulierung des Optimierungsproblems eingeführt und für Sie automatisch (optimal) geschätzt. $\nu$ $\nu$ $\nu$ $\epsilon$

In -SVR haben Sie jedoch keine Kontrolle darüber, wie viele Datenvektoren aus dem Datensatz zu Unterstützungsvektoren werden. Es können einige sein, es können viele sein. Sie haben jedoch die vollständige Kontrolle darüber, wie viel Fehler Ihr Modell zulassen darf, und alles, was über das angegebene hinausgeht, wird proportional zu , dem Regularisierungsparameter , bestraft . $\epsilon$ $\epsilon$ $C$

Je nachdem, was ich will, wähle ich zwischen den beiden. Wenn ich wirklich verzweifelt nach einer kleinen Lösung (weniger Unterstützungsvektoren) bin, wähle ich -SVR und hoffe , ein anständiges Modell zu erhalten. Aber wenn ich wirklich die Fehlermenge in meinem Modell kontrollieren und die beste Leistung erzielen möchte , wähle ich -SVR und hoffe, dass das Modell nicht zu komplex ist (viele Unterstützungsvektoren). $\nu$ $\epsilon$

— Pablo Rivas
quelle

5

Der Unterschied zwischen -SVR und -SVR besteht darin, wie das Trainingsproblem parametrisiert wird. Beide verwenden eine Art Scharnierverlust in der Kostenfunktion. Der Parameter in -SVM kann verwendet werden, um die Anzahl der Unterstützungsvektoren im resultierenden Modell zu steuern. Bei entsprechenden Parametern ist genau das gleiche Problem gelöst. ¹ $\epsilon$ $\nu$ $\nu$ $\nu$

SVR der kleinsten Quadrate unterscheidet sich von den beiden anderen durch die Verwendung quadratischer Residuen in der Kostenfunktion anstelle des Scharnierverlusts.

¹ : C.-C. Chang und C.-J. Lin. Training Support Vector Regression: Theorie und Algorithmen $\nu$ . Neural Computation, 14 (8): 1959-1977, 2002.

— Marc Claesen
quelle

Danke für deine Antwort Marc. Können wir also die geeignete Methode anhand unseres Datensatzes unterscheiden? Wenn ja, können Sie mir einige Hinweise geben? Ich habe 40000 Samples mit 200 verschiedenen Ausgängen. Man kann sich also 200 Sätze mit 200 einzigartigen Proben vorstellen. Die Eingaben für alle 40000 sind jedoch unterschiedlich, nur die Ausgabe ist für 200 Samples eindeutig.

— Sharath Chandra

0

Ich mag sowohl Pablo als auch Marc Antworten. Ein zusätzlicher Punkt:

In dem von Marc zitierten Artikel steht geschrieben (Abschnitt 4)

"Die Motivation von -SVR ist, dass es möglicherweise nicht einfach ist, den Parameter zu bestimmen . Daher interessieren wir uns hier für den möglichen Bereich von . Wie erwartet zeigen die Ergebnisse, dass mit den Zielwerten zusammenhängt . $\nu$ $\epsilon$ $\epsilon$ $\epsilon$ $y$

[...]

Da der effektive Bereich von von den Zielwerten , besteht eine Möglichkeit, diese Schwierigkeit für -SVM zu lösen, darin, die Zielwerte vor dem Training der Daten zu skalieren. Zum Beispiel werden , wenn alle Zielwerte skaliert auf , dann ist die effektive Reichweite von wird , das gleiche wie die von . Dann ist es möglicherweise einfacher, zu wählen . " $\epsilon$ $y$ $\epsilon$ $[-1,+1]$ $\epsilon$ $[0, 1]$ $\nu$ $\epsilon$

Das lässt mich denken, dass es einfacher sein sollte, Ihre Zielvariablen zu skalieren und -SVR zu verwenden, als zu entscheiden, ob Sie oder SVR verwenden. $\epsilon$ $\epsilon -$ $\nu -$

Was denken Sie?

— spec3
quelle