Wie funktioniert die Unterstützung der Vektorregression intuitiv?


25

Alle Beispiele für SVMs beziehen sich auf die Klassifizierung. Ich verstehe nicht, wie eine SVM für die Regression (Support Vector Regressor) in der Regression verwendet werden könnte.

Nach meinem Verständnis maximiert eine SVM den Abstand zwischen zwei Klassen, um die optimale Hyperebene zu finden. Wie würde dies möglicherweise bei einem Regressionsproblem funktionieren?

Antworten:


11

Kurz gesagt: Die Maximierung des Spielraums kann allgemeiner als Regularisierung der Lösung durch Minimierung von (was im Wesentlichen die Modellkomplexität minimiert) angesehen werden. Dies erfolgt sowohl bei der Klassifizierung als auch bei der Regression. Aber im Fall der Klassifizierung ist diese Minimierung unter der Bedingung erfolgen , dass alle Beispiele klassifizieren sind korrekt und im Fall der Regression unter der Bedingung , dass der Wert allen Beispiele abweicht weniger als die erforderliche Genauigkeit von für die Regression .y ϵ f ( x )wyϵf(x)


Um zu verstehen, wie Sie von der Klassifikation zur Regression übergehen, ist es hilfreich zu sehen, wie in beiden Fällen dieselbe SVM-Theorie angewendet wird, um das Problem als konvexes Optimierungsproblem zu formulieren. Ich werde versuchen, beide nebeneinander zu stellen.

(Ich werde lockere Variablen ignorieren, die Fehlklassifizierungen und Abweichungen über der Genauigkeit zulassen. )ϵ

Einstufung

In diesem Fall besteht das Ziel darin, eine Funktion wobei für positive Beispiele und für negative Beispiele gilt. Unter diesen Bedingungen wollen wir den Spielraum (Abstand zwischen den beiden roten Balken) maximieren, was nichts anderes ist, als die Ableitung von minimieren .f ( x ) 1 f ( x ) - 1 f ' = wf(x)=wx+bf(x)1f(x)1f=w

Die Intuition hinter dem Maximieren des Spielraums ist, dass dies uns eine eindeutige Lösung für das Problem des Findens von (dh wir verwerfen zum Beispiel die blaue Linie) und dass diese Lösung unter diesen Bedingungen die allgemeinste ist, dh sie wirkt als Regularisierung . Dies kann so gesehen werden, dass um die Entscheidungsgrenze (wo sich rote und schwarze Linien kreuzen) die Klassifizierungsunsicherheit am größten ist und die Wahl des niedrigsten Werts für in diesem Bereich die allgemeinste Lösung ergibt.f ( x )f(x)f(x)

Bildbeschreibung hier eingeben

Die Datenpunkte an den 2 roten Balken sind in diesem Fall die Stützvektoren, sie entsprechen den Nicht-Null-Lagrange-Multiplikatoren des Gleichheitsteils der Ungleichungsbedingungen undf ( x ) - 1f(x)1f(x)1

Regression

In diesem Fall besteht das Ziel darin, eine Funktion (rote Linie) unter der Bedingung zu finden, dass innerhalb einer erforderlichen Genauigkeit vom Wert (schwarze Balken) von liegt jeder Datenpunkt, dh wobei der Abstand zwischen der roten und der grauen Linie ist. Unter dieser Bedingung wollen wir aus Gründen der Regularisierung wieder minimieren und als Ergebnis des konvexen Optimierungsproblems eine eindeutige Lösung erhalten. Man kann sehen, wie das Minimieren von in einem allgemeineren Fall als der Extremwert von resultiertf(x)=wx+bf(x)ϵy(x)|y(x)f(x)|ϵepsilonf(x)=www=0 würde bedeuten, dass überhaupt keine funktionale Beziehung besteht, was das allgemeinste Ergebnis ist, das man aus den Daten erhalten kann.

Bildbeschreibung hier eingeben

Die Datenpunkte an den 2 roten Balken sind in diesem Fall die Stützvektoren, sie entsprechen den Nicht-Null-Lagrange-Multiplikatoren des Gleichheitsteils der Ungleichungsbedingung .|yf(x)|ϵ

Fazit

Beide Fälle führen zu folgendem Problem:

min12w2

Unter der Bedingung, dass:

  • Alle Beispiele sind korrekt klassifiziert (Klassifizierung)
  • Der Wert aller Beispiele weicht weniger als von . (Regression)yϵf(x)

0

In SVM für Klassifizierungsprobleme versuchen wir tatsächlich, die Klasse so weit wie möglich von der Trennlinie (Hyperebene) zu trennen, und im Gegensatz zur logistischen Regression erstellen wir von beiden Seiten der Hyperebene eine Sicherheitsgrenze (zwischen logistischer Regression und SVM-Klassifizierung besteht ein Unterschied) verlustfunktion). Irgendwann haben sich verschiedene Datenpunkte so weit wie möglich von der Hyperebene entfernt.

In SVM für Regressionsprobleme möchten wir ein Modell anpassen, um eine Menge für die Zukunft vorherzusagen. Daher möchten wir, dass der Datenpunkt (Beobachtung) im Gegensatz zu SVM für die Klassifizierung so nah wie möglich an der Hyperebene liegt. Die SVM-Regression, die von Simple Regression wie (Ordinary Least Square) durch diesen Unterschied geerbt wurde, dass wir einen Epsilon-Bereich von beiden Seiten der Hyperebene definieren, um die Regressionsfunktion unempfindlich gegenüber dem Fehler zu machen, im Gegensatz zu SVM für die Klassifizierung, für die wir eine Grenze definieren, die sicher ist die zukünftige Entscheidung (Vorhersage). Schließlich,

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.