Generalisierungsgrenzen für SVM

Ich interessiere mich für theoretische Ergebnisse für die Verallgemeinerungsfähigkeit von Support Vector Machines, z. B. Grenzen der Wahrscheinlichkeit von Klassifizierungsfehlern und der Vapnik-Chervonenkis (VC) -Dimension dieser Maschinen. Beim Lesen der Literatur hatte ich jedoch den Eindruck, dass sich einige ähnliche wiederkehrende Ergebnisse von Autor zu Autor geringfügig unterscheiden, insbesondere in Bezug auf die technischen Bedingungen, die für eine bestimmte Bindung erforderlich sind.

Im Folgenden werde ich mich an die Struktur des SVM-Problems und an Zustand 3 der wichtigsten Verallgemeinerungsergebnisse erinnern, die ich in der einen oder anderen Form immer wieder gefunden habe $-$ ich gebe 3 Hauptreferenzen während der gesamten Darstellung.

Problemstellung :

Angenommen, wir haben eine Datenstichprobe von unabhängigen und identisch verteilten (iid) Paaren $(x_i,y_i)_{1\leq i\leq n}$ wobei für alle $i$ , $x_i \in \mathbb{R}^p$ und $y_i \in \{-1,1\}$ . Wir konstruieren eine Support Vector Machine (SVM), die den minimalen Rand $m^*$ zwischen der durch definierten trennenden Hyperebene maximiert , $\{x : w \cdot x + b = 0\}$ und und der nächstgelegene Punkt zwischen , um die beiden durchunddefinierten Klassen zu trennen. Wir lassen die SVM einige Fehler durch einen weichen Rand zulassen, indemwirSlack-Variablen einführenaber zur Vereinfachung der Notation ignorieren wir die Möglichkeit von Kerneln. Die Lösungsparameter $w \in \mathbb{R}^p$ $b \in \mathbb{R}$ $x_1,\cdots,x_n$ $y = -1$ $y = 1$ $\xi_1,\cdots,\xi_n$ $-$ $w^*$ und $b^*$ werden durch Lösen des folgenden konvexen quadratischen Optimierungsprogramms erhalten:

\begin{aligned} min_{w, b, ξ_{1}, \dots, ξ_{n}} & \frac{1}{2} ‖ w ‖^{2} + C \sum_{i = 1}^{n} ξ_{i} \\ s.t. : & y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i} & , \forall i \in {1, \dots, n} \\ ξ_{i} \geq 0 & , \forall i \in {1, \dots, n} \end{aligned}

$\begin{align} \min_{w, \, b, \, \xi_1, \, \cdots, \, \xi_n} \; & \; \frac{1}{2}\|w\|^2 + C\sum_{i=1}^n\xi_i \\ \text{s.t.} \; : \; & \; y_i(w\cdot x_i+b) \geq 1 - \xi_i \, & , \, \forall \, i \in \{1,\cdots,n\} \\ & \; \xi_i \geq 0\, & , \, \forall \, i \in \{1,\cdots,n\} \end{align}$

Wir sind an der Generalisierungsfähigkeit dieser Maschine interessiert.

Vapnik-Chervonenkis-Dimension $VC$ :

Ein erstes Ergebnis ist (Vapnik, 2000) zu verdanken, in dem er die VC-Dimension einer trennenden Hyperebene begrenzt, Satz 5.1. Wenn wir , haben wir: $R = \max_{x_i} \|x_i\|$

V C \leq min ({(\frac{R}{m^{*}})}^{2}, p) + 1

$VC \leq \min \left( \left( \frac{R}{m^*}\right)^2, \, p\right) + 1$

Dieses Ergebnis findet sich erneut in (Burges, 1998), Satz 6. Es scheint jedoch, dass der Satz von Burges restriktiver ist als das gleiche Ergebnis von Vapnik, da er eine spezielle Kategorie von Klassifikatoren definieren muss, die als lückentolerante Klassifikatoren bekannt sind zu dem die SVM gehört , um den Satz zu formulieren. $-$ $-$

Grenzen der Fehlerwahrscheinlichkeit :

In (Vapnik, 2000) gibt Satz 5.2 auf Seite 139 die folgende Grenze für die SVM-Generalisierungsfähigkeit:

E [P_{error}] \leq \frac{1}{n} E [min (p, n_{S V}, (R ‖ w ‖)^{2})]

$\mathbb{E}[P_{\text{error}}] \leq \frac{1}{n}\mathbb{E} \left[ \min\left(p,n_{SV},(R \, \|w\|)^2 \right) \right]$

Dabei ist die Anzahl der Unterstützungsvektoren der SVM. Diese Ergebnisse scheinen wieder in (Burges, 1998), Gleichungen (86) bzw. (93) zu finden zu sein. Aber auch hier scheint sich Burges von Vapnik zu unterscheiden, da er die Komponenten innerhalb der oben genannten Minimalfunktion in verschiedenen Theoremen mit unterschiedlichen Bedingungen trennt. $n_{SV}$

Ein weiteres Ergebnis, das in (Vapnik, 2000), S. 133, erscheint, ist das folgende. Unter der Annahme, dass für alle , und und , definieren wir als gleich: $i$ $\|x_i\|^2 \leq R^2$ $h \equiv VC$ $\epsilon \in [0,1]$ $\zeta$

ζ = 4 \frac{h (ln \frac{2 n}{h} + 1) - ln \frac{ϵ}{4}}{n}

$\zeta = 4 \frac{h\left( \text{ln}\frac{2n}{h} + 1\right) - \text{ln}\frac{\epsilon}{4}}{n}$

Wir definieren auch als die Anzahl der vom SVM falsch klassifizierten Trainingsbeispiele. Dann mit einer Wahrscheinlichkeit von können wir behaupten , dass die Wahrscheinlichkeit , dass ein Testbeispiel wird nicht korrekt durch den getrennt wird -margin Hyperebene dh SVM mit Marge hat die gebunden: $n_{\text{error}}$ $1-\epsilon$ $m^*$ $-$ $m^*$ $-$

{P.}_{Error} \leq \frac{n_{Error}}{n} + \frac{ζ}{2} (1 + \sqrt{1 + \frac{4 n_{Error}}{n ζ}})

$P_{\text{error}} \leq \frac{n_{\text{error}}}{n} + \frac{\zeta}{2} \left( 1 + \sqrt{1+ \frac{4 \, n_{\text{error}}}{n \, \zeta}} \right)$

In (Hastie, Tibshirani und Friedman, 2009), S. 438, wird jedoch ein sehr ähnliches Ergebnis gefunden:

{Error}_{Prüfung} \leq ζ

$\text{Error}_{\text{Test}} \leq \zeta$

Fazit :

Es scheint mir, dass zwischen diesen Ergebnissen ein gewisser Konflikt besteht. Andererseits sind zwei dieser Referenzen, obwohl sie in der SVM-Literatur kanonisch sind, etwas alt (1998 und 2000), insbesondere wenn man bedenkt, dass die Erforschung des SVM-Algorithmus Mitte der neunziger Jahre begann.

Meine Fragen sind:

Sind diese Ergebnisse heute noch gültig oder haben sie sich als falsch erwiesen?
Wurden seitdem engere Grenzen mit relativ lockeren Bedingungen abgeleitet? Wenn ja, von wem und wo kann ich sie finden?
Gibt es schließlich ein Referenzmaterial, das die wichtigsten Verallgemeinerungsergebnisse zur SVM synthetisiert?

Referenzen :

Burges, JC (1998). "Ein Tutorial zur Unterstützung von Vektormaschinen für die Mustererkennung", Data Mining und Knowledge Discovery , 2: 121-167

Hastie, T., Tibshirani, R. und Friedman, J. (2009). Die Elemente des statistischen Lernens , 2. Auflage, Springer

Vapnik, VN (1998). Statistical Learning Theory , 1. Auflage, John Wiley & Sons

Vapnik, VN (1999). "Ein Überblick über die statistische Lerntheorie", IEEE Transactions on Neural Networks , 10 (5): 988-999

Vapnik, VN (2000). Die Natur der statistischen Lerntheorie , 2. Auflage, Springer

machine-learning svm vc-dimension

— Daneel Olivaw
quelle

Eine Referenz, die die Risikobegrenzungen für SVMs nach dem Stand der Technik (Stand 2008) zusammenfasst: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .

— Registrieren Sie sich

Ich kenne die Literatur, auf die Sie sich beziehen, nicht im Detail, aber ich denke, eine umfassende Zusammenfassung der Verallgemeinerungsgrenzen, die auf dem neuesten Stand sein sollten, finden Sie bei Boucheron et al. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australien-Februar-2-14-2003-Tübingen-Deutschland-August-4-16-2003-Überarbeitete-Vorlesungen.pdf # page = 176 )

Ich werde einen Teil der SVM skizzieren, der im Folgenden gebunden ist, wobei Details und Beweise weggelassen werden.

Bevor wir speziell auf die SVM-Bindung eingehen, müssen wir verstehen, was die Generalisierungsgrenzen erreichen wollen.

Nehmen wir zunächst an, dass die wahre Wahrscheinlichkeit ist, dann wäre der Bayes-Klassifikator der bestmögliche Klassifikator, dh $P(Y = +1| X = x)$

\begin{aligned} G * = {\begin{cases} + 1 ich f P. (Y. = 1 | X. = x) > 0,5 \\ - - 1 Ö t h e r w ich s e \end{cases} \end{aligned}

$\begin{align} g* = \begin{cases} + 1 \ \ if P(Y = 1| X = x) > 0.5 \\ -1 \ \ otherwise \end{cases} \end{align}$

Das Ziel der statistischen Lerntheorie ist nun den Unterschied zwischen einem Klassifikator der Klasse zu finden (zB und die Bayes - Klassifikator dh $C$

\begin{aligned} {\hat{G}}_{n} = ein r G \underset{G \in C.}{Mindest} {L.}_{n} (G) \end{aligned}

$\begin{align} \hat{g}_n = arg \min_{g \in C} L_n(g) \end{align}$

Es ist zu beachten, dass

der erwartete Verlust bei gegebenen Daten ist und

der bestmögliche Klassifikator in der Modellklasse

. Der Ausdruck

\begin{aligned} L. ({\hat{G}}_{n}) - - L. (G *) = L. ({\hat{G}}_{n}) - - L. (G_{c}^{*}) + L. (G_{c}^{*}) - - L. (G *) . \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g*) = L(\hat{g}_n) - L(g^{*}_c) + L(g^{*}_c) - L(g*). \end{align}$

L (g) = E l (g (X), Y)

$L(g) = \mathbb{E}l(g(X),Y)$

g_{c}^{*}

$g^{*}_c$

C

$C$

Z =: L (g *) - L ({\hat{g}}_{n})

$Z =: L(g*) - L(\hat{g}_n)$ wird Schätzfehler genannt und oft der Fokus, weil er viel einfacher begrenzt werden kann als der Approximationsfehler (der andere Begriff). Ich werde hier auch den Approximationsfehler weglassen.

Der Schätzfehler kann mit weiter zerlegt werden Dies kann nun durch zwei Schritte begrenzt werden: $Z$

\begin{aligned} Z. = Z. - - E. Z. + E. Z. . \end{aligned}

$\begin{align} Z = Z - \mathbb{E}Z + \mathbb{E}Z. \end{align}$

Gebundenes Verwendung der McDiarmid-Ungleichung $Z - \mathbb{E}Z$
$\mathbb{E}Z$ $R_n(C) = \mathbb{E}sup_{g \in C}|1/n \sum_{i=1}^{n} l(g(X_i),Y_i)|$

$B$

\begin{aligned} Z. - - E. Z. \leq 2 B. \sqrt{\frac{l n (1 /. δ)}{2 n}}, \end{aligned}

$\begin{align} Z - \mathbb{E}Z \leq 2 B \sqrt{\dfrac{ln(1/\delta)}{2n}}, \end{align}$

δ

$\delta$

\begin{aligned} E. Z. \leq 2 {R.}_{n} (C.), \end{aligned}

$\begin{align} \mathbb{E}Z \leq 2R_n(C), \end{align}$

\begin{aligned} {R.}_{n} (C.) \leq λ L. R. /. \sqrt{n}, \end{aligned}

$\begin{align} R_n(C) \leq \lambda L R/\sqrt{n}, \end{align}$

λ

$\lambda$

L = 1

$L = 1$

B = 1 + λ R

$B = 1 + \lambda R$

\begin{aligned} L. ({\hat{G}}_{n}) - - L. (G_{c}^{*}) \leq 2 (1 + λ R.) \sqrt{\frac{l n (1 /. δ)}{2 n}} + 4 λ L. R. /. \sqrt{n} \end{aligned}

$\begin{align} L(\hat{g}_n) - L(g^{*}_c) \leq 2(1 + \lambda R) \sqrt{\dfrac{ln(1/\delta)}{2n}} + 4 \lambda L R/\sqrt{n} \end{align}$

— dkoehn
quelle