Dies ist ein Grund, warum die duale Formulierung unter dem Gesichtspunkt der numerischen Optimierung attraktiv ist. Details finden Sie in folgendem Artikel :
Hsieh, C.-J., Chang, K.-W., Lin, C.-J., Keerthi, SS und Sundararajan, S., "A Dual Coordinate Descent Method for large-scale linear SVM", Proceedings of the 25. Internationale Konferenz über maschinelles Lernen, Helsinki, 2008.
Die duale Formulierung beinhaltet eine einzige affine Gleichheitsbedingung und n gebundene Bedingungen.
1. Die affine Gleichheitsbedingung kann aus der dualen Formulierung "eliminiert" werden.
Dies kann durch einfaches Betrachten Ihrer Daten in R ^ (d + 1) durch Einbetten von R ^ d in R ^ (d + 1) erreicht werden, indem jedem Datenpunkt, dh R ^, eine einzelne "1" -Koordinate hinzugefügt wird d ----> R ^ (d + 1): (a1, ..., ad) | ---> (a1, ..., ad, 1).
Wenn Sie dies für alle Punkte in der Trainingsmenge tun, wird das lineare Trennbarkeitsproblem in R ^ (d + 1) neu berechnet und der konstante Term w0 aus Ihrem Klassifikator entfernt, wodurch wiederum die affine Gleichheitsbeschränkung aus dem Dual eliminiert wird.
2. Nach Punkt 1 kann das Dual einfach als konvexes quadratisches Optimierungsproblem geworfen werden, dessen Bedingungen nur gebundene Bedingungen sind.
3. Das Doppelproblem kann nun effizient gelöst werden, dh über einen Doppelkoordinaten-Abstiegsalgorithmus, der eine für Epsilon optimale Lösung in O (log (1 / Epsilon)) ergibt.
Dies geschieht, indem festgehalten wird, dass das Fixieren aller Alphas mit Ausnahme eines Alphas eine geschlossene Lösung ergibt. Sie können dann nacheinander alle Alphas durchlaufen (z. B. eine zufällige Auswahl treffen, alle anderen Alphas korrigieren, die Lösung in geschlossener Form berechnen). Man kann zeigen, dass man "ziemlich schnell" eine nahezu optimale Lösung erhält (siehe Satz 1 in der oben genannten Arbeit).
Es gibt viele andere Gründe, warum das doppelte Problem unter Optimierungsgesichtspunkten attraktiv ist, von denen einige die Tatsache ausnutzen, dass es nur eine affine Gleichheitsbedingung hat (die übrigen Bedingungen sind alle gebundenen Bedingungen), während andere die Beobachtung ausnutzen, die bei der Lösung vorliegt des doppelten Problems "Oft sind die meisten Alphas" Null (Nicht-Null-Alphas entsprechen Unterstützungsvektoren).
Einen guten Überblick über Überlegungen zur numerischen Optimierung von SVMs erhalten Sie in Stephen Wrights Präsentation auf dem Computational Learning Workshop (2009).
PS: Ich bin neu hier. Entschuldigung, dass Sie die mathematische Notation auf dieser Website nicht gut beherrschen.