Vergleich von SVM und logistischer Regression


37

Kann mir bitte jemand eine Vorstellung davon geben, wann ich mich für SVM oder LR entscheiden soll? Ich möchte die Intuition hinter dem Unterschied zwischen den Optimierungskriterien für das Erlernen der Hyperebene der beiden verstehen, wobei die jeweiligen Ziele wie folgt lauten:

  • SVM: Versuchen Sie, den Abstand zwischen den nächstgelegenen Unterstützungsvektoren zu maximieren
  • LR: Maximiere die Wahrscheinlichkeit der hinteren Klasse

Betrachten wir den linearen Merkmalsraum für SVM und LR.

Einige Unterschiede, die ich bereits kenne:

  1. SVM ist deterministisch (aber wir können das Platts-Modell für die Wahrscheinlichkeitsbewertung verwenden), während LR probabilistisch ist.
  2. Für den Kernelraum ist SVM schneller (speichert nur Unterstützungsvektoren)

2
Diese Aussage ist falsch: " LR: Maximiere die Wahrscheinlichkeit der hinteren Klasse ". Die logistische Regression maximiert die Wahrscheinlichkeit und nicht die hintere Dichte. Bayesianische logistische Regression ist eine andere Geschichte, aber Sie müssen genau darüber sein, wenn Sie sich auf diese beziehen.
Digio

Antworten:


30

Lineare SVMs und logistische Regression sind in der Praxis in der Regel vergleichbar. Verwenden Sie SVM mit einem nichtlinearen Kernel, wenn Sie Grund zur Annahme haben, dass Ihre Daten nicht linear trennbar sind (oder Sie müssen für Ausreißer robuster sein, als LR normalerweise toleriert). Versuchen Sie andernfalls zunächst die logistische Regression und sehen Sie, wie Sie mit diesem einfacheren Modell umgehen. Wenn die logistische Regression fehlschlägt, versuchen Sie es mit einer SVM mit einem nichtlinearen Kernel wie einer RBF.

BEARBEITEN:

Ok, lassen Sie uns darüber sprechen, woher die objektiven Funktionen kommen.

Die logistische Regression stammt aus der verallgemeinerten linearen Regression. Eine gute Diskussion der logistischen Regressionszielfunktion in diesem Zusammenhang finden Sie hier: https://stats.stackexchange.com/a/29326/8451

Der Support Vector Machines-Algorithmus ist viel geometrischer motiviert . Anstatt ein probabilistisches Modell anzunehmen, versuchen wir, eine bestimmte optimale Trennungs-Hyperebene zu finden, in der wir "Optimalität" im Kontext der Unterstützungsvektoren definieren. Wir haben nichts, was dem statistischen Modell ähnelt, das wir hier für die logistische Regression verwenden, auch wenn der lineare Fall ähnliche Ergebnisse liefert: Dies bedeutet nur, dass die logistische Regression ziemlich gute Arbeit bei der Erzeugung von "Wide Margin" -Klassifikatoren leistet, da dies der Fall ist Alles, was SVM versucht (insbesondere versucht SVM, den Abstand zwischen den Klassen zu "maximieren").

Ich werde versuchen, später darauf zurückzukommen und etwas tiefer in das Unkraut einzutauchen. Ich bin nur irgendwie in der Mitte von etwas: p


1
Das beantwortet aber immer noch nicht meine Frage, was der intuitive Unterschied in den objektiven Funktionen von SVM v / s LR ist: (a) SVM: Versuchen Sie, den Abstand zwischen den nächstgelegenen Unterstützungsvektoren zu maximieren. (B) LR: Maximieren Sie die Wahrscheinlichkeit für die hintere Klasse
user41799

Ich meine, das ist eine ganz andere Frage. Fragen Sie sich, wann Sie die Modelle verwenden sollen oder was die Form ihrer objektiven Funktionen motiviert?
David Marx

1
Ich bin mehr daran interessiert, was die Form ihrer objektiven Funktionen motiviert
user41799

4
Ich werde versuchen, später darauf zurückzukommen und ein bisschen tiefer in das Unkraut
einzudringen.

23

Logistische Regression gegen SVM

Bild zeigt den Unterschied zwischen SVM und logistischer Regression und wo welche Methode angewendet werden soll

Dieses Bild stammt aus dem Coursera-Kurs: "Machine Learning" von Andrew NG. Es befindet sich in Woche 7 am Ende von: "Support vector machines - using a SVM"


Meinen Sie mit "Features" die Anzahl der eindeutigen Attribute oder die Gesamtanzahl der eindeutigen Werte, die zu diesen Attributen gehören?
Ahmedov

ZB

Eigentlich sagt das Bild nichts über ihre Unterschiede ...
Jan Kukacka

Unterschied kann falsch sein
Wortvergleich

1
  • LR gibt kalibrierte Wahrscheinlichkeiten an, die als Vertrauen in eine Entscheidung interpretiert werden können.
  • LR gibt uns ein uneingeschränktes, reibungsloses Ziel.
  • LR kann (einfach) in Bayes'schen Modellen verwendet werden.
  • SVMs bestrafen keine Beispiele, für die die richtige Entscheidung mit ausreichender Sicherheit getroffen wird. Dies kann für die Verallgemeinerung gut sein.
  • SVMs haben eine schöne duale Form, die bei Verwendung des Kernel-Tricks spärliche Lösungen bietet (bessere Skalierbarkeit).

Sehen Sie sich Support Vector Machines vs. Logistic Regression an der University of Toronto CSC2515 von Kevin Swersky an.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.