Der Unterschied zwischen logistischer Regression und Support Vector Machines?

Ich weiß, dass die logistische Regression eine Hyperebene findet, die die Trainingsmuster trennt. Ich weiß auch, dass Support-Vektor-Maschinen die Hyperebene mit der maximalen Marge finden.

Meine Frage: Ist der Unterschied zwischen logistischer Regression (LR) und Support Vector Machines (SVM), dass LR eine Hyperebene findet, die die Trainingsmuster trennt, während SVM die Hyperebene mit der maximalen Marge findet? Oder liege ich falsch?

Hinweis: Denken Sie daran, dass in LR, wenn ist, die logistische Funktion ergibt . Wenn wir als Klassifikationsschwelle annehmen , dann ist eine Hyperebene oder eine Entscheidungsgrenze. $\theta \cdot x = 0$ $0.5$ $0.5$ $\theta \cdot x = 0$

— Jack Twain
quelle

Siehe auch: stats.stackexchange.com/questions/23391/…

— Ryan Zotti

Sie haben Recht, wenn Sie über harte SVM sprechen und die beiden Klassen linear trennbar sind. LR findet jede Lösung, die die beiden Klassen trennt. Hard SVM findet "die" Lösung unter allen möglichen, die den maximalen Spielraum hat.

Im Falle von Soft-SVM und nicht linear trennbaren Klassen haben Sie mit einer geringfügigen Änderung dennoch Recht. Der Fehler kann nicht Null werden. LR findet eine Hyperebene, die der Minimierung eines Fehlers entspricht. Soft SVM versucht, den Fehler (einen weiteren Fehler) zu minimieren und tauscht diesen Fehler gleichzeitig mit der Marge über einen Regularisierungsparameter aus.

Ein Unterschied zwischen beiden: SVM ist ein harter Klassifikator, LR ist ein probabilistischer. SVM ist spärlich. Es wählt die Unterstützungsvektoren (aus den Trainingsmustern) aus, die die größte Unterscheidungskraft zwischen den beiden Klassen haben. Da andere Trainingspunkte zum Testzeitpunkt nicht darüber hinausgehen, haben wir keine Vorstellung von der Verteilung der beiden Klassen.

Ich habe erklärt, wie die LR-Lösung (unter Verwendung von IRLS) bei einer linearen Trennung der beiden Klassen zusammenbricht und warum sie in einem solchen Fall nicht mehr als probabilistischer Klassifikator fungiert: /stats//a/133292/66491

— Seeda
quelle

Welche Art von kleinsten Quadraten optimiert die logistische Regression? LR verwendet die Kreuzentropie als Verlust.

— Artem Sobolev

Nur weil die logistische Regression IRLS verwendet, bedeutet dies nicht, dass es sich um kleinste Fehlerquadrate handelt. Die Neugewichtung von IRLS ist eine Funktion der aktuellen Schätzung der Parameter.

— Glen_b

Zusammenfassend ist SVM eine verbesserte Variante von LR, da es die Hyperebene mit der maximalen Marge findet, während LR nur eine Hyperebene findet (eine Art zufälliges Sprechen?). Stimmen Sie dieser Zusammenfassung zu?

— LandonZeKepitelOfGreytBritn