Intuition für Support Vector Machines und die Hyperebene


14

In meinem Projekt möchte ich ein logistisches Regressionsmodell zur Vorhersage der binären Klassifikation (1 oder 0) erstellen.

Ich habe 15 Variablen, von denen 2 kategorisch sind, während der Rest eine Mischung aus kontinuierlichen und diskreten Variablen ist.

Um ein logistisches Regressionsmodell anzupassen, wurde mir geraten, die lineare Trennbarkeit entweder mit SVM, Perceptron oder linearer Programmierung zu überprüfen. Dies entspricht den hier gemachten Vorschlägen zur Prüfung der linearen Trennbarkeit.

Als Neuling im maschinellen Lernen verstehe ich die Grundkonzepte der oben genannten Algorithmen, aber konzeptionell kann ich mir nur schwer vorstellen, wie wir Daten mit so vielen Dimensionen, dh 15 in meinem Fall, trennen können.

Alle Beispiele im Online-Material zeigen in der Regel eine 2D-Darstellung von zwei numerischen Variablen (Größe, Gewicht), die eine deutliche Lücke zwischen den Kategorien aufweisen und das Verständnis erleichtern. In der realen Welt sind Daten jedoch in der Regel viel umfangreicher. Ich werde immer wieder auf den Iris-Datensatz zurückgeführt und versuche, eine Hyperebene durch die drei Arten zu ziehen, und wie es besonders schwierig, wenn nicht unmöglich ist, dies zwischen zwei der Arten zu tun, entgehen mir die beiden Klassen im Moment.

Wie erreicht man dies, wenn wir noch höhere Ordnungen von Dimensionen haben ? Wird angenommen, dass wir eine bestimmte Anzahl von Features überschreiten, die wir mit Hilfe von Kerneln auf einen höherdimensionalen Raum abbilden, um diese Trennbarkeit zu erreichen?

Welche Metrik wird verwendet, um die lineare Trennbarkeit zu testen? Ist es die Genauigkeit des SVM-Modells, dh die Genauigkeit basierend auf der Verwirrungsmatrix?

Jede Hilfe zum besseren Verständnis dieses Themas wäre sehr dankbar. Weiter unten finden Sie ein Beispiel für eine Darstellung von zwei Variablen in meinem Datensatz, die zeigt, wie sich nur diese beiden Variablen überlappen.

Bildbeschreibung hier eingeben


1
Ihr Beitrag enthält offenbar mehrere unterschiedliche Fragen. Stellen Sie sie alle in einer Liste zusammen oder entfernen Sie die nicht wesentlichen Fragen. Dies zieht mehr Menschen zur Beantwortung und bessere Antworten
Aksakal

2
Im Allgemeinen braucht die Intuition viel Hilfe von der Vorstellungskraft, wenn sie von einer zweidimensionalen in eine hochdimensionale Situation übergeht. Oft bricht die Intuition vollständig zusammen. Es gibt viele hochdimensionale Versionen von niedrigdimensionalen Problemen, die zu einer ganz anderen Welt zu gehören scheinen, in der die Dinge anders funktionieren. Denken Sie an Fermats Satz
Aksakal

Antworten:


14

Ich werde versuchen, Ihnen ein Gefühl dafür zu vermitteln, warum das Hinzufügen von Dimensionen einem linearen Klassifikator hilft, zwei Klassen besser zu trennen.

X1X2n=3

n = 3

Stellen Sie sich nun vor, Sie weisen einige der Punkte der Klasse 1 und einige der Klasse 2 zu. Beachten Sie, dass wir unabhängig davon, wie wir den Punkten Klassen zuweisen, immer eine Linie zeichnen können, die die beiden Klassen perfekt trennt.

Nehmen wir nun an, wir fügen einen neuen Punkt hinzu:

n = 4

p=2

X3

p = 3, n = 4

p=3n=4

pp+1

np

FnFnFFpFn=p+1FpVariablen dann kann es eine beliebige Anzahl von Punkten erschüttern. Dieser Begriff des Zerbrechens, der uns über die Komplexität einer Reihe möglicher Klassifikatoren informiert, stammt aus der statistischen Lerntheorie und kann verwendet werden, um Aussagen über den Grad der Überanpassung zu treffen, den eine Reihe von Klassifikatoren leisten kann. Wenn Sie daran interessiert sind, empfehle ich Luxburg und Schölkopf "Statistische Lerntheorie: Modelle, Konzepte und Ergebnisse" (2008).


Vielen Dank für Ihre detaillierte Antwort. Sie hat mir wirklich geholfen, die Idee mehrdimensionaler Features besser zu verstehen und sie intuitiv zu trennen.
TheGoat

7

Es ist leicht, einen Fehler zu machen, wenn Sie Ihre Intuition für niedrig dimensionale Räume auf hoch dimensionale Räume anwenden. Ihre Intuition ist in diesem Fall genau umgekehrt. Es stellt sich heraus, dass es viel einfacher ist, eine trennende Hyperebene im höherdimensionalen Raum zu finden, als im tieferen Raum.

Auch wenn sich bei der Betrachtung von zwei Variablenpaaren die rote und die blaue Verteilung überlappen, ist es bei gleichzeitiger Betrachtung aller 15 Variablen sehr wahrscheinlich, dass sie sich überhaupt nicht überlappen.


2

Sie haben 15 Variablen, aber nicht alle sind für die Unterscheidung Ihrer abhängigen Variablen gleich wichtig (einige von ihnen sind möglicherweise sogar nahezu irrelevant).

Die Hauptkomponentenanalyse (Principal Component Analysis, PCA) berechnet eine lineare Basis dieser 15 Variablen und ordnet sie so an, dass die ersten Komponenten in der Regel den größten Teil der Varianz erklären. Auf diese Weise können Sie ein 15-dimensionales Problem auf ein 2,3,4- oder 5-dimensionales Problem reduzieren. Daher wird das Zeichnen intuitiver. Normalerweise können Sie zwei oder drei Achsen für numerische (oder ordinale) Variablen mit hoher Kardinalität verwenden und dann Markerfarbe, -form und -größe für drei zusätzliche Dimensionen verwenden (möglicherweise mehr, wenn Sie Ordinalzahlen mit niedriger Kardinalität kombinieren können). Das Plotten mit den 6 wichtigsten PCs sollte Ihnen also eine klarere Visualisierung Ihrer Entscheidungsoberfläche ermöglichen.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.