Ich bin ein Anfänger im maschinellen Lernen. In SVM ist die trennende Hyperebene definiert als . Warum sagen wir Vektor w orthogonal zur trennenden Hyperebene?
Ich bin ein Anfänger im maschinellen Lernen. In SVM ist die trennende Hyperebene definiert als . Warum sagen wir Vektor w orthogonal zur trennenden Hyperebene?
Antworten:
Geometrisch ist der Vektor w orthogonal zu der durch definierten Linie gerichtet . Dies kann wie folgt verstanden werden:
Nehmen Sie zuerst . Nun ist klar, dass alle Vektoren x mit verschwindendem inneren Produkt mit w diese Gleichung erfüllen, dh alle Vektoren orthogonal zu w erfüllen diese Gleichung.
Verschieben Sie nun die Hyperebene vom Ursprung weg über einen Vektor a. Die Gleichung für die Ebene lautet nun: , dh wir finden, dass für den Versatz b = a T w die Projektion des Vektors a auf den Vektor w ist .
Ohne Verlust der Allgemeinheit können wir also eine Senkrechte zur Ebene wählen, in welchem Fall die Länge Dies ist der kürzeste orthogonale Abstand zwischen dem Ursprung und der Hyperebene.
Daher soll der Vektor orthogonal zur trennenden Hyperebene sein.
Der Grund, warum normal zur Hyperebene ist, liegt darin, dass wir es so definieren: