Warum wird beim graphbasierten Clustering der Gaußsche Kernel anstelle des Abstands zwischen zwei Punkten als Ähnlichkeitsmetrik bevorzugt?
Warum wird beim graphbasierten Clustering der Gaußsche Kernel anstelle des Abstands zwischen zwei Punkten als Ähnlichkeitsmetrik bevorzugt?
Antworten:
Seien wir genau. "Distanz" hat in der Datenwissenschaft viele Bedeutungen. Ich denke, Sie sprechen von euklidischer Distanz .
Der Gaußsche Kern ist eine nichtlineare Funktion der euklidischen Distanz.
Die Kernelfunktion nimmt mit der Entfernung ab und liegt zwischen null und eins. In euklidischen Abstand, der Wert steigt mit der Entfernung. Daher ist die Kernelfunktion eine nützlichere Metrik zum Gewichten von Beobachtungen.
Die Tatsache, dass es zwischen Null und Eins liegt, ist eine nette Eigenschaft, während die absolute Entfernung (es kann alles sein) in der euklidischen Entfernung Instabilität und Schwierigkeiten bei der Modellierung verursachen kann.
Der euklidische Abstand (ohne das negative Vorzeichen) ist kein Ähnlichkeitsmaß, sondern eine Abstandsfunktion. Der Gaußsche Kern ist ein Ähnlichkeitsmaß.
Sie können sich den Gaußschen Kern als eine Normalisierungsfunktion für die euklidische Distanz vorstellen.
Aus der euklidischen Entfernung können Sie viele Ähnlichkeitsmessungen aus Kernfunktionen (Polynom, Exponential, Matern, Brauch ...) ableiten, von denen keine a priori besser oder schlechter ist als der Gaußsche Kern. Es hängt alles von Ihren Daten ab und davon, was Sie erwarten.
Bei einer Kernelfunktion können Sie auch eine beliebige Definition der Entfernung auswählen, die Ihrem Gefühl entspricht: gewichtete euklidische Entfernung, Norm, Norm, Entfernung des Erdbewegers ...
Nun ist der Gaußsche Kern mit euklidischem Abstand sehr verbreitet, da er sehr intuitiv ist und nützliche Eigenschaften wie Glätte bietet.
Im euklidischen Raum, in dem die Achsen durch dargestellt werden Vektoren, dreidimensionaler Raum, der Abstand kann durch Verbinden der beiden Punkte und Ermitteln der Länge der Verbindung erhalten werden. Dieser Raum wird immer dann verwendet, wenn die Basis in jeder Richtung unabhängig ist. Mit anderen Worten, wann immer es erforderlich ist, den wahren Abstand zu finden, kann der euklidische Abstand verwendet werden, wenn die Merkmale oder Variablen, tatsächlich Achsen, unabhängig sind. Im Gegenteil, wenn die Variablen korreliert sind, kann der euklidische Abstand nicht verwendet werden, da die Achsen nicht mehr unabhängig sind. In solchen Situationen, die nicht selten sind, kann Mahalanobis verwendet werden. Seine Form ist wie die Gaußsche Distanz.