Ich versuche nach einem guten Argument zu suchen, warum man beim maschinellen Lernen die Manhattan-Distanz über die euklidische Distanz verwenden sollte .
Das Nächste, was ich bisher zu einem guten Argument gefunden habe, ist diese MIT-Vorlesung .
Um 36:15 Uhr sehen Sie auf den Folien die folgende Aussage:
"Verwenden Sie normalerweise die euklidische Metrik. Manhattan ist möglicherweise geeignet, wenn unterschiedliche Dimensionen nicht vergleichbar sind. "
Kurz nachdem der Professor gesagt hat, dass die Anzahl der Beine eines Reptils von 0 bis 4 variiert (während die anderen Merkmale binär sind und nur von 0 bis 1 variieren), wird das Merkmal "Anzahl der Beine" viel höher ausfallen Gewicht, wenn der euklidische Abstand verwendet wird. Sicher genug, das ist in der Tat richtig. Man hätte aber auch dieses Problem, wenn man die Manhattan-Distanz verwendet (nur, dass das Problem etwas gemildert würde, weil wir den Unterschied nicht wie bei der euklidischen Distanz ausgleichen).
Ein besserer Weg, um das obige Problem zu lösen, besteht darin, die Funktion "Anzahl der Beine" zu normalisieren, sodass ihr Wert immer zwischen 0 und 1 liegt.
Da es daher einen besseren Weg gibt, das Problem zu lösen, schien es dem Argument, die Manhattan-Distanz zu verwenden, in diesem Fall zumindest meiner Meinung nach einen stärkeren Punkt zu fehlen.
Weiß eigentlich jemand, warum und wann jemand Manhattan-Distanz über Euklidisch nutzen würde? Kann mir jemand ein Beispiel geben, bei dem die Verwendung der Entfernung nach Manhattan bessere Ergebnisse liefert?