Verwendet jemand die Metriken oder für das Clustering und nicht ? Über das überraschende Verhalten von Distanzmetriken im hochdimensionalen Raum
gaben
Aggarwal et al.
(2001) an, dass
istfür hochdimensionale Data-Mining-Anwendungendurchweg vorzuziehen als die euklidische Distanzmetrik
und behauptete, dass oder noch besser kann.
Gründe für die Verwendung von oder können theoretische oder experimentelle Gründe sein, z. B. Empfindlichkeit gegenüber Ausreißern / Kabáns Papieren oder Programme, die auf realen oder synthetischen Daten basieren (bitte reproduzierbar). Ein Beispiel oder ein Bild würde der Intuition meines Laien helfen.
Diese Frage ist eine Fortsetzung von Bob Durrants Antwort auf die Frage, wann der nächste Nachbar heute eine Bedeutung hat . Wie er sagt, wird die Wahl von sowohl daten- als auch anwendungsabhängig sein; Berichte über echte Erfahrungen wären jedoch hilfreich.
Anmerkungen hinzugefügt Dienstag, 7. Juni:
Ich bin auf "Statistische Datenanalyse basierend auf der L1-Norm und verwandten Methoden" gestoßen, Dodge ed., 2002, 454p, isbn 3764369205 - Dutzende von Konferenzbeiträgen.
Kann jemand die Entfernungskonzentration auf exponentielle Merkmale untersuchen? Ein Grund für Exponentiale ist, dass ; eine andere (nicht fachkundige) ist, dass es sich um die Max-Entropie-Verteilung ≥ 0 handelt; Ein Drittel ist, dass einige reale Datensätze, insbesondere SIFTs, ungefähr exponentiell aussehen.