Die Wahl des richtigen Abstands ist keine elementare Aufgabe. Wenn wir eine Clusteranalyse für einen Datensatz durchführen möchten, können unterschiedliche Ergebnisse mit unterschiedlichen Entfernungen angezeigt werden. Daher ist es sehr wichtig, vorsichtig zu sein, in welcher Entfernung Sie wählen müssen, da wir ein falsch gutes Artefakt erstellen können, das die Variabilität gut erfasst, jedoch tatsächlich ohne Sinn in unserem Problem.
Der euklidische Abstand ist angemessen, wenn ich kontinuierliche numerische Variablen habe und absolute Abstände widerspiegeln möchte. Dieser Abstand berücksichtigt jede Variable und entfernt keine Redundanzen. Wenn ich also drei Variablen hätte, die dasselbe erklären (korreliert sind), würde ich diesen Effekt mit drei gewichten. Darüber hinaus ist dieser Abstand nicht skalierungsinvariant, so dass ich im Allgemeinen vorher skalieren muss, um den Abstand zu verwenden.
Beispielökologie: Wir haben verschiedene Beobachtungen von vielen Orten, von denen die Experten Proben einiger mikrobiologischer, physikalischer und chemischer Faktoren entnommen haben. Wir wollen Muster in Ökosystemen finden. Diese Faktoren haben eine hohe Korrelation, aber wir wissen, dass jeder relevant ist, daher möchten wir diese Redundanzen nicht beseitigen. Wir verwenden den euklidischen Abstand mit skalierten Daten, um den Effekt von Einheiten zu vermeiden.
Der Mahalanobis- Abstand ist angemessen, wenn ich kontinuierliche numerische Variablen habe und absolute Abstände widerspiegeln möchte, aber wir möchten Redundanzen entfernen. Wenn wir wiederholte Variablen haben, verschwindet ihre wiederholte Wirkung.
Die Familie Hellinger , das Artenprofil und der Akkordabstand sind geeignet, wenn wir Unterschiede zwischen Variablen hervorheben möchten, wenn wir Profile unterscheiden möchten. Diese Abstände werden nach Gesamtmengen jeder Beobachtung gewichtet, so dass die Abstände klein sind, wenn sie variabel sind, wenn sie variabel sind, sind die Individuen ähnlicher, obwohl sie in absoluten Größen sehr unterschiedlich waren. Achtung! Diese Abstände spiegeln den Unterschied zwischen den Profilen sehr gut wider, haben jedoch den Größeneffekt verloren. Sie können sehr nützlich sein, wenn wir unterschiedliche Stichprobengrößen haben.
Beispielökologie: Wir wollen die Fauna vieler Länder untersuchen und haben eine Datenmatrix eines Inventars der Gastropode (Probenahmestellen in Zeilen und Artennamen in Spalten). Die Matrix zeichnet sich durch viele Nullen und unterschiedliche Größen aus, da einige Lokalitäten einige Arten und andere andere Arten aufweisen. Wir könnten die Hellinger-Distanz nutzen.
Bray-Curtis ist ziemlich ähnlich, aber es ist angemessener, wenn wir Profile unterscheiden und auch relative Größen berücksichtigen möchten.