Es sei angenommen , dass wir eine Reihe von Elementen haben E und eine Ähnlichkeit ( nicht Abstand ) Funktion sim (ei, ej) zwischen zwei Elementen ei, ej ∈ E .
Wie können wir die Elemente von E mit sim (effizient) clustern ?
k - bedeutet zum Beispiel, dass ein gegebenes k erforderlich ist, für das Canopy Clustering sind zwei Schwellenwerte erforderlich. Was ist, wenn wir solche vordefinierten Parameter nicht wollen?
Beachten Sie, dass sim nicht unbedingt eine Metrik ist (dh die Dreiecksungleichung kann gelten oder auch nicht). Außerdem spielt es keine Rolle, ob die Cluster disjunkt sind (Partitionen von E ).
1-sim(ei, ej) = Distance
. Mit der Distanzmetrik können Sie beispielsweise hierarchische Clustering anwenden. Wenn Sie von der Wurzel aus nach unten gehen, werden Sie sehen, auf welcher Ebene der Granularitätscluster für Ihr spezielles Problem Sinn macht.