Auf die eine oder andere Weise beruht jeder Clustering-Algorithmus auf dem Begriff der „Nähe“ von Punkten. Es scheint intuitiv klar zu sein, dass Sie entweder einen relativen (skaleninvarianten) Begriff oder einen absoluten (konsistenten) Begriff der Nähe verwenden können, aber nicht beide .
Ich werde zunächst versuchen, dies anhand eines Beispiels zu veranschaulichen, und dann erläutern, wie diese Intuition zum Satz von Kleinberg passt.
Ein anschauliches Beispiel
Angenommen, wir haben zwei Mengen und S 2 mit jeweils 270 Punkten, die in der Ebene wie folgt angeordnet sind:S1S2270
Möglicherweise sehen Sie in keinem dieser Bilder Punkte, aber das liegt nur daran, dass viele der Punkte sehr nahe beieinander liegen. Wir sehen mehr Punkte, wenn wir hineinzoomen:270
Sie werden wahrscheinlich spontan zustimmen, dass in beiden Datensätzen die Punkte in drei Clustern angeordnet sind. Es stellt sich jedoch heraus, dass, wenn Sie einen der drei Cluster von vergrößern , Folgendes angezeigt wird:S2
Wenn Sie an einen absoluten Begriff von Nähe oder Konsistenz glauben, werden Sie immer noch behaupten, dass aus nur drei Clustern besteht , unabhängig davon, was Sie gerade unter dem Mikroskop gesehen haben . In der Tat besteht der einzige Unterschied zwischen S 1 und S 2 darin, dass innerhalb jedes Clusters einige Punkte jetzt näher beieinander liegen. Wenn Sie andererseits an einen relativen Begriff der Nähe oder der Skaleninvarianz glauben, werden Sie sich geneigt fühlen zu argumentieren, dass S 2 nicht aus 3, sondern aus 3 × 3 = 9 Clustern besteht. Keine dieser Ansichten ist falsch, aber Sie müssen die eine oder andere Wahl treffen.S2S1S2S233×3=9
Ein Fall für die Invarianz der Isometrie
Wenn Sie die obige Intuition mit Kleinbergs Theorem vergleichen, werden Sie feststellen, dass sie leicht uneins sind. In der Tat scheint Kleinbergs Theorem zu besagen, dass Sie Skaleninvarianz und -konsistenz gleichzeitig erreichen können , solange Sie sich nicht für eine dritte Eigenschaft interessieren, die als Reichhaltigkeit bezeichnet wird. Der Reichtum ist jedoch nicht die einzige Eigenschaft, die Sie verlieren, wenn Sie gleichzeitig auf Skaleninvarianz und Konsistenz bestehen. Sie verlieren auch eine andere, grundlegendere Eigenschaft: die Isometrie-Invarianz. Dies ist eine Eigenschaft, die ich nicht zu opfern bereit wäre. Da es in Kleinbergs Zeitung nicht vorkommt, werde ich mich kurz damit befassen.
Kurz gesagt, ein Clustering-Algorithmus ist isometrieunabhängig, wenn seine Ausgabe nur von den Abständen zwischen Punkten abhängt und nicht von zusätzlichen Informationen wie Beschriftungen, die Sie an Ihre Punkte anbringen, oder von einer Reihenfolge, die Sie Ihren Punkten auferlegen. Ich hoffe, das klingt nach einem sehr milden und sehr natürlichen Zustand. Alle in Kleinbergs Aufsatz diskutierten Algorithmen sind isometrieinvariant, mit Ausnahme des Einzelverknüpfungsalgorithmus mit der Cluster-Stoppbedingung. Laut Kleinbergs Beschreibung verwendet dieser Algorithmus eine lexikografische Anordnung der Punkte, sodass die Ausgabe davon abhängen kann, wie Sie sie beschriften. Zum Beispiel für einen Satz von drei äquidistanten Punkten die Ausgabe des Einfachverknüpfungsalgorithmus mit der 2k2-Cluster-Stoppbedingung gibt unterschiedliche Antworten, je nachdem, ob Sie Ihre drei Punkte als "Katze", "Hund", "Maus" (c <d <m) oder als "Tom", "Spike", "Jerry" (J <S <T):
Dieses unnatürliche Verhalten kann natürlich leicht behoben werden, indem die Cluster-Stoppbedingung durch eine " ( ≤ k ) -Cluster-Stoppbedingung" ersetzt wird. Die Idee ist einfach , die Verbindungen zwischen äquidistanten Punkten nicht zu unterbrechen und das Zusammenführen von Clustern zu beenden, sobald wir höchstens k Cluster erreicht haben. Dieser reparierte Algorithmus erzeugt die meiste Zeit immer noch k Cluster und ist isometrieinvariant und maßstabsinvariant. In Übereinstimmung mit der oben gegebenen Intuition wird es jedoch nicht länger konsistent sein.k(≤k) kk
Zur genauen Definition der Isometrie-Invarianz sei daran erinnert, dass Kleinberg einen Clustering-Algorithmus auf einer endlichen Menge als eine Karte definiert, die jeder Metrik auf S eine Partition von S zuweist :
Γ : { Metriken auf S } → { Partitionen von S }SSS
EineIsometrie i zwischen zwei Metriken d und d ' auf S ist eine Permutation i : S → S, so dass d ' ( i ( x ) , i ( y ) ) = d ( x , y ) für alle Punkte x und y in S .
Γ:{metrics on S}→{partitions of S}d↦Γ(d)
idd′Si:S→Sd′(i(x),i(y))=d(x,y)xyS
Γdd′ii(x)i(y)Γ(d′)xyΓ(d)
SSS
Eine Variante des Satzes von Kleinberg
Die oben gegebene Intuition wird durch die folgende Variante des Satzes von Kleinberg eingefangen.
Theorem: Es gibt keinen nicht-trivialen isometrieinvarianten Clustering-Algorithmus, der gleichzeitig konsistent und skalierungsinvariant ist.
Hier meine ich mit einem einfachen Clustering-Algorithmus einen der folgenden beiden Algorithmen:
S
S
Die Behauptung ist, dass diese albernen Algorithmen die einzigen zwei isometrieinvarianten Algorithmen sind, die sowohl konsistent als auch skalainvariant sind.
SΓd₁Sd₁(x,y)=1x≠ySΓΓ(d₁)Γ(d₁)Γ(d₁)Γ(d₁)dS≥1dΓ(d)=Γ(d₁)ΓΓ(d₁)dS≤1Γ(d)=Γ(d₁)Γ
Natürlich ist dieser Beweis sehr ähnlich zu Margareta Ackermans Beweis von Kleinbergs ursprünglichem Theorem, der in Alex Williams 'Antwort diskutiert wird.