Ich verwende hierarchisches Clustering, um Zeitreihendaten zu analysieren. Mein Code wird mit der Mathematica- Funktion implementiert DirectAgglomerate[...]
, die unter Berücksichtigung der folgenden Eingaben hierarchische Cluster generiert:
eine Distanzmatrix D
Der Name der Methode, die zur Bestimmung der Cluster-Verknüpfung verwendet wird.
Ich habe die Distanzmatrix D mit Manhattan-Distanz berechnet:
Dabei ist und n ≈ 150 die Anzahl der Datenpunkte in meiner Zeitreihe.
Meine Frage ist, ist es in Ordnung, die Inter-Cluster-Verknüpfung von Ward mit einer Manhattan-Distanzmatrix zu verwenden? Einige Quellen schlagen vor, dass die Verknüpfung von Ward nur mit euklidischer Distanz verwendet werden sollte.
Beachten Sie, dass DirectAgglomerate[...]
die Verknüpfung von Ward nur anhand der Entfernungsmatrix berechnet wird, nicht anhand der ursprünglichen Beobachtungen. Leider bin ich mir nicht sicher, wie Mathematica den ursprünglichen Algorithmus von Ward modifiziert, der (nach meinem Verständnis) durch Minimierung der Fehlersumme der Quadrate der Beobachtungen, berechnet in Bezug auf den Clustermittelwert, funktioniert. Für einen Cluster , der aus einem Vektor univariater Beobachtungen besteht, formulierte Ward beispielsweise die Fehlersumme der Quadrate wie folgt:
(Andere Software - Tools wie Matlab und R auch Wards Clustering implementieren nur eine Entfernung Matrix , so dass die Frage nicht spezifisch für Mathematica ist.)