Anforderungen an das hierarchische Clustering
Hierarchisches Clustering kann mit beliebigen Ähnlichkeits- und Unähnlichkeitsmaßen verwendet werden. (Die meisten Tools erwarten eine Unähnlichkeit, lassen jedoch negative Werte zu. Es liegt an Ihnen, sicherzustellen, ob kleine oder große Werte bevorzugt werden.)
Nur Methoden, die auf Zentroiden oder Varianz basieren (wie die Ward-Methode), sind speziell und sollten mit euklidischen Quadraten verwendet werden. (Um zu verstehen, warum, studieren Sie diese Verknüpfungen bitte sorgfältig.)
Single-Linkage, Average-Linkage, Complete-Linkage sind nicht sehr betroffen, es wird immer noch das Minimum / Average / Maximum der paarweisen Unterschiede sein.
Korrelation als Distanzmaß
Wenn Sie Ihre Daten ( n Beobachtungen, p Merkmale) so vorverarbeiten , dass jedes Merkmal μ=0 und σ=1 (was konstante Merkmale nicht zulässt!), Reduziert sich die Korrelation zu Kosinus:
Corr ( X, Y) = Cov ( X, Y)σXσY.= E [ ( X- μX) ( Y- μY.) ]σXσY.= E [ XY.] = 1n⟨ X, Y⟩
Unter den gleichen Bedingungen reduziert sich der quadratische euklidische Abstand auch zu Kosinus:
d2Euklid( X, Y) = ∑ ( Xich- Yich)2= ∑ X2ich+ ∑ Y2ich- 2 ∑ XichY.ich= 2 n - 2 ≤ X, Y⟩ = 2 n [ 1 - Corr ( X, Y) ]
Sofern Ihre Daten nicht degeneriert sind, sollte die Verwendung der Korrelation für hierarchische Cluster daher in Ordnung sein. Verarbeiten Sie es einfach wie oben beschrieben, und verwenden Sie dann den euklidischen Quadratabstand.