Ich führe eine schnelle Simulation durch, um verschiedene Clustering-Methoden zu vergleichen, und stoße derzeit auf einen Haken beim Versuch, die Cluster-Lösungen zu bewerten.
Ich kenne verschiedene Validierungsmetriken (viele finden sich in cluster.stats () in R), aber ich gehe davon aus, dass diese am besten verwendet werden, wenn die geschätzte Anzahl von Clustern tatsächlich der tatsächlichen Anzahl von Clustern entspricht. Ich möchte die Fähigkeit beibehalten, zu messen, wie gut eine Clustering-Lösung funktioniert, wenn sie nicht die richtige Anzahl von Clustern in der ursprünglichen Simulation angibt (dh wie gut Daten eines Drei-Cluster-Lösungsmodells simuliert wurden, um einen 4-Cluster zu haben Lösung). Nur zu Ihrer Information werden Cluster so simuliert, dass sie identische Kovarianzmatrizen besitzen.
Ich dachte, die KL-Divergenz zwischen zwei Gemischen von Gaußschen wäre nützlich zu implementieren, aber es gibt keine geschlossene Lösung ( Hershey und Olson (2007) ), und die Implementierung einer Monte-Carlo-Simulation beginnt rechenintensiv zu werden.
Gibt es andere Lösungen, die möglicherweise einfach zu implementieren sind (auch wenn es sich nur um eine Annäherung handelt)?