Für Nicht-Statistiker wie mich ist es sehr schwierig, die Idee der VI
Metrik (Variation von Informationen) zu erfassen, selbst nachdem sie das relevante Papier von Marina Melia " Vergleich von Clustern - Eine informationsbasierte Distanz " (Journal of Multivariate Analysis, 2007) gelesen hat . Tatsächlich kenne ich viele Begriffe der Cluster nicht.
Unten ist ein MWE und ich würde gerne wissen, was die Ausgabe in den verschiedenen verwendeten Metriken bedeutet. Ich habe diese beiden Cluster in R und in der gleichen Reihenfolge von id:
> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L,
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L,
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L,
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L,
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L,
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L,
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
Jetzt werden Vergleiche basierend auf den VI
und anderen Metriken / Indizes und in chronologischer Reihenfolge ihres Auftretens in der Literatur durchgeführt.
library(igraph)
# Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi"))
[1] 0.8673525
# Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi"))
[1] 0.2451685
# Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence")
[1] 0.8800522
# van Dongen S metric 2000:
compare(a, b, method = c("split.join"))
[1] 8
# Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand"))
[1] 0.8750403
# Rand Index 1971:
compare(a, b, method = c("rand"))
[1] 0.9374788
Wie Sie sehen können, war der VI
Wert anders als bei allen anderen.
- Was sagt dieser Wert aus (und in welcher Beziehung steht er zur folgenden Abbildung)?
- Was sind die Richtlinien, um diesen Wert als niedrig oder hoch zu betrachten?
- Sind Richtlinien definiert?
Vielleicht können Experten auf diesem Gebiet Laien wie mir sinnvolle Beschreibungen geben, wenn sie versuchen, solche Ergebnisse zu melden. Ich würde mich sehr freuen, wenn jemand auch Richtlinien für andere Metriken bereitstellen würde (wenn zu berücksichtigen ist, dass der Wert groß oder klein ist, dh in Bezug auf eine Ähnlichkeit zwischen zwei Clustern).
Ich habe hier und hier verwandte CV-Threads gelesen , konnte aber die Intuition dahinter immer noch nicht erfassen VI
. Kann jemand dies in einfachem Englisch erklären?
Die folgende Abbildung ist Abbildung 2 aus dem oben genannten Artikel über VI
.