Ich versuche herauszufinden, wie der Rand-Index eines Cluster-Algorithmus berechnet wird, aber ich bin nicht sicher, wie die wahren und falschen Negative berechnet werden.
Im Moment verwende ich das Beispiel aus dem Buch Eine Einführung in die Informationsbeschaffung (Manning, Raghavan & Schütze, 2009). Auf Seite 359 wird erläutert, wie der Rand-Index berechnet wird. In diesem Beispiel werden drei Cluster verwendet, und die Cluster enthalten die folgenden Objekte.
- aaaaab
- abbbbc
- aaccc
Ich ersetze das Objekt (Originalzeichen in Buchstaben, aber Idee und Anzahl bleiben gleich). Ich gebe die genauen Wörter aus dem Buch, um zu sehen, wovon sie sprechen:
Wir berechnen zuerst TP + FP. Die drei Cluster enthalten jeweils 6, 6 und 5 Punkte. Die Gesamtzahl der "Positiven" oder Dokumentpaare, die sich in demselben Cluster befinden, beträgt also:
TP + FP = + {6 \ wähle 2} + {5 \ wähle 2} = 15 + 15+ 10 = 40
Davon sind die a-Paare in Cluster 1, die b-Paare in Cluster 2, die c-Paare in Cluster 3 und das a-Paar in Cluster 3 echte Positive:
TP = + + + = 10 + 6 + 3 + 1 = 20
Somit ist FP = 40 - 20 = 20.
Bis hierher sind die Berechnungen klar, und wenn ich andere Beispiele nehme, erhalte ich die gleichen Ergebnisse, aber wenn ich das falsch-negative und das wahr-negative berechnen möchte, haben Manning et al. Geben Sie Folgendes an:
FN und TN werden auf ähnliche Weise berechnet und ergeben die folgende Kontingenztabelle:
Die Kontingenztabelle sieht wie folgt aus:
+--------+--------+
| TP: 20 | FN: 24 |
+--------+--------+
| FP: 20 | TN: 72 |
+--------+--------+
Der Satz: "FN und TN werden ähnlich berechnet" ist mir nicht klar und ich verstehe nicht, welche Zahlen ich zur Berechnung von TN und FN benötige. Ich kann die rechte Seite der Tabelle folgendermaßen berechnen:
TP + FP + FN + TN = = = 136
Quelle: http://en.wikipedia.org/wiki/Rand_index
Somit ist FN + TN = 136 - TP + FP = 136 - 40 = 96, aber dies hilft mir nicht wirklich dabei, herauszufinden, wie die Variablen separat berechnet werden. Besonders wenn die Autoren sagen: "FN und TN werden ähnlich berechnet". Ich verstehe nicht wie. Auch wenn ich mir andere Beispiele ansehe, berechnen sie jede Zelle der Kontingenztabelle, indem sie sich jedes Paar ansehen.
Zum Beispiel: http://www.otlet-institute.org/wikics/Clustering_Problems.html#toc-Subsection-4.1
Meine erste Frage, basierend auf dem Beispiel von Manning et al. (2009), ist es möglich, TN und FN zu berechnen, wenn Sie nur die TP & NP kennen? Und wenn ja, wie sieht die ähnliche Berechnung basierend auf dem angegebenen Beispiel aus?



