Reinheit ist im Rahmen der Clusteranalyse ein externes Bewertungskriterium für die Clusterqualität. Dies ist der Prozentsatz der Gesamtzahl der Objekte (Datenpunkte), die im Einheitenbereich [0..1] korrekt klassifiziert wurden.
Purity=1N∑i=1kmaxj|ci∩tj|
Dabei ist N = Anzahl der Objekte (Datenpunkte), k = Anzahl der Cluster, ci ist ein Cluster in C und tj ist die Klassifikation, die die maximale Anzahl für den Cluster ci
Wenn wir "richtig" sagen, bedeutet dies, dass jeder Cluster ci eine Gruppe von Objekten als dieselbe Klasse identifiziert hat, auf die die Grundwahrheit hingewiesen hat. Wir verwenden die Grundwahrheitsklassifikation ti dieser Objekte als Maß für die Zuordnungskorrektheit. Dazu müssen wir jedoch wissen, welcher Cluster ci auf welche Grundwahrheitsklassifikation ti . Wenn es 100% genau wäre, würde jedes ci genau 1 ti , aber in Wirklichkeit unser ci einige Punkte enthalten, deren Grundwahrheit sie als mehrere andere Klassifikationen klassifizierte. Dann können wir natürlich sehen, dass die höchste Clusterqualität durch Verwendung von ci bis erzielt wirdtiAbbildung t i verwendet wird, die die meisten korrekten Klassifikationen aufweist, dhci∩ti . Daher kommt dasmax in der Gleichung.
Um die Reinheit zu berechnen, erstellen Sie zuerst Ihre Verwirrungsmatrix. Dies kann durch Durchlaufen jedes Clusters ci und Zählen, wie viele Objekte als jede Klasse ti klassifiziert wurden, erfolgen .
| T1 | T2 | T3
---------------------
C1 | 0 | 53 | 10
C2 | 0 | 1 | 60
C3 | 0 | 16 | 0
Dann für jeden Cluster ci
Purity = (53 + 60 + 16) / 140 = 0.92142