Soweit ich weiß, sind der "Mittelwert" eines Clusters und der Schwerpunkt eines einzelnen Clusters dasselbe, obwohl der Begriff "Schwerpunkt" im Umgang mit multivariaten Daten möglicherweise etwas präziser ist als "Mittelwert".
Um den Schwerpunkt zu finden, berechnet man das (arithmetische) Mittel der Punktpositionen für jede Dimension separat. Wenn Sie zum Beispiel Punkte hatten bei:
- (-1, 10, 3),
- (0, 5, 2) und
- (1, 20, 10)
dann würde sich der Schwerpunkt bei ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3) befinden, was (0, 11 2/3) vereinfacht. 5). (NB: Der Schwerpunkt muss nicht - und ist selten - einer der ursprünglichen Datenpunkte.)
Der Schwerpunkt wird manchmal auch als Schwerpunkt oder Schwerpunkt bezeichnet, basierend auf seiner physikalischen Interpretation (es ist der Schwerpunkt eines Objekts, der durch die Punkte definiert wird). Wie der Mittelwert minimiert die Position des Schwerpunkts den Abstand zum Quadrat der Summe zu den anderen Punkten.
Eine verwandte Idee ist das Medoid , bei dem es sich um den Datenpunkt handelt , der sich von allen anderen Datenpunkten "am wenigsten unterscheidet". Im Gegensatz zum Schwerpunkt muss das Medoid einer der ursprünglichen Punkte sein. Möglicherweise interessiert Sie auch der geometrische Median, der dem Median entspricht, jedoch für multivariate Daten. Beide unterscheiden sich vom Schwerpunkt.
ABcentroid(A)centroid(B)aiAdist(ai,b1)dist(ai,b2)dist(ai,bn)