Ich mache eine Clusteranalyse und habe mich gefragt, ob es möglich ist, Duplikate aus dem Datensatz zu entfernen, um die Leistung zu steigern.
Ich arbeite an Tabellen, in denen sich Objekte in Zeilen und Variablen in Spalten befinden.
Wenn zwei Zeilen identisch sind, können sie dann gelöscht werden? Würde dies das Ergebnis verändern?
Ich arbeite mit beiden hierarchical clustering
und k-means
/k-modes