Andere Cluster-Formalisierungen als K-Mittel für trennbare Daten


11

Daten aus der realen Welt haben manchmal eine natürliche Anzahl von Clustern (der Versuch, sie in eine Anzahl von Clustern zu gruppieren, die kleiner als ein magisches k ist, führt zu einem dramatischen Anstieg der Clusterkosten). Heute habe ich einen Vortrag von Dr. Adam Meyerson besucht und er hat diese Art von Daten als "trennbare Daten" bezeichnet.

Was sind andere Cluster-Formalisierungen als K-Mittel, die für Cluster-Algorithmen (Approximationen oder Heuristiken) geeignet sein könnten, die die natürliche Trennbarkeit von Daten ausnutzen würden?

Antworten:


11

Ein aktuelles Modell, das versucht, eine solche Vorstellung zu erfassen, stammt von Balcan, Blum und Gupta '09. Sie geben Algorithmen für verschiedene Clustering-Ziele an, wenn die Daten eine bestimmte Annahme erfüllen : Wenn die Daten so sind, dass eine Annäherung für das Clustering-Ziel ϵ- nahe an der optimalen Clustering liegt, können sie effiziente Algorithmen zum Auffinden einer nahezu liefern -optimale Clusterbildung, selbst für Werte von c, für die das Finden der c- Approximation NP-schwer ist. Dies ist eine Annahme darüber, dass die Daten irgendwie "nett" oder "trennbar" sind. Lipton hat einen schönen Blog-Beitrag dazu.cϵcc

αα

Ich bin sicher, dass es frühere Arbeiten und frühere relevante Begriffe gibt, aber dies sind einige neuere theoretische Ergebnisse, die sich auf Ihre Frage beziehen.


Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.