Verwenden Sie in eindimensionalen Daten keine Clusteranalyse.
Die Clusteranalyse ist normalerweise eine multivariate Technik. Oder lassen Sie es mich besser andersherum sagen: Für eindimensionale Daten - die vollständig geordnet sind - gibt es viel bessere Techniken. Die Verwendung von k-means und ähnlichen Techniken ist hier eine völlige Verschwendung, es sei denn, Sie unternehmen genug Aufwand, um sie tatsächlich für den 1-d-Fall zu optimieren.
Nur um Ihnen ein Beispiel zu geben: Für k-means ist es üblich, k zufällige Objekte als Ausgangssamen zu verwenden. Für eindimensionale Daten ist es relativ einfach, die entsprechenden Quantile (1 / 2k, 3 / 2k, 5 / 2k usw.) zu verwenden, nachdem Sie die Daten einmal sortiert und dann von diesem Ausgangspunkt aus optimiert haben. 2D-Daten können jedoch nicht vollständig sortiert werden. Und in einem Gitter werden wahrscheinlich leere Zellen vorhanden sein.
Ich würde es auch nicht Cluster nennen. Ich würde es Intervall nennen . Was Sie wirklich tun möchten, ist die Intervallgrenzen zu optimieren. Wenn Sie k-means verwenden, wird für jedes Objekt geprüft, ob es in einen anderen Cluster verschoben werden soll. Dies ist in 1D nicht sinnvoll: Es müssen nur die Objekte an den Intervallgrenzen überprüft werden. Das ist natürlich viel schneller, da es dort nur ~ 2k Objekte gibt. Wenn sie nicht bereits andere Intervalle bevorzugen, werden zentralere Objekte auch nicht.
Möglicherweise möchten Sie Techniken wie beispielsweise die Optimierung von Jenks Natural Breaks untersuchen .
Oder Sie können eine Schätzung der Kerneldichte durchführen und nach lokalen Minima der Dichte suchen, die dort aufgeteilt werden sollen. Das Schöne ist, dass Sie dafür nicht k angeben müssen!
PS Bitte benutzen Sie die Suchfunktion. Hier sind einige Fragen zu 1-D-Datenclustern, die Sie verpasst haben: