Ich versuche k-means Clustering auf einer Menge von 10-dimensionalen Punkten durchzuführen. Der Haken: Es gibt 10 ^ 10 Punkte .
Ich suche nur die Mitte und Größe der größten Cluster (sagen wir 10 bis 100 Cluster); Es ist mir egal, in welchem Cluster jeder Punkt endet. Die Verwendung von k-means ist nicht wichtig. Ich suche nur nach einem ähnlichen Effekt, jeder ungefähre k-Mittelwert oder verwandte Algorithmus wäre großartig (Minibatch-SGD bedeutet, ...). Da GMM in gewisser Weise das gleiche Problem wie k-means ist, ist es auch interessant, GMM mit Daten gleicher Größe durchzuführen.
In dieser Größenordnung ändert die Unterabtastung der Daten das Ergebnis wahrscheinlich nicht wesentlich: Die Wahrscheinlichkeit, unter Verwendung einer 1/10000-Stichprobe der Daten die gleichen Top-10-Cluster zu finden, ist sehr gut. Aber selbst dann ist das ein 10 ^ 6-Punkte-Problem, das an / jenseits der Grenze von tractable liegt.