Ich habe keine Branchenerfahrung im Bereich Data Mining oder Big Data und würde mich freuen, wenn Sie Erfahrungen austauschen.
Führen die Leute tatsächlich k-means, PAM, CLARA usw. für einen wirklich großen Datensatz aus? Oder wählen sie einfach zufällig eine Probe aus? Wenn sie nur eine Stichprobe des Datensatzes entnehmen, wäre das Ergebnis dann zuverlässig, wenn der Datensatz nicht normal verteilt ist?
Können wir in praktischen Situationen beim Ausführen dieser Algorithmen feststellen, wie viele Iterationen normalerweise dauern würden, bis Konvergenz auftritt? Oder wächst die Anzahl der Iterationen immer mit der Datengröße?
Ich frage dies, weil ich darüber nachdenke, einen Ansatz zu entwickeln, um die iterativen Algorithmen vor der Konvergenz zu beenden, und die Ergebnisse dennoch akzeptabel sind. Ich denke, es lohnt sich zu versuchen, wenn die Anzahl der Iterationen mehr als 1.000 beträgt, damit wir Rechenaufwand und Zeit sparen können. Was denkst du?
number of iterations always grow with the data size
Nicht unbedingt.