Ich habe diese Python-Implementierung des Jenks Natural Breaks- Algorithmus gefunden und konnte sie auf meinem Windows 7-Computer ausführen. Es ist ziemlich schnell und es findet die Brüche in weniger Zeit, wenn man die Größe meiner Geodaten berücksichtigt. Bevor ich diesen Clustering-Algorithmus für meine Daten verwendete, verwendete ich sklearn.clustering.KMeans
(hier) Algorithmus. Das Problem, das ich mit KMeans hatte, war das Finden des optimalen K-Wert-Parameters, aber ich "löste" es, indem ich den Algorithmus für verschiedene K-Werte startete und sklearn.metrics.silhouette_score
(hier) verwendete , um das beste K zu finden.
Meine Frage lautet: Wenn ich dem Natural Breaks-Algorithmus vorschreibe, 5 Klassen zu finden (das wäre K), wie kann ich dann sicher sein, dass dies die Anzahl der Klassen ist, die meinen Daten am besten entsprechen? Wie bestätige ich, dass ich die beste Anzahl von Pausen wähle?
Vielen Dank!