Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren .
Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte Entfernungsberechnung neu codieren zu müssen.
Kennt jemand die Trägheitsformel, die in scikit verwendet wird / kennt eine einfache Möglichkeit, die Lückenstatistik mithilfe von Abstandsfunktionen auf hoher Ebene neu zu codieren?
python
.