Clustering Trägheitsformel in Scikit lernen

Ich möchte ein kmeans-Clustering in Python mit Pandas und Scikit Learn codieren. Um das gute k auszuwählen, möchte ich die Gap-Statistik von Tibshirani und al 2001 ( pdf ) codieren .

Ich würde gerne wissen, ob ich inertia_ result von scikit verwenden und die Lückenstatistikformel anpassen könnte, ohne die gesamte Entfernungsberechnung neu codieren zu müssen.

Kennt jemand die Trägheitsformel, die in scikit verwendet wird / kennt eine einfache Möglichkeit, die Lückenstatistik mithilfe von Abstandsfunktionen auf hoher Ebene neu zu codieren?

— Kratzen
quelle

Ich denke, diese Frage hat genügend statistische Inhalte, um für den Lebenslauf themenbezogen zu sein, aber beachten Sie, dass sie auch ziemlich ausgefeilte Programmier- und Python-Kenntnisse erfordert. Es kann schwierig sein, eine gute Antwort zu bekommen. Möglicherweise möchten Sie auch nach Pseudocode fragen / bereit sein, sich damit zufrieden zu geben, und / oder Sie müssen diese Frage in zwei Teile aufteilen, einen hier über die statistischen Aspekte und einen Teil über den Stapelüberlauf über die Python-Programmieraspekte. (Oder vielleicht auch nicht, ich weiß es nicht genau, aber ich möchte Sie nur fair warnen; wir werden sehen, wie es geht.)

— Gung - Reinstate Monica

Für diese Frage muss der Begriff "Trägheit" definiert werden. Es sieht aus wie es in sich geprägt ist python.

— ttnphns

Ich denke, ich habe meine Antwort für kmeans Clustering gefunden:

$I = \sum_{i}(d(i,cr))$ $cr$ $d$

W_{k} = \sum_{r = 1}^{k} \frac{1}{(2 * n_{r})} D_{r}

$W_k = \sum_{r=1}^{k}\frac 1 {(2*n_r) }D_r$

D_{r}

$D_r$

r

$r$

$+c$ $-c$ $c$ $r$ $c$ $W_k$

Ich habe noch zwei Fragen:

Glaubst du, mein Kalkül ist richtig? (Zum Beispiel weiß ich nicht, ob es für hierarchisches Clustering gilt.)
Wenn ich oben richtig bin, habe ich die Lückenstatistik (als Unterschied der logarithmischen Trägheiten zwischen Schätzung und Clustering) codiert und sie funktioniert besonders im Iris-Datensatz schlecht. Hat es jemand versucht?

— Kratzen
quelle

Es ist am besten, in Ihren Antworten keine Fragen zu stellen. Wenn dies nicht wirklich die Antwort auf Ihre Frage ist, sondern nur eine Teillösung zur Klärung der eigentlichen Frage, ist es besser, Ihre Frage zu bearbeiten und diese Informationen

— einzufügen

@Scratch Haben Sie jemals eine Python-Implementierung der Lückenstatistik erhalten, um mit dem Iris-Datensatz zu arbeiten? Ich kämpfe mit dem gleichen Problem.

— Zelazny7

Ja, ich habe vor ein paar Monaten einen codiert. Wie kann ich dir das schicken?

— Scratch

W_{k} = \sum_{r = 1}^{k} \frac{D_{r}}{(2 * n_{r})}

$W_k = \sum_{r=1}^{k}\frac {D_r} {(2*n_r) }$