Das ist mir seit mindestens ein paar Stunden in den Sinn gekommen. Ich habe versucht, ein optimales k für die Ausgabe des k-means-Algorithmus (mit einer Kosinus-Ähnlichkeitsmetrik ) zu finden, also habe ich die Verzerrung als Funktion der Anzahl der Cluster aufgetragen. Mein Datensatz ist eine Sammlung von 800 Dokumenten in einem 600-dimensionalen Raum.
Soweit ich weiß, sollte mir das Finden des Knie- oder Ellbogenpunkts auf dieser Kurve mindestens ungefähr die Anzahl der Cluster mitteilen, in die ich meine Daten einfügen muss. Ich habe die Grafik unten platziert. Der Punkt, an dem die rote vertikale Linie gezeichnet wurde, wurde unter Verwendung des Tests der maximalen zweiten Ableitung erhalten . Nachdem ich das alles getan hatte, blieb ich bei etwas viel Einfacherem hängen: Was sagt mir diese Grafik über den Datensatz?
Sagt es mir, dass es sich nicht lohnt, Cluster zu erstellen, und dass meine Dokumente nicht strukturiert sind oder dass ich ein sehr hohes k festlegen muss? Eine seltsame Sache ist jedoch, dass selbst bei niedrigem k ähnliche Dokumente in Gruppen zusammengefasst werden, sodass ich nicht sicher bin, warum ich diese Kurve erhalte. Irgendwelche Gedanken?
terms x document
die nach dem Ausführen eines einzelnen Vektors erhalten wurde Zersetzung. Bitte korrigieren Sie mich, wenn ich mich irre.