Ich versuche, Clustering auf Dokumentebene durchzuführen. Ich habe die Term-Document-Frequenzmatrix konstruiert und versuche, diese hochdimensionalen Vektoren mit k-Mitteln zu clustern. Anstatt direkt zu clustern, habe ich zuerst die LSA-Singularvektorzerlegung (Latent Semantic Analysis) angewendet, um die U, S, Vt-Matrizen zu erhalten, eine geeignete Schwelle unter Verwendung des Geröllplots ausgewählt und Clusterbildung auf die reduzierten Matrizen angewendet (speziell Vt, weil es gibt mir eine konzeptdokument-information, die mir gute ergebnisse zu bringen schien.
Ich habe gehört, dass einige Leute sagten, SVD (Singular Vector Decomposition) sei Clustering (unter Verwendung von Cosinus-Ähnlichkeitsmessungen usw.) und nicht sicher waren, ob ich k-means auf die Ausgabe von SVD anwenden könnte. Ich dachte, es wäre logisch korrekt, weil SVD eine Technik zur Reduzierung der Dimensionalität ist und mir eine Reihe neuer Vektoren liefert. k-means hingegen nimmt die Anzahl der Cluster als Eingabe und teilt diese Vektoren in die angegebene Anzahl von Clustern auf. Ist dieses Verfahren fehlerhaft oder gibt es Möglichkeiten, dies zu verbessern? Irgendwelche Vorschläge?