Um (Text-) Dokumente zu gruppieren, müssen Sie die Ähnlichkeit zwischen Dokumentenpaaren messen.
Zwei Alternativen sind:
Vergleichen Sie Dokumente als Termvektoren mit Cosine Similarity - und TF / IDF als Gewichtungen für Terme.
Vergleichen Sie die Wahrscheinlichkeitsverteilung jedes Dokuments mit f-Divergenz, z. B. Kullback-Leibler-Divergenz
Gibt es einen intuitiven Grund, eine Methode der anderen vorzuziehen (bei einer durchschnittlichen Dokumentgröße von 100 Begriffen)?