Wir finden die Cluster-Zentren und weisen k verschiedenen Cluster-Klassen Punkte zu. Dies ist ein sehr bekannter Algorithmus, der fast in jedem maschinellen Lernpaket im Netz zu finden ist. Aber der fehlende und wichtigste Teil meiner Meinung nach ist die Wahl eines korrekten k. Was ist der beste Wert dafür? Und was ist mit am besten gemeint ?
Ich verwende MATLAB für wissenschaftliche Berechnungen, bei denen das Betrachten von Silhouetten-Plots als Entscheidungsgrundlage für das hier diskutierte k dient . Ich würde mich jedoch mehr für Bayes'sche Ansätze interessieren. Anregungen sind willkommen.