Ich benötige einen Vorschlag für die Clustering-Methode (unbeaufsichtigte Klassifizierung) für ein Beratungsprojekt. Ich suche eine Methode, die hoffentlich die folgenden Eigenschaften hat:
Das Thema meiner Studie hat drei Eigenschaften. Eine wird durch eine (nichteuklidische) Distanzmatrix dargestellt und die anderen beiden liegen in Form von Vektoren im euklidischen Raum vor. Die Distanzmatrix stammt aus Sequenzen und kann in Form von Prozent der Unähnlichkeit oder einer anderen Messung der Distanz von Sequenzen vorliegen. Der Algorithmus sollte in der Lage sein, beide Vektoren im euklidischen Raum und den nichteuklidischen Abstand als Eingabe zu verwenden. Zum Beispiel können K-Medoide mit einer Distanzmatrix arbeiten, K-Mittel jedoch nicht.
Ich möchte, dass der Algorithmus die Anzahl der Cluster und das Gewicht für drei Eigenschaften automatisch auswählt (mit Vorkenntnissen und Einschränkungen).
Ich habe Informationen über zuvor identifizierte „Zentren von Clustern“. Ich möchte es als vorherige oder anfängliche Werte aufnehmen.
Als Statistiker würde ich es vorziehen, wenn die Methode eine eindeutige Wahrscheinlichkeits- oder Verlustfunktion hätte.
Das nächste, was mir einfällt, ist die Anpassung eines Mischungsmodells in das Bayes'sche Gerüst unter Verwendung von Reverse-Jump-MCMC, um die Anzahl der Cluster zu bestimmen. Die Vektoren in R ^ d können leicht zu einer normalen Wahrscheinlichkeit formuliert werden, aber wie ich mit der Distanzmatrix umgehen soll, ist mir unklar. Ich kann den Mittelwert der normalen Wahrscheinlichkeit einschränken, bei jeder Beobachtung zu sein, um die MCMC zum Laufen zu bringen, aber das hat keine klare mathematisch / statistische Bedeutung.
Hat jemand Erfahrung mit einem ähnlichen Problem? Vorschläge zu Referenzen werden sehr geschätzt!