Sie wissen bereits, zu welchem Cluster jede Person gehört, daher müssen Sie einen Clustering-Algorithmus ausführen, der diese Vorhersage für Sie erstellt. Ihre Frage bezieht sich auf die Datenexploration: Sie versuchen, Ihre Daten zu verstehen. Ihr eigentliches Problem ist ein überwachtes (Mehrklassen-) Klassifizierungsproblem, und Clustering-Algorithmen sind dafür nicht geeignet, da sie nicht überwacht werden.
Ich würde empfehlen, zwei Dinge zu tun: Erstens die Dimensionalität reduzieren, um visualisieren zu können. Zweitens berechnen Sie Metriken für den ursprünglichen hochdimensionalen Datensatz, um ein besseres Verständnis zu erhalten.
Um die Daten zu visualisieren, empfehle ich , t-SNE zu verwenden, um die ethnische Gruppe in zwei Dimensionen und Farben zu visualisieren . Dies gibt Ihnen eine Vorstellung davon, ob Ihre Daten Cluster im 10k-dimensionalen Raum bilden.
Wenn Sie dann Ihr Gefühl oder Ihre Intuition für Ihre Daten weiter verbessern möchten, indem Sie in Form von Clustern im 10k-dimensionalen Raum darüber nachdenken, können Sie Cluster-Metriken wie den Silhouette-Score und die Cluster-Kompaktheit (durchschnittliche Entfernung zum.) Berechnen Mitte) oder zeigen Sie den Abstand zwischen Clustern in einer Heatmap an . Sie können zwei Cluster zusammenführen, indem Sie ihnen dieselbe Bezeichnung geben und sehen, wie sich Ihre Ergebnisse ändern.
Ich kann die Ergebnisse, die Sie möglicherweise erhalten, nicht vorhersehen, daher kann es sehr aufschlussreich sein, was bedeutet, dass Sie feststellen können, dass bestimmte Cluster sehr kompakt sind, andere sehr umfangreich, einige anderen sehr ähnlich sind und so weiter. Aber vielleicht können Sie mit den oben genannten Methoden Ihre Daten überhaupt nicht verstehen. Wenn das passiert, würde ich sagen, dass es Zeit ist, Ihre Daten nicht mehr als Punkte im "Genraum" zu betrachten, wobei Unterschiede zwischen Personen eine "Entfernung" usw. anzeigen. In diesem Fall kann es sein, dass die Zuordnung von Genen zu ethnischen Gruppen erfolgt Die Gruppierung ist komplexer (nicht linear) als eine räumliche Clusterbildung. Daher müssen Sie einen Klassifizierungsalgorithmus verwenden, der diese Nichtlinearität codieren kann.
Deep Learning hat nicht viele Voraussetzungen, aber eine davon ist, dass es nur kontinuierliche Funktionen codieren kann. Neuronale Netze erfordern auch numerische, reelle Eingabemerkmale. Da Ihr Problem binäre Daten enthält und es keinen Grund zu der Annahme gibt, dass die Zuordnung von Gen zu Ethnizität eine reibungslose Funktion ist, sind Algorithmen, die auf Entscheidungsbäumen basieren, möglicherweise ein guter Ausgangspunkt.
Viel Glück! :-)