Ich habe einen Datensatz mit mehr als 1000 Beispielen mit 19 Variablen. Mein Ziel ist es, eine binäre Variable basierend auf den anderen 18 Variablen (binär und stetig) vorherzusagen. Ich bin ziemlich sicher, dass 6 der Vorhersagevariablen mit der binären Antwort verknüpft sind. Ich möchte jedoch den Datensatz weiter analysieren und nach anderen Assoziationen oder Strukturen suchen, die mir möglicherweise fehlen. Zu diesem Zweck habe ich mich für PCA und Clustering entschieden.
Wenn die PCA mit den normalisierten Daten ausgeführt wird, müssen 11 Komponenten beibehalten werden, um 85% der Varianz beizubehalten. Durch das Zeichnen der Pairplots erhalte ich Folgendes:
Ich bin mir nicht sicher, was als nächstes kommt ... Ich sehe kein signifikantes Muster im PCA und frage mich, was dies bedeutet und ob es durch die Tatsache verursacht worden sein könnte, dass einige der Variablen binär sind. Durch Ausführen eines Clustering-Algorithmus mit 6 Clustern erhalte ich das folgende Ergebnis, das nicht gerade eine Verbesserung darstellt, obwohl einige Blobs hervorzuheben scheinen (die gelben).
Wie Sie wahrscheinlich sehen können, bin ich kein PCA-Experte, habe aber einige Tutorials gesehen und gesehen, wie leistungsfähig es sein kann, einen Blick auf Strukturen im hochdimensionalen Raum zu werfen. Mit dem berühmten MNIST-Ziffern-Datensatz (oder dem IRIS-Datensatz) funktioniert es hervorragend. Meine Frage ist: Was soll ich jetzt tun, um die PCA sinnvoller zu gestalten? Clustering scheint nichts Nützliches aufzunehmen. Wie kann ich feststellen, dass die PCA kein Muster enthält, oder was sollte ich als Nächstes versuchen, um Muster in den PCA-Daten zu finden?