Ich möchte die Dimensionalität von Systemen höherer Ordnung reduzieren und den größten Teil der Kovarianz auf einem vorzugsweise zweidimensionalen oder eindimensionalen Feld erfassen. Ich verstehe, dass dies über die Hauptkomponentenanalyse erfolgen kann, und ich habe PCA in vielen Szenarien verwendet. Ich habe es jedoch nie mit booleschen Datentypen verwendet und mich gefragt, ob es sinnvoll ist, PCA mit diesem Satz durchzuführen. Angenommen, ich habe qualitative oder beschreibende Metriken und ordne eine "1" zu, wenn diese Metrik für diese Dimension gültig ist, und eine "0", wenn dies nicht der Fall ist (Binärdaten). Stellen Sie sich zum Beispiel vor, Sie versuchen, die sieben Zwerge in Schneewittchen zu vergleichen. Wir haben:
Doc, Dopey, Bashful, Grumpy, Sneezy, Sleepy und Happy, und Sie möchten sie nach Qualitäten ordnen und haben dies wie folgt getan:
So ist Bashful zum Beispiel laktoseintolerant und steht nicht auf der Ehrentafel. Dies ist eine rein hypothetische Matrix, und meine reale Matrix enthält viel mehr beschreibende Spalten. Meine Frage ist, wäre es immer noch angebracht, PCA auf dieser Matrix durchzuführen, um die Ähnlichkeit zwischen Individuen zu finden?
a means of finding the similarity between individuals
. Diese Aufgabe ist jedoch für eine Clusteranalyse vorgesehen, nicht für eine PCA.