Ich muss die Anzahl der Variablen reduzieren, um eine Clusteranalyse durchzuführen. Meine Variablen sind stark korreliert, daher habe ich mir überlegt, eine Faktoranalyse-PCA (Principal Component Analysis) durchzuführen. Wenn ich jedoch die resultierenden Bewertungen verwende, sind meine Cluster nicht ganz korrekt (im Vergleich zu früheren Klassifizierungen in der Literatur).
Frage:
Kann ich die Rotationsmatrix verwenden, um die Variablen mit den größten Belastungen für jede Komponente / jeden Faktor auszuwählen und nur diese Variablen für mein Clustering zu verwenden?
Alle bibliografischen Verweise wären ebenfalls hilfreich.
Aktualisieren:
Einige Erläuterungen:
Mein Ziel: Ich muss eine Cluster-Analyse mit einem Zwei-Schritt-Algorithmus von SPSS durchführen, aber meine Variablen sind nicht unabhängig. Deshalb habe ich darüber nachgedacht, einige davon zu verwerfen.
Mein Datensatz: Ich arbeite an 15 skalaren Parametern (meine Variablen) von 100.000 Fällen. Einige Variablen sind stark korreliert ( Pearson)
Mein Zweifel: Da ich nur unabhängige Variablen benötige, habe ich mir überlegt, eine Hauptkomponentenanalyse durchzuführen (Entschuldigung: Ich habe in meiner ursprünglichen Frage, meinem Fehler, fälschlicherweise über die Faktoranalyse gesprochen) und für jede Komponente nur die Variablen mit den größten Belastungen auszuwählen. Ich weiß, dass der PCA-Prozess einige willkürliche Schritte beinhaltet, aber ich fand heraus, dass diese Auswahl tatsächlich der von IT Jolliffe (1972 & 2002) vorgeschlagenen " Methode B4 " zur Auswahl von Variablen ähnelt und 1999 auch von JR King & DA Jackson vorgeschlagen wurde .
Ich dachte also, auf diese Weise einige Untergruppen unabhängiger Variablen auszuwählen. Ich werde dann die Gruppen verwenden, um verschiedene Cluster-Analysen durchzuführen und die Ergebnisse zu vergleichen.