Der folgende Artikel: Die Komponentenretention in der Hauptkomponentenanalyse mit Anwendung auf cDNA-Microarray-Daten von Cangelosi und Goriely gibt einen recht guten Überblick über die Standardregel der Daumen, um die Anzahl der Komponenten in einer Studie zu ermitteln. (Geröllplot, Anteil der erklärten Gesamtvarianz, durchschnittliche Eigenwertregel, Log-Eigenwert-Diagramm usw.) Die meisten von ihnen sind in R recht einfach zu implementieren.
Im Allgemeinen müssen Sie nur "Ihr Gift auswählen", wenn Ihre Geröll-Verschwörung sehr nicht schlüssig ist. Es gibt kein absolutes Richtig oder Falsch für Daten, da die Anzahl der zu verwendenden PCs in Wirklichkeit von Ihrem Verständnis des Problems abhängt. Der einzige Datensatz, dessen Dimensionalität Sie "wirklich" kennen können, ist der, den Sie selbst erstellt haben. :-) Hauptkomponenten am Ende des Tages bieten die optimale Zerlegung der Daten unter einer RSS-Metrik (wobei als Nebenprodukt jede Komponente einen Hauptvariationsmodus darstellt) und das Einschließen oder Ausschließen einer bestimmten Anzahl von Komponenten diktiert Ihre Wahrnehmung über die Dimensionalität Ihres Problems.
Aus persönlichen Gründen mag ich Minkas Ansatz für diese automatische Wahl der Dimensionalität für PCA, der auf einer probabilistischen Interpretation von PCA basiert. Andererseits versuchen Sie, die Wahrscheinlichkeit Ihrer Daten für eine bestimmte Dimensionalität zu modellieren. (Link bietet Matlab-Code, wenn Sie dieser Begründung folgen möchten.)
Versuchen Sie, Ihre Daten besser zu verstehen. z.B. Glauben Sie wirklich, dass 99,99% der Abweichungen Ihres Datensatzes auf die Kovariaten Ihres Modells zurückzuführen sind? Wenn nicht, müssen Sie wahrscheinlich keine Dimensionen angeben, die einen so geringen Anteil an der Gesamtvarianz aufweisen. Denken Sie, dass eine Komponente in Wirklichkeit Abweichungen unterhalb einer Schwelle von nur wahrnehmbaren Unterschieden widerspiegelt? Dies bedeutet wiederum wahrscheinlich, dass es wenig relevant ist, diese Komponente in Ihre Analyse einzubeziehen.
Auf jeden Fall viel Glück und überprüfen Sie Ihre Daten sorgfältig. (Sie zu planen macht auch Wunder.)
psy
oderpsych
in den Programmen R und SPSS, SAS und MATLAB. Verwenden der Parallelanalyse und des Velicer-MAP-Tests im Allgemeinen.