In dieser Angelegenheit scheint es einige Verwirrung zu geben, daher werde ich einige Beobachtungen machen und einen Hinweis darauf geben, wo in der Literatur eine ausgezeichnete Antwort zu finden ist.
Zum einen PCA und Faktorenanalyse (FA) sind verwandt. Im Allgemeinen sind Hauptkomponenten per Definition orthogonal, Faktoren - die analoge Entität in FA - nicht. Einfach ausgedrückt, überspannen Hauptkomponenten den Faktorraum auf eine willkürliche, aber nicht unbedingt nützliche Weise, da sie aus einer reinen Eigenanalyse der Daten abgeleitet werden. Faktoren hingegen repräsentieren reale Entitäten, die nur zufällig orthogonal (dh unkorreliert oder unabhängig) sind.
Sagen wir , wir nehmen s Beobachtungen von jedem l Themen. Diese können in einer Datenmatrix D mit s Zeilen und l Spalten angeordnet werden. D kann in eine zerlegt werden , Score - Matrix S und eine Ladematrix L , so dass D = SL . S hat s Zeilen und L hat l Spalten, wobei die zweite Dimension die Anzahl der Faktoren n ist . Der Zweck der Faktoranalyse besteht darin, D zu zerlegenauf solche Weise, dass die zugrunde liegenden Bewertungen und Faktoren aufgedeckt werden. Die Belastungen in L geben den Anteil jeder Punktzahl an, aus dem die Beobachtungen in D bestehen .
In PCA hat L die Eigenvektoren der Korrelations- oder Kovarianzmatrix von D als seine Spalten. Diese sind herkömmlicherweise in absteigender Reihenfolge der entsprechenden Eigenwerte angeordnet. Der Wert von n - dh die Anzahl der signifikanten Hauptkomponenten, die in der Analyse beibehalten werden sollen, und damit die Anzahl der Zeilen von L - wird typischerweise durch Verwendung eines Geröllplots der Eigenwerte oder einer von zahlreichen anderen Methoden bestimmt, die in zu finden sind die Literatur. Die Spalten von S in PCA bilden die n abstrakten Hauptkomponenten selbst. Der Wert von n ist die zugrunde liegende Dimension des Datensatzes.
Ziel der Faktorenanalyse ist es, die abstrakten Komponenten mit Hilfe einer Transformationsmatrix T in sinnvolle Faktoren zu transformieren, so dass D = STT -1 L ist . ( ST ) ist die transformierte Punktematrix und ( T - 1 L ) ist die transformierte Ladematrix.
Die obige Erklärung folgt grob der Notation von Edmund R. Malinowski aus seiner ausgezeichneten Faktoranalyse in der Chemie . Ich empfehle die Eröffnungskapitel als Einführung in das Thema.