Was ist der intuitive Grund für das Ausführen von Rotationen in Factor Analysis / PCA und wie wählt man eine geeignete Rotation aus?

Meine Fragen

Was ist der intuitive Grund für die Rotation von Faktoren in der Faktorenanalyse (oder von Komponenten in der PCA)?

Mein Verständnis ist, dass es offensichtlich schwierig ist, die Komponenten zu unterscheiden, wenn Variablen in den obersten Komponenten (oder Faktoren) fast gleich geladen sind. In diesem Fall könnte man also eine Rotation verwenden, um eine bessere Unterscheidung der Komponenten zu erzielen. Ist das richtig?
Was sind die Folgen von Rotationen? Welche Dinge betrifft das?
Wie wähle ich eine geeignete Rotation aus? Es gibt orthogonale und schräge Rotationen. Wie kann man sich zwischen diesen entscheiden und welche Auswirkungen hat diese Wahl?

Erklären Sie dies bitte intuitiv mit den wenigsten mathematischen Gleichungen. Nur wenige der Antworten waren mathematisch schwer, aber ich suche mehr nach intuitiven Gründen und Faustregeln.

— GeorgeOfTheRF
quelle

Grund für die Rotation . Rotationen werden durchgeführt, um die extrahierten Faktoren in der Faktoranalyse (oder Komponenten in der PCA, wenn Sie die PCA als Faktoranalysetechnik verwenden) zu interpretieren. Sie haben Recht, wenn Sie Ihr Verständnis beschreiben. Die Rotation erfolgt im Streben nach einer Struktur der Ladematrix, die als einfache Struktur bezeichnet werden kann . Es ist, wenn verschiedene Faktoren dazu neigen, verschiedene Variablen zu laden $^1$ . [Ich glaube, es ist korrekter zu sagen, dass "ein Faktor eine Variable lädt" als "eine Variable einen Faktor lädt", weil es der Faktor ist, der "in" oder "hinter" Variablen ist, um sie korrelieren zu lassen, aber Sie können sagen wie Sie möchten.] In gewisser Weise ist eine typische einfache Struktur, wo "Cluster" von korrelierten Variablen auftauchen. Sie interpretieren dann einen Faktor als die Bedeutung, die auf dem Schnittpunkt der Bedeutung der Variablen liegt, die vom Faktor ausreichend geladen werden; Um unterschiedliche Bedeutungen zu erhalten, sollten Faktoren daher Variablen differenziell laden. Als Faustregel gilt, dass ein Faktor mindestens 3 Variablen anständig laden sollte.
Folgen . Durch die Drehung wird die Position der Variablen im Raum der Faktoren zueinander nicht verändert, dh die Korrelationen zwischen Variablen bleiben erhalten. Was geändert wird, sind die Koordinaten der Endpunkte der variablen Vektoren auf den Faktorachsen - die Ladungen (bitte durchsuchen Sie diese Site nach "Ladeplot" und "Biplot" für mehr) . Nach einer orthogonalen Rotation der Ladematrix ändern sich die Faktorvarianzen, die Faktoren bleiben jedoch unkorreliert und variable Gemeinsamkeiten bleiben erhalten. $^2$

Bei einer schrägen Rotation können Faktoren ihre Unkorrelation verlieren, wenn dies zu einer klareren "einfachen Struktur" führt. Die Interpretation korrelierter Faktoren ist jedoch schwieriger, da Sie die Bedeutung von einem Faktor ableiten müssen, damit die Bedeutung eines anderen Faktors, mit dem sie korreliert, nicht beeinträchtigt wird. Das bedeutet, dass Sie Faktoren, sagen wir, parallel und nicht einzeln interpretieren müssen. Oblique Drehung lässt Sie mit zwei Matrizen von Beladungen anstelle eines: Mustermatrix und Strukturmatrix . ( , wobei die Korrelationsmatrix zwischen den Faktoren ist; , wobei $\bf P$ $\bf S$ $\bf S=PC$ $\bf C$ $\bf C=Q'Q$ $\bf Q$ ist die Matrix der schrägen Rotation: , wobei die Belastungsmatrix vor jeder Rotation war.) Die Mustermatrix ist die Matrix der Regressionsgewichte, anhand derer Faktoren Variablen vorhersagen, während die Strukturmatrix die Korrelationen (oder Kovarianzen) zwischen Faktoren und Variablen. Die meiste Zeit interpretieren wir Faktoren durch Musterladungen, da diese Koeffizienten die eindeutige individuelle Investition des Faktors in eine Variable darstellen. Oblique Drehung bewahrt variable Kommunalitäten, aber die Kommunalitäten sind nicht mehr gleich der Zeilensummen von Quadraten in oder in . Da die Faktoren korrelieren, überlagern sich ihre Varianzen zum Teil mit . $\bf S=AQ$ $\bf A$ $\bf P$ $\bf S$ $^3$

Sowohl orthogonale als auch schräge Rotationen wirken sich natürlich auf Faktor- / Komponentenbewertungen aus, die Sie möglicherweise berechnen möchten (suchen Sie auf dieser Website nach "Faktorbewertungen"). Die Rotation gibt Ihnen tatsächlich andere Faktoren als die Faktoren, die Sie unmittelbar nach der Extraktion hatten . Sie erben ihre Vorhersagekraft (für die Variablen und ihre Korrelationen), aber sie erhalten von Ihnen eine andere wesentliche Bedeutung. Nach der Rotation darf man nicht sagen "dieser Faktor ist wichtiger als dieser", weil sie gegeneinander gedreht wurden (um ehrlich zu sein, in FA kann man es im Gegensatz zu PCA auch nach der Extraktion kaum sagen, weil Faktoren sind als bereits "wichtig" modelliert). $^4$
Wahl . Es gibt viele Formen von orthogonalen und schrägen Rotationen. Warum? Erstens, weil der Begriff "einfache Struktur" nicht eindeutig ist und etwas anders formuliert werden kann. Zum Beispiel versucht varimax - die beliebteste orthogonale Methode - die Varianz zwischen den quadrierten Werten der Belastungen jedes Faktors zu maximieren. Die manchmal angewandte orthogonale Methode Quartimax minimiert die Anzahl der Faktoren, die zur Erklärung einer Variablen erforderlich sind, und erzeugt häufig den sogenannten "allgemeinen Faktor". Zweitens zielen unterschiedliche Rotationen auf unterschiedliche Nebenziele ab, abgesehen von einer einfachen Struktur. Ich werde nicht auf die Details dieser komplexen Themen eingehen, aber vielleicht möchten Sie sie selbst lesen.

Sollte man orthogonale oder schräge Rotation bevorzugen? Nun, orthogonale Faktoren sind leichter zu interpretieren und das gesamte Faktormodell ist statistisch einfacher (natürlich orthogonale Prädiktoren). Aber dort legen Sie den latenten Merkmalen, die Sie entdecken möchten , Orthogonalität auf; Sind Sie sicher, dass sie in dem Bereich, den Sie studieren, nicht korreliert sein sollten? Was ist, wenn sie nicht sind? Methoden der schrägen Rotation $^5$ (auch wenn jede ihre eigenen Neigungen hat) Erlauben Sie, aber erzwingen Sie nicht, dass Faktoren korrelieren, und sind daher weniger restriktiv. Wenn die schräge Rotation zeigt, dass Faktoren nur schwach korreliert sind, können Sie sicher sein, dass dies "in Wirklichkeit" der Fall ist, und Sie können sich dann mit gutem Gewissen der orthogonalen Rotation zuwenden. Wenn Faktoren, auf der anderen Seite, sind sehr stark korreliert ist , sieht es unnatürlich (für konzeptionell verschiedene latente Züge, vor allem , wenn Sie eine Bestandsaufnahme in der Psychologie oder so entwickeln, - Rückruf , dass ein Faktor ist selbst ein univariate Eigenschaft, nicht eine Charge Phänomene), und Sie möchten möglicherweise weniger Faktoren extrahieren oder alternativ die schrägen Ergebnisse als Batch-Quelle verwenden, um die sogenannten Faktoren zweiter Ordnung zu extrahieren.

$^1$ Thurstone vorverlegt fünf idealen Bedingungen der einfachen Struktur. Die drei wichtigsten sind: (1) Jede Variable muss mindestens eine Last nahe Null haben; (2) jeder Faktor muss für mindestens m Variablen nahe Null geladen sein ( m ist die Anzahl der Faktoren); (3) Für jedes Faktorenpaar gibt es mindestens m Variablen mit Belastungen nahe Null für eine von ihnen und weit genug von Null für die andere. Folglich sollte für jedes Faktorenpaar das Ladediagramm im Idealfall ungefähr so aussehen:

Bildbeschreibung hier eingeben

Dies ist nur zur Erkundung gedacht. Wenn Sie FA ausführen und erneut ausführen, um einen Fragebogen zu entwickeln, möchten Sie eventuell alle Punkte außer den blauen streichen, vorausgesetzt, Sie haben nur zwei Faktoren. Wenn es mehr als zwei Faktoren gibt, möchten Sie, dass die roten Punkte für einige der Ladediagramme der anderen Faktoren blau werden.

$^2$

Bildbeschreibung hier eingeben

$^3$ Die Varianz eines Faktors (oder einer Komponente) ist die Summe seiner quadratischen Strukturladungen , da es sich um Kovarianzen / Korrelationen zwischen Variablen und (in Einheiten skalierten) Faktoren handelt. Nach einer Schrägrotation können Faktoren korrelieren, sodass sich ihre Varianzen überschneiden. Folglich ist die Summe ihrer Varianzen, SS in überschreitet, der Gesamt Gemeinschaftlichkeit erläutert, in SS . Wenn Sie nach Faktor i nur den eindeutigen "sauberen" Teil seiner Varianz berechnen möchten, multiplizieren Sie die Varianz mit der Abhängigkeit des Faktors von den anderen Faktoren, der als Anti-Image bezeichneten Größe . Es ist der Kehrwert des i-ten diagonalen Elements von $\bf S$ $\bf S$ $\bf A$ $1-R_i^2$ $\bf C^{-1}$ . Die Summe der "sauberen" Teile der Varianzen wird geringer sein als die erklärte Gesamtgemeinschaft.

$^4$ Sie dürfen nicht sagen, dass sich der 1. Faktor / die 1. Komponente in der Drehung auf diese oder jene Weise geändert hat, da der 1. Faktor / die 1. Komponente in der gedrehten Ladematrix ein anderer Faktor / eine andere Komponente ist als der 1. Faktor in der ungedrehten Ladematrix. Die gleiche Ordnungszahl ("1st") ist irreführend.

$^5$ Zwei der wichtigsten schrägen Methoden sind promax und oblimin . Promax ist die schräge Verbesserung von Varimax: Die auf Varimax basierende Struktur wird dann gelöst, um der "einfachen Struktur" in größerem Maße zu entsprechen. Es wird häufig in konfirmatorischen FA verwendet. Oblimin ist sehr flexibel aufgrund seines Parameters Gamma, der, wenn er auf 0 gesetzt ist, Oblimin zur Quartimin-Methode macht und die meisten schrägen Lösungen liefert. Ein Gamma von 1 ergibt die am wenigsten schrägen Lösungen, das Covarimin, eine weitere auf Varimax basierende schräge Methode, die eine Alternative zu Promax darstellt. Alle schrägen Methoden können direkt (= primär) und indirekt (= sekundär) sein - siehe die Literatur. Alle Rotationen, sowohl orthogonal als auch schräg, können mit der Kaiser-Normalisierung durchgeführt werden(normalerweise) oder ohne. Durch die Normalisierung sind bei der Rotation alle Variablen gleich wichtig.

Einige Themen zum weiterlesen:

Kann es einen Grund geben, Faktoren überhaupt nicht zu drehen?

Welche Matrix ist nach einer schrägen Rotation zu interpretieren - Muster oder Struktur?

Was bedeuten die Namen der Faktor-Rotationstechniken (Varimax usw.)?

Ist PCA mit rotierten Bauteilen noch PCA oder handelt es sich um eine Faktorenanalyse?

— ttnphns
quelle

+1. Da ich diese Frage sah, hatte ich gehofft, dass Sie eine Antwort beitragen würden. Ich war übrigens überrascht, dass eine solche Frage hier noch nicht gestellt wurde (zumindest nicht in einer so klaren Form).

— Amöbe sagt Reinstate Monica

+1. Danke für die Antwort! 1) Ich verstehe Faktoranalyse & PCA separat, aber was meinen Sie mit "PCA als Faktoranalysetechnik"? PCA & FA sind zwei verschiedene Dinge, um zwei verschiedene Ziele zu erreichen, oder? Bedeutet dies, dass ich die Rotation nicht verwenden kann, wenn PCA-Komponenten eine komplexe Struktur haben?

— GeorgeOfTheRF

2) "Varimax versucht, die Varianz zwischen den Belastungen jedes Faktors zu maximieren" Was ist der Vorteil der Maximierung der Varianz zwischen den Belastungen?

— GeorgeOfTheRF

Für Ihre (1) in den Kommentaren: Ja, die beiden Analysemethoden sind unterschiedlich. Dennoch wird PCA manchmal zum Zweck der FA verwendet. Siehe meine Antwort und den gesamten relevanten Thread dort. Sie können in PCA Faktor-Rotationen genauso und auf denselben Grouds wie in FA verwenden. In Bezug auf die Rotation gibt es keinen Unterschied.

— ttnphns

Für Ihren Kommentar (2). Varimax maximiert die Varianz der absoluten Größe der Belastungen: Folglich werden die Faktorbelastungen für jeden Faktor klar in (absolut) große und kleine "aufgeteilt". Quartimax versucht dies so zu tun, dass jede Variable nur um einen Faktor stark belastet wird.

— ttnphns