Gibt es einen guten Grund, PCA anstelle von EFA zu verwenden? Kann PCA auch ein Ersatz für die Faktoranalyse sein?


73

In einigen Disziplinen wird PCA (Principal Component Analysis) systematisch und ohne Begründung verwendet, und PCA und EFA (Exploratory Factor Analysis) werden als Synonyme betrachtet.

Ich habe daher kürzlich PCA verwendet, um die Ergebnisse einer Skalenvalidierungsstudie zu analysieren (21 Punkte auf einer 7-Punkte-Likert-Skala, die 3 Faktoren zu je 7 Punkten enthalten soll), und ein Gutachter hat mich gefragt, warum ich PCA anstelle von EFA gewählt habe. Ich habe über die Unterschiede zwischen beiden Techniken gelesen und es scheint, dass EFA in den meisten Ihrer Antworten hier gegenüber PCA favorisiert wird.

Haben Sie gute Gründe, warum PCA die bessere Wahl wäre? Welche Vorteile könnte es bieten und warum könnte es in meinem Fall eine kluge Wahl sein?


1
Gute Frage. Ich neige dazu, der Antwort von ttnphns nicht zuzustimmen, und werde später heute versuchen, eine alternative Sichtweise zu liefern.
Amöbe

5
@amoeba Ich bin im Voraus für Sie verwurzelt. PCA ist nur eine Transformationstechnik, die (manchmal sehr) hilfreich sein kann. Es besteht keine Notwendigkeit, es zu dämonisieren oder ihm falsche oder unangemessene Absichten zuzuschreiben. Sie können auch einen Logarithmus ausführen.
Nick Cox

4
Es scheint nicht so zu sein, dass die Antwort von ttnphns PCA dämonisiert. Für mich scheint er nur zu argumentieren, dass der PCA nicht auf der Annahme von latenten Variablen basiert, die Ihre Daten generieren. Wenn Sie das also versuchen, ist FA die bessere Wahl.
gung

1
FWIW, ich habe nicht speziell auf die Antwort von ttphns eingegangen, aber auf Kommentare und Kritikpunkte stoße ich oft darauf, wie hoch die Gebühren sind, dass PCA etwas nicht tut, wofür es nie gedacht war oder nicht geeignet ist.
Nick Cox

3
@NeilG: PCA ist kein [probabilistisches] generatives Modell, da es keinen Rauschbegriff enthält und daher keine Wahrscheinlichkeit damit verbunden ist. Es gibt jedoch eine probabilistische Verallgemeinerung (PPCA), die sehr eng mit der PCA verwandt ist, siehe meine Antwort hier.
Amöbe

Antworten:


95

Haftungsausschluss: @ttnphns kennt sich sowohl mit PCA als auch mit FA sehr gut aus, und ich respektiere seine Meinung und habe aus vielen seiner großartigen Antworten zu diesem Thema viel gelernt. Ich neige jedoch dazu, seiner Antwort hier sowie anderen (zahlreichen) Posts zu diesem Thema hier im Lebenslauf zu widersprechen, nicht nur seiner; oder besser gesagt, ich denke, sie haben eine begrenzte Anwendbarkeit.


Ich denke, dass der Unterschied zwischen PCA und FA überbewertet ist.

Betrachten Sie es so: Beide Methoden versuchen, eine niedrigrangige Approximation einer gegebenen Kovarianz- (oder Korrelations-) Matrix bereitzustellen. "Niedriger Rang" bedeutet, dass nur eine begrenzte (niedrige) Anzahl latenter Faktoren oder Hauptkomponenten verwendet wird. Wenn die Kovarianzmatrix der Daten , dann lauten die Modelle:Cn×nC

PCA:CWWPPCA:CWW+σ2IFA:CWW+Ψ

Hier ist eine Matrix mit Spalten (wobei normalerweise als kleine Zahl gewählt wird, ), die Hauptkomponenten oder Faktoren darstellt, ist eine Identitätsmatrix und ist eine Diagonale Matrix. Jede Methode kann so formuliert werden, dass (und der Rest) den Unterschied zwischen linker und rechter Seite minimiert. k k k < n k I Ψ WWkkk<nkIΨW

PPCA steht für probabilistic PCA , und wenn Sie nicht wissen, was das ist, ist es im Moment nicht so wichtig. Ich wollte es erwähnen, weil es gut zwischen PCA und FA passt und eine mittlere Modellkomplexität aufweist. Es relativiert auch den angeblich großen Unterschied zwischen PCA und FA: Obwohl es sich um ein probabilistisches Modell handelt (genau wie FA), stellt es sich tatsächlich als nahezu äquivalent zu PCA heraus ( erstreckt sich über denselben Unterraum).W

Beachten Sie vor allem, dass sich die Modelle nur darin unterscheiden, wie sie die Diagonale von . Wenn die Dimension zunimmt, wird die Diagonale immer unwichtiger (weil es nur Elemente auf der Diagonale und Elemente außerhalb der Diagonale gibt). Infolgedessen gibt es für das große normalerweise überhaupt keinen großen Unterschied zwischen PCA und FA, eine Beobachtung, die selten gewürdigt wird. Für kleine sie ja sehr unterschiedlich sein. n n n ( n - 1 ) / 2 = O ( n 2 ) n nCnnn(n1)/2=O(n2)nn

Beantworten Sie nun Ihre Hauptfrage, warum Menschen in einigen Disziplinen PCA zu bevorzugen scheinen. Ich denke, es läuft darauf hinaus, dass es mathematisch viel einfacher ist als FA (dies ist aus den obigen Formeln nicht ersichtlich, deshalb müssen Sie mir hier glauben):

  1. PCA hat - ebenso wie PPCA, das sich nur geringfügig unterscheidet - eine analytische Lösung, FA dagegen nicht. FA muss also numerisch fit sein, es gibt verschiedene Algorithmen, die möglicherweise unterschiedliche Antworten geben und unter unterschiedlichen Annahmen arbeiten usw. In einigen Fällen können sich einige Algorithmen verklemmen (siehe z. B. "Heywood-Fälle"). Für PCA führen Sie eine Eigenzerlegung durch und Sie sind fertig; FA ist viel chaotischer.

    Technisch gesehen dreht PCA einfach die Variablen, und deshalb kann man es als bloße Transformation bezeichnen, wie @NickCox es in seinem obigen Kommentar getan hat.

  2. Die PCA-Lösung hängt nicht von : Sie finden die ersten drei PCs ( ) und die ersten beiden sind identisch mit denen, die Sie finden würden, wenn Sie anfänglich . Dies gilt nicht für FA: Die Lösung für ist nicht notwendigerweise in der Lösung für . Dies ist nicht intuitiv und verwirrend.k = 3 k = 2 k = 2 k = 3kk=3k=2k=2k=3

Natürlich ist FA ein flexibleres Modell als PCA (schließlich hat es mehr Parameter) und kann oft nützlicher sein. Ich argumentiere nicht dagegen. Was ich bin Argument gegen, ist die Behauptung , dass sie mit PCA ist über „Beschreibung der Daten“ konzeptionell sehr unterschiedlich sind und FA zu sein über „Suche nach latenten Variablen“. Ich sehe nur nicht, dass dies [fast] überhaupt so wahr ist.

So kommentieren Sie einige der oben und in den verknüpften Antworten genannten Punkte:

  • „in PCA die Anzahl der Dimensionen zu extrahieren / zu halten , ist grundsätzlich subjektiv, während in EFA ist die Zahl festgelegt, und Sie haben in der Regel mehr Lösungen zu prüfen“ - na ja, die Wahl der Lösung noch subjektiv ist, so dass ich nicht Sehen Sie hier alle konzeptionellen Unterschiede. In beiden Fällen wird (subjektiv oder objektiv) gewählt, um den Kompromiss zwischen Modellanpassung und Modellkomplexität zu optimieren.k

  • "FA ist in der Lage, paarweise Korrelationen (Kovarianzen) zu erklären. PCA kann das im Allgemeinen nicht" - nicht wirklich, beide erklären Korrelationen besser und besser, wenn wächst.k

  • Manchmal entsteht zusätzliche Verwirrung (aber nicht in den Antworten von @ ttnphns!) Aufgrund der unterschiedlichen Praktiken in den Disziplinen, in denen PCA und FA verwendet werden. Beispielsweise ist es üblich, Faktoren in FA zu rotieren, um die Interpretierbarkeit zu verbessern. Dies wird nach einer PCA selten gemacht, aber im Prinzip hindert nichts daran. Daher neigen die Leute oft dazu zu denken, dass FA Ihnen etwas "Interpretierbares" gibt und PCA nicht, aber dies ist oft eine Illusion.

Lassen Sie mich zum Schluss noch einmal betonen, dass die Unterschiede zwischen PCA und FA für sehr kleine tatsächlich groß sein können, und dass einige der Behauptungen zugunsten von FA möglicherweise im Hinblick auf kleine . Als extremes Beispiel kann für ein einzelner Faktor die Korrelation immer perfekt erklären, aber ein PC kann es nicht ganz schlecht machen.n n = 2nnn=2


Update 1: Generative Modelle der Daten

Sie können aus der Anzahl der Kommentare ersehen, dass das, was ich sage, als kontrovers angesehen wird. Da die Gefahr besteht, dass der Kommentarbereich noch weiter überflutet wird, finden Sie hier einige Anmerkungen zu "Modellen" (siehe Kommentare von @ttnphns und @gung). @ttnphns gefällt nicht, dass ich das Wort "Modell" [der Kovarianzmatrix] verwendet habe , um auf die obigen Annäherungen zu verweisen; Es ist eine Frage der Terminologie, aber was er "Modelle" nennt, sind probabilistische / generative Modelle der Daten :

PPCA:x=Wz+μ+ϵ,ϵN(0,σ2I)FA:x=Wz+μ+ϵ,ϵN(0,Ψ)

Beachten Sie, dass PCA kein probabilistisches Modell ist und nicht auf diese Weise formuliert werden kann.

Der Unterschied zwischen PPCA und FA besteht im Rauschbegriff: PPCA nimmt für jede Variable die gleiche Rauschvarianz an, während FA unterschiedliche Varianzen ("Eindeutigkeiten") annimmt . Dieser kleine Unterschied hat wichtige Konsequenzen. Beide Modelle können mit einem allgemeinen Algorithmus zur Erwartungsmaximierung ausgestattet werden. Für FA ist keine analytische Lösung bekannt, aber für PPCA kann man analytisch die Lösung ableiten, zu der EM konvergiert (sowohl als auch ). Es stellt sich heraus, dass Spalten in die gleiche Richtung hat, aber eine geringere Länge als die Standard-PCA-Ladungen (ich lasse genaue Formeln weg). Aus diesem Grund halte ich PPCA für "fast" PCA:Ψ i i σ 2 W W P P C A W P C A Wσ2Ψiiσ2WWPPCAWPCAW in beiden Fällen über denselben "Hauptunterraum".

Der Beweis ( Tipping and Bishop 1999 ) ist ein bisschen technisch; Der intuitive Grund, warum homogene Rauschvarianz zu einer viel einfacheren Lösung führt, besteht darin, dass für jeden Wert von dieselben Eigenvektoren wie hat, dies gilt jedoch nicht für .C σ 2 C - ΨCσ2ICσ2CΨ

Also ja, @gung und @ttnphns stimmen darin überein, dass FA auf einem generativen Modell basiert und PCA nicht, aber ich denke, es ist wichtig hinzuzufügen, dass PPCA ebenfalls auf einem generativen Modell basiert, aber "fast" PCA entspricht . Dann scheint es kein so wichtiger Unterschied mehr zu sein.


Update 2: Warum liefert PCA die beste Annäherung an die Kovarianzmatrix, wenn bekannt ist, dass nach maximaler Varianz gesucht wird?

PCA hat zwei äquivalente Formulierungen: Zum Beispiel ist der erste PC (a) derjenige, der die Varianz der Projektion maximiert, und (b) derjenige, der einen minimalen Rekonstruktionsfehler liefert. Noch abstrakter kann die Äquivalenz zwischen der Maximierung der Varianz und der Minimierung des Rekonstruktionsfehlers unter Verwendung des Eckart-Young-Theorems gesehen werden .

Wenn die Datenmatrix ist (wobei Beobachtungen als Zeilen, Variablen als Spalten und Spalten als zentriert angenommen werden) und ihre SVD-Zerlegung , dann ist es Es ist allgemein bekannt, dass Spalten von Eigenvektoren der Streumatrix (oder Kovarianzmatrix, wenn durch die Anzahl der Beobachtungen geteilt) sind. sind also Achsen, die die Varianz maximieren (dh Hauptachsen). Aber durch den Eckart-Young Satz, erste - PCs die besten Rang - bieten Annäherung an :XX=USVVC=XX=VS2VkkXXk=UkSkVk(diese Notation bedeutet, dass nur größte Singularwerte / Vektoren verwendet werden) minimiert .kXXk2

Die ersten PCs bieten nicht nur die beste Rang Annäherung an , sondern auch auf die Kovarianzmatrix . In der Tat ist , und die letzte Gleichung liefert die SVD-Zerlegung von (weil orthogonal ist) und ist diagonal). So ist die Eckert-Young Satz sagt uns , dass die beste Rang Annäherung an gegeben durch . Das kann man ändern, indem man das merktk X C C = XX = V S 2 VC V S 2 k C C k = V k S 2 k V k W = V S C k = V k S 2 k V k = ( V S ) k ( V S ) k = WkkXCC=XX=VS2VCVS2kCCk=VkSk2VkW=VS sind PCA-Ladungen, und so ist

Ck=VkSk2Vk=(VS)k(VS)k=WkWk.

Das Fazit lautet hier: wie eingangs angegeben.

minimizing{CWW2CWWσ2I2CWWΨ2}leadsto{PCAPPCAFA}loadings,

Update 3: Numerische Demonstration, dass PCA FA, wennn n

Ich wurde von @ttnphns ermutigt, eine numerische Demonstration meiner Behauptung zu liefern, dass sich die PCA-Lösung der FA-Lösung nähert, wenn die Dimensionalität wächst. Hier kommt's.

Ich habe eine zufällige Korrelationsmatrix mit einigen starken nicht-diagonalen Korrelationen erzeugt. Ich habe dann den oberen linken Quadratblock dieser Matrix mit Variablen genommen, um den Effekt der Dimensionalität zu untersuchen. Für jedes führte ich PCA und FA mit der Anzahl der Komponenten / Faktoren , und für jedes berechnete ich den Off-Diagonal-Rekonstruktionsfehler (Beachten Sie, dass FA auf der Diagonale aufgrund des perfekt rekonstruiertn × n C n = 25 , 50 , ... 200 n k = 1 ... 5 k Σ i j [ C - W W] 2 i j C Ψ n k 1200×200 n×nCn=25,50,200nk=15k

ij[CWW]ij2
CΨBegriff, während PCA nicht tut; aber die diagonale wird hier ignoriert). Dann berechnete ich für jedes und das Verhältnis des PCA-Fehlers außerhalb der Diagonale zum FA-Fehler außerhalb der Diagonale. Dieses Verhältnis muss über , da FA die bestmögliche Rekonstruktion liefert.nk1

PCA vs. FA Rekonstruktionsfehler außerhalb der Diagonale

Rechts entsprechen verschiedene Linien verschiedenen Werten von , und auf der horizontalen Achse ist dargestellt. Beachten Sie, dass sich mit Verhältnisse (für alle ) nähern , was bedeutet, dass PCA und FA ungefähr die gleichen Beladungen ergeben, PCA FA. Mit relativ kleinem , z. B. wenn , schneidet PCA [erwartungsgemäß] schlechter ab, aber der Unterschied ist für kleines nicht so , und selbst für das Verhältnis unter .n n k 1 n n = 25 k k = 5 1.2knnk1nn=25kk=51.2

Das Verhältnis kann groß werden, wenn die Anzahl der Faktoren mit der Anzahl der Variablen . In dem Beispiel, das ich oben mit und , erreicht FA einen Rekonstruktionsfehler von , während PCA dies nicht tut, dh das Verhältnis wäre unendlich. Zurück zur ursprünglichen Frage: Wenn und , verliert PCA nur mäßig an FA , wenn es darum geht, den nicht diagonalen Teil von erklären .knn=2k=10n=21k=3C

Ein illustriertes Beispiel für PCA und FA, angewendet auf einen realen Datensatz (Wein-Datensatz mit ), finden Sie in meinen Antworten hier:n=13


2
Ich wollte gerade eine Frage zum mathematischen Unterschied zwischen den Techniken stellen, da die meisten (ansonsten ausgezeichneten) Antworten zu diesem Thema keine expliziten mathematischen Vergleiche enthalten. Diese Antwort ist genau das , wonach ich gesucht habe.
Shadowtalker

2
Dies ist ein sehr wertvoller, offener Bericht mit einer neuen Perspektive. Das Setzen von PPCA als Zwischentechnik ist entscheidend - es ist der Ort, an dem Ihre Meinung wächst. Darf ich Sie bitten, mehr Zeilen über PPCA zu hinterlassen? - Was ist , wie wird es (kurz) geschätzt und was unterscheidet es von sodass PPCs (im Gegensatz zu Faktoren) den Unterraum der Variablen ausfüllen und ein PPC nicht von abhängt . σ2Ψk
TTNPHNS

3
Ich stimme hier weiterhin zu und die Unterscheidung, dass FA auf latenten Variablen basiert, während PCA nur eine Transformation der Daten ist. Dies ist jedoch sehr gut begründet und eine nützliche Gegenposition. Es trägt zur Qualität dieses Fadens bei. +1
gung

5
@amoeba IHRE ANTWORT IST GROSS. Es ist so klar und erfreulich. Vielen Dank für Ihre Vision.
Subhash C. Davar

2
@ user795305 Entschuldigung, ich habe vergessen zu antworten. Das in Update 1 geschriebene FA-Modell ist korrekt. Das latente soll tatsächlich von und unabhängig von . Die ML-Lösung für und minimiert in der Tat NICHT die Norm von wie ich in Update 2 geschrieben habe. das war schlampig und falsch. Ich sollte es reparieren, danke. Ich denke jedoch, dass es in Ordnung ist zu sagen, dass die ML-Lösung so ist, dass ; Es ist nur so, dass die Verlustfunktion hier nicht die Norm des Unterschieds ist, sondern ein komplizierterer Ausdruck (Wahrscheinlichkeit von bei ). zN(0,I)ϵWΨCWWΨCWW+ΨCWW+Ψ
Amöbe

27

Wie Sie sagten, kennen Sie die relevanten Antworten . siehe auch : So, as long as "Factor analysis..."+ ein paar letzte Absätze; und die unterste Liste hier . Kurz gesagt, PCA ist hauptsächlich eine Datenreduktionstechnik, während FA eine Technik zur Modellierung latenter Merkmale ist. Manchmal liefern sie ähnliche Ergebnisse. Aber in Ihrem Fall - weil Sie wahrscheinlich das Gefühl haben, latente Merkmale zu konstruieren / zu validieren, als wären sie echte Einheiten - wäre die Verwendung von FA ehrlicher und Sie sollten PCA nicht bevorzugen, in der Hoffnung, dass ihre Ergebnisse konvergieren. Wenn Sie dagegen die Daten zusammenfassen / vereinfachen möchten - zum Beispiel für spätere Analysen -, bevorzugen Sie PCA, da es den Daten kein starkes Modell auferlegt (das irrelevant sein könnte).

Um es noch einmal anders zu sagen: PCA gibt Ihnen Dimensionen an, die möglicherweise einigen subjektiv bedeutsamen Konstrukten entsprechen, wenn Sie dies wünschen, während EFA davon ausgeht, dass dies sogar verdeckte Features sind, die Ihre Daten tatsächlich generiert haben , und versucht, diese Features zu finden. In FA steht die Interpretation der Dimensionen (Faktoren) noch aus - ob Sie einer latenten Variablen eine Bedeutung zuordnen können oder nicht, sie "existiert" (FA ist wesentlich), ansonsten sollten Sie sie aus dem Modell entfernen oder weitere Daten zur Unterstützung abrufen es. In PCA ist die Bedeutung einer Dimension optional.

Und noch einmal mit anderen Worten: Wenn Sie m Faktoren extrahieren (Faktoren von Fehlern trennen), erklären diese wenigen Faktoren (fast) alle Korrelationen zwischen Variablen, so dass die Variablen keinen Raum mehr haben, über die Fehler zu korrelieren. Solange "Faktoren" als latente Merkmale definiert sind, die die korrelierten Daten erzeugen / binden, haben Sie daher vollständige Hinweise, um dies zu interpretieren - was für die Korrelationen verantwortlich ist. In PCA ( Komponenten als "Faktoren" extrahieren ) korrelieren Fehler (möglicherweise) immer noch zwischen den Variablen. Sie können also nicht behaupten, dass Sie etwas extrahiert haben, das sauber und vollständig genug ist , um auf diese Weise interpretiert zu werden.

Vielleicht möchten Sie meine andere, längere Antwort in der aktuellen Diskussion lesen , um einige theoretische und Simulationsexperimentdetails darüber zu erhalten, ob PCA ein brauchbarer Ersatz für FA ist. Bitte beachten Sie auch die hervorragenden Antworten von @amoeba auf diesen Thread.


Upd : In ihrer Antwort auf diese Frage führte @amoeba, der sich dort widersetzte, eine (nicht bekannte) PPCA-Technik ein, die auf halbem Weg zwischen PCA und FA steht. Dies löste natürlich die Logik aus, dass PCA und FA eher auf einer Linie als auf der anderen Seite liegen. Dieser wertvolle Ansatz erweitert den theoretischen Horizont. Aber es kann den wichtigen praktischen Unterschied darüber verbergen, dass FA alle paarweisen Kovarianzen mit ein paar Faktoren rekonstruiert (erklärt), während PCA dies nicht erfolgreich tun kann (und wenn es dies gelegentlich tut - das liegt daran, dass es passiert ist, dass FA mimt).


Danke für deine Antwort! Die Ergebnisse von FA stimmen tatsächlich größtenteils mit denen überein, die durch PCA erhalten wurden. Das einzige ist: Die Autoren der ersten Studie (meine ist eine Übersetzung + Validierung) verwendeten eine PCA-Analyse. Reicht dies aus, um die PCA-Analyse in meinem Papier zu behalten und möglicherweise einen Satz hinzuzufügen, der erklärt, dass die FA-Ergebnisse konvergieren, oder sollte ich die PCA durch die FA ersetzen? Beachten Sie, dass der Prüfer uns nicht ausdrücklich dazu auffordert, sondern nur zu begründen fragt, warum wir einen PCA anstelle von FA gewählt haben.
Carine

Ich denke: Wenn die Autoren PCA verwenden, aber ein strengerer / ehrlicherer Ansatz in ihrem Fall EFA erfordert, sollten Sie eine Kritik hinterlassen und anschließend PCA oder PCA und EFA durchführen, um die Ergebnisse zu vergleichen.
ttnphns

2
Beachten Sie auch den Unterschied, dass in PCA die Anzahl der zu extrahierenden / beizubehaltenden Dimensionen grundsätzlich subjektiv ist, während in EFA die Anzahl festgelegt ist und Sie in der Regel mehrere Lösungen, z. B. 3 bis 5 Faktoren, auf ihren Grad überprüfen müssen Korrelationsmatrix wiedergeben und wie gut sie interpretierbar sind. FA ist langweiliger, deshalb ziehen es die Leute oft vor, PCA zu machen, wenn ein gewissenhafter Ansatz es erfordert, eine Reihe von EFA-Pässen auszuprobieren.
ttnphns

Siehe auch den Wikipedia-Eintrag: en.wikipedia.org/wiki/…
RobertF

15

In dieser meiner Antwort (eine zweite und zusätzlich zu den anderen von mir hier) werde ich versuchen , Bilder zu zeigen , in die PCA keine Kovarianz jeder gut funktioniert wiederherstellen (während es wieder - maximiert - Varianz optimal).

Wie in einer Reihe meiner Antworten zur PCA- oder Faktoranalyse werde ich mich der Vektordarstellung von Variablen im Subjektraum zuwenden . In diesem Fall handelt es sich nur um ein Ladediagramm, das Variablen und deren Komponentenladungen zeigt. Also haben wir und die Variablen (wir hatten nur zwei im Datensatz), ihre 1. Hauptkomponente, mit den Ladungen und . Der Winkel zwischen den Variablen ist ebenfalls markiert. Variablen wurden vorab zentriert, daher sind ihre quadratischen Längen und ihre jeweiligen Varianzen.X1X2Fa1a2h12h22

Bildbeschreibung hier eingeben

Die Kovarianz zwischen und ist - es ist ihr Skalarprodukt - (dieser Kosinus ist übrigens der Korrelationswert). Ladungen von PCA erfassen natürlich das maximal mögliche der Gesamtvarianz durch , die Varianz der KomponenteX1X2h1h2cosϕh12+h22a12+a22F

Nun ist die Kovarianz , wobei die Projektion der Variablen auf die Variable (die Projektion, die die Regressionsvorhersage der ersten durch die zweite ist). Und so könnte die Größe der Kovarianz durch die Fläche des darunter liegenden Rechtecks ​​(mit den Seiten und ) wiedergegeben werden.h1h2cosϕ=g1h2g1X1X2g1h2

Bildbeschreibung hier eingeben

Nach dem so genannten "Faktortheorem" (das Sie vielleicht wissen, wenn Sie etwas über die Faktoranalyse lesen) sollten Kovarianzen zwischen Variablen (genau, wenn nicht genau) durch Multiplikation der Ladungen der extrahierten latenten Variablen reproduziert werden ( lesen ). Das heißt, durch, , in unserem Fall (wenn die Hauptkomponente zu erkennen unsere latenten Variablen zu sein). Dieser Wert der reproduzierten Kovarianz könnte durch die Fläche eines Rechtecks ​​mit den Seiten und . Zeichnen wir das Rechteck, das am vorherigen Rechteck ausgerichtet ist, um es zu vergleichen. Dieses Rechteck ist unten schraffiert dargestellt, und sein Bereich trägt den Spitznamen cov * (reproduzierte cov ).a1a2a1a2

Bildbeschreibung hier eingeben

Es ist offensichtlich, dass die beiden Bereiche ziemlich unterschiedlich sind, wobei cov * in unserem Beispiel erheblich größer ist. Die Kovarianz wurde durch das Laden von , der ersten Hauptkomponente, überschätzt . Dies steht im Gegensatz zu jemandem, der erwarten könnte, dass PCA allein durch die erste der beiden möglichen Komponenten den beobachteten Wert der Kovarianz wiederherstellt.F

Was könnten wir mit unserer Handlung tun, um die Reproduktion zu verbessern? Wir können zum Beispiel den Strahl ein wenig im Uhrzeigersinn drehen , bis er sich mit überlagert . Wenn ihre Linien übereinstimmen, bedeutet dies, dass wir gezwungen haben , unsere latente Variable zu sein. Das Laden von (Projektion von darauf) ist , und das Laden von (Projektion von darauf) ist . Dann sind zwei Rechtecke dasselbe - dasjenige, das als cov bezeichnet wurde , und so wird die Kovarianz perfekt reproduziert. Jedoch , die Varianz durch die neue „latente Variable“ erklärt wird , ist kleiner alsFX2X2a2X2h2a1X1g1g12+h22a12+a22 , die Varianz, die durch die alte latente Variable, die 1. Hauptkomponente, erklärt wird (Quadrieren und stapeln Sie die Seiten der beiden Rechtecke im Bild, um sie zu vergleichen). Es scheint, dass wir es geschafft haben, die Kovarianz zu reproduzieren, jedoch auf Kosten der Erklärung des Varianzbetrags. Dh durch Auswahl einer anderen latenten Achse anstelle der ersten Hauptkomponente.

Unsere Vorstellung oder Vermutung könnte nahe legen (ich werde es nicht und kann es möglicherweise nicht durch Mathematik beweisen, ich bin kein Mathematiker), dass, wenn wir die latente Achse aus dem durch und definierten Raum , der Ebene, lösen und ihr erlauben, a zu schwingen Wenn wir uns etwas nähern, können wir eine optimale Position finden - nennen wir es etwa - wobei die Kovarianz durch die emergenten Ladungen ( ) wieder perfekt reproduziert wird, während die Varianz erklärt wird ( ) wird größer sein als , wenn auch nicht so groß wie der Hauptkomponente .X1X2Fa1a2a12+a22g12+h22a12+a22F

Ich glaube , daß diese Bedingung ist realisierbar, insbesondere in diesem Fall , wenn die latent Achse wird in einer solchen Art und Weise aus der Ebene herausgezogen erstreckt als eine „Haube“ von zwei abgeleiteten orthogonalen Ebenen zu ziehen, eine durch die Achse und und die andere enthält die Achse und . Dann nennen wir diese latente Achse den gemeinsamen Faktor , und unser gesamter "Versuch der Originalität" wird als Faktoranalyse bezeichnet .FX1X2


Eine Antwort auf @ amoebas "Update 2" in Bezug auf PCA.

@amoeba ist korrekt und relevant, um an Eckart-Young-Theorem zu erinnern, das für PCA und seine generischen Techniken (PCoA, Biplot, Korrespondenzanalyse), die auf SVD oder Eigenzerlegung basieren, von grundlegender Bedeutung ist. Demnach minimieren erste Hauptachsen von - eine Größe gleich , - sowie . Hier steht für die Daten, wie sie von den Hauptachsen wiedergegeben werden. ist bekanntermaßen gleich , wobei die variablen Ladungen deskX||XXk||2tr(XX)tr(XkXk)||XXXkXk||2XkkXkXkWkWkWkk Komponenten.

Bedeutet dies, dass die Minimierung wahr bleibt, wenn wir nur nicht diagonale Teile beider symmetrischer Matrizen berücksichtigen ? Untersuchen wir es durch Experimentieren.||XXXkXk||2

500 zufällige 10x6Matrizen wurden erzeugt (gleichmäßige Verteilung). Für jede wurde nach dem Zentrieren ihrer Spalten eine PCA durchgeführt und zwei rekonstruierte Datenmatrizen berechnet: eine wie durch die Komponenten 1 bis 3 rekonstruiert ( zuerst wie in der PCA üblich) und die andere wie durch die Komponenten 1, 2 rekonstruiert und 4 (dh Komponente 3 wurde durch eine schwächere Komponente 4 ersetzt). Der Rekonstruktionsfehler (Summe der quadratischen Differenz = quadratische euklidische Distanz) wurde dann für einen , für den anderen . Diese beiden Werte sind ein Paar, das in einem Streudiagramm angezeigt werden soll.XXkk||XXXkXk||2XkXk

Der Rekonstruktionsfehler wurde jedes Mal in zwei Versionen berechnet: (a) ganze Matrizen und verglichen; (b) nur Off-Diagonalen der beiden Matrizen verglichen. Wir haben also zwei Streudiagramme mit jeweils 500 Punkten.XXXkXk

Bildbeschreibung hier eingeben

Wir sehen, dass auf der "gesamten Matrix" alle Punkte oberhalb der y=xLinie liegen . Dies bedeutet, dass die Rekonstruktion für die gesamte Skalarproduktmatrix immer um "1 bis 3 Komponenten" genauer ist als um "1, 2, 4 Komponenten". Dies steht im Einklang mit dem Eckart-Young-Theorem: Die ersten Hauptkomponenten sind die besten Monteure.k

Wenn wir uns jedoch die Darstellung "nur außerhalb der Diagonalen" ansehen, bemerken wir eine Reihe von Punkten unterhalb der y=xLinie. Es stellte sich heraus, dass manchmal die Rekonstruktion von nicht diagonalen Abschnitten durch "1 bis 3 Komponenten" schlechter war als durch "1, 2, 4 Komponenten". Dies führt automatisch zu der Schlussfolgerung, dass die ersten Hauptkomponenten nicht regelmäßig die besten Monteure von nicht diagonalen Skalarprodukten unter den in PCA verfügbaren Monteuren sind. Beispielsweise kann die Rekonstruktion manchmal verbessert werden, wenn eine schwächere Komponente anstelle einer stärkeren verwendet wird.k

Selbst im Bereich der PCA selbst approximieren die wichtigsten Komponenten - die bekanntermaßen die Gesamtvarianz und auch die gesamte Kovarianzmatrix approximieren - nicht notwendigerweise nicht diagonale Kovarianzen . Eine bessere Optimierung dieser ist daher erforderlich; und wir wissen, dass die Faktorenanalyse die (oder eine der) Techniken ist, die sie anbieten können.


Ein Follow-up zu @ amoebas "Update 3": Nähert sich PCA FA, wenn die Anzahl der Variablen zunimmt? Ist PCA ein gültiger Ersatz für FA?

Ich habe ein Gitter von Simulationsstudien durchgeführt. Einige wenige Populationsfaktorstrukturen, Ladematrizen wurden aus Zufallszahlen konstruiert und in ihre entsprechenden Populationskovarianzmatrizen als , wobei ein diagonales Rauschen ist (eindeutig) Abweichungen). Diese Kovarianzmatrizen wurden mit allen Varianzen 1 erstellt, daher entsprachen sie ihren Korrelationsmatrizen.AR=AA+U2U2

Es wurden zwei Arten von Faktorstrukturen entworfen - scharf und diffus . Eine scharfe Struktur hat eine klare, einfache Struktur: Die Belastungen sind entweder "hoch" oder "niedrig", keine Zwischenbelastungen. und (in meinem Design) ist jede Variable genau um einen Faktor hoch belastet. Entsprechendes ist daher deutlich blockartig. Die diffuse Struktur unterscheidet nicht zwischen hohen und niedrigen Belastungen: Sie können beliebige Werte innerhalb einer Grenze sein. und kein Muster innerhalb von Ladungen ist gedacht. Folglich wird das entsprechende glatter. Beispiele für die Populationsmatrizen:RR

Bildbeschreibung hier eingeben

Die Anzahl der Faktoren betrug entweder oder . Die Anzahl der Variablen wurde durch das Verhältnis k = Anzahl der Variablen pro Faktor bestimmt ; k lief Werte in der Studie.264,7,10,13,16

Für jede der wenigen konstruiert Population , seine zufällige Verteilung von Realisierungen Wishart (unter Probengrße ) generiert wurden. Dies waren Proben-Kovarianzmatrizen . Jedes wurde durch FA (durch Extraktion der Hauptachse) sowie durch PCA faktoranalysiert . Zusätzlich wurde jede solche Kovarianzmatrix in eine entsprechende Probenkorrelationsmatrix umgewandelt , die ebenfalls auf die gleiche Weise faktoranalysiert (faktorisiert) wurde. Zuletzt habe ich auch das Factoring der "Eltern" -Matrix der Populationskovarianz (= Korrelation) selbst durchgeführt. Das Kaiser-Meyer-Olkin-Maß für die Stichprobenadäquanz lag immer über 0,7.R50n=200

Für Daten mit 2 Faktoren extrahierten die Analysen 2 und auch 1 sowie 3 Faktoren ("Unterschätzung" und "Überschätzung" der korrekten Anzahl von Faktorregimen). Für Daten mit 6 Faktoren wurden ebenfalls 6 sowie 4 und 8 Faktoren extrahiert.

Das Ziel der Studie war die Wiederherstellung der Kovarianzen / Korrelationen zwischen FA und PCA. Daher wurden Reste von nicht diagonalen Elementen erhalten. Ich registrierte Residuen zwischen den reproduzierten Elementen und den Populationsmatrixelementen sowie Residuen zwischen den ersteren und den analysierten Probenmatrixelementen. Die Residuen des 1. Typs waren konzeptionell interessanter.

Die Ergebnisse, die nach Analysen der Probenkovarianz und der Probenkorrelationsmatrizen erhalten wurden, wiesen gewisse Unterschiede auf, aber alle Hauptergebnisse erwiesen sich als ähnlich. Daher diskutiere ich nur die "Korrelations-Modus" -Analysen (die Ergebnisse zeigen).

1. Gesamt-Off-Diagonal-Fit von PCA vs FA

In den nachstehenden Grafiken ist gegen verschiedene Anzahl von Faktoren und verschiedene k das Verhältnis des in PCA erhaltenen mittleren quadratischen Rests außerhalb der Diagonale zu der in FA erhaltenen gleichen Menge aufgetragen . Dies ähnelt dem, was @amoeba in "Update 3" gezeigt hat. Die Linien auf dem Plot stellen durchschnittliche Tendenzen über die 50 Simulationen dar (ich lasse es weg, auf ihnen Fehlerbalken zu zeigen).

(Anmerkung: Die Ergebnisse sind über Factoring von zufälligen Stichprobe Korrelationsmatrizen, nicht über die Bevölkerung Matrix Factoring Eltern zu ihnen: es ist dumm PCA mit FA zu vergleichen, wie gut sie eine Bevölkerung Matrix erklären - FA immer gewinnt, und wenn die Wenn die richtige Anzahl von Faktoren extrahiert wird, werden die Residuen fast Null sein, und das Verhältnis würde gegen unendlich rasen.)

Bildbeschreibung hier eingeben

Kommentiere diese Handlungen:

  • Allgemeine Tendenz: Wenn k (Anzahl der Variablen pro Faktor) zunimmt, sinkt das PCA / FA-Subfit-Verhältnis insgesamt gegen 1. Das heißt, mit mehr Variablen nähert sich PCA der FA, um nicht-diagonale Korrelationen / Kovarianzen zu erklären. (Dokumentiert von @amoeba in seiner Antwort.) Vermutlich ist das Gesetz, das die Kurven approximiert, ratio = exp (b0 + b1 / k) mit b0 nahe 0.
  • Das Verhältnis ist größer für die Residuen "Probe minus reproduzierte Probe" (linkes Diagramm) als für die Residuen "Population minus reproduzierte Probe" (rechtes Diagramm). Das heißt (trivial), PCA ist FA bei der Anpassung der Matrix, die sofort analysiert wird, unterlegen. Die Linien auf dem linken Plot haben jedoch eine schnellere Abnahmerate, so dass das Verhältnis um k = 16 ebenfalls unter 2 liegt, wie es auf dem rechten Plot ist.
  • Bei Residuen "Population minus reproduzierte Stichprobe" sind die Trends nicht immer konvex oder sogar monoton (die ungewöhnlichen Ellbogen sind eingekreist). Solange es bei der Rede darum geht, eine Populationsmatrix von Koeffizienten durch Faktorisierung einer Stichprobe zu erklären , bringt eine Erhöhung der Anzahl der Variablen PCA nicht regelmäßig näher an FA heran, obwohl die Tendenz vorhanden ist.
  • Das Verhältnis ist für m = 2 Faktoren größer als für m = 6 Faktoren in der Bevölkerung (dicke rote Linien liegen unter dicken grünen Linien). Das bedeutet, dass PCA mit mehr Faktoren, die in den Daten wirken, FA früher einholt. Beispielsweise ergibt k = 4 im rechten Diagramm ein Verhältnis von etwa 1,7 für 6 Faktoren, während der gleiche Wert für 2 Faktoren bei k = 7 erreicht wird.
  • Das Verhältnis ist höher, wenn wir mehr Faktoren relativ zur tatsächlichen Anzahl der Faktoren extrahieren. Das heißt, PCA ist nur geringfügig schlechter als FA, wenn wir bei der Extraktion die Anzahl der Faktoren unterschätzen. und es verliert mehr, wenn die Anzahl der Faktoren korrekt ist oder überschätzt wird (vergleichen Sie dünne Linien mit fetten Linien).
  • Es gibt einen interessanten Effekt der Schärfe der Faktorstruktur, der nur auftritt, wenn wir die Residuen „Population minus reproduzierte Stichprobe“ betrachten: Vergleichen Sie die grauen und gelben Diagramme rechts. Wenn Populationsfaktoren Variablen diffus laden, sinken die roten Linien (m = 6 Faktoren) nach unten. Das heißt, in einer diffusen Struktur (wie zum Beispiel dem Laden chaotischer Zahlen) ist PCA (durchgeführt an einer Stichprobe) bei der Rekonstruktion der Populationskorrelationen nur wenig schlechter als FA - selbst unter einem kleinen k, vorausgesetzt, die Anzahl der Faktoren in der Population ist nicht sehr klein. Dies ist wahrscheinlich die Bedingung, wenn PCA am nächsten an FA ist und am meisten als dessen billiger Ersatz gerechtfertigt ist. Während bei Vorhandensein einer scharfen Faktorstruktur PCA bei der Rekonstruktion der Populationskorrelationen (oder Kovarianzen) nicht so optimistisch ist: Es nähert sich FA nur in der Big-K-Perspektive.

2. Anpassung auf Elementebene durch PCA gegen FA: Verteilung der Residuen

Für jedes Simulationsexperiment, bei dem das Faktorisieren (durch PCA oder FA) von 50 Zufallsstichprobenmatrizen aus der Populationsmatrix durchgeführt wurde, wurde die Verteilung der Residuen "Populationskorrelation minus reproduzierte (durch das Faktorisieren) Probenkorrelation" für jedes nicht-diagonale Korrelationselement erhalten. Verteilungen folgten klaren Mustern, und Beispiele für typische Verteilungen sind unten dargestellt. Ergebnisse nach PCA- Faktorisierung sind blaue linke Seiten und Ergebnisse nach FA- Faktorisierung sind grüne rechte Seiten.

Bildbeschreibung hier eingeben

Das wichtigste Ergebnis ist das

  • Ausgesprochen um die absolute Größe werden Populationskorrelationen durch PCA unzureichend wiederhergestellt: Die wiedergegebenen Werte werden um die Größe überschätzt.
  • Die Vorspannung verschwindet jedoch, wenn k (Verhältnis von Variablen zu Faktorenzahl) zunimmt. Wenn auf dem Bild nur k = 4 Variablen pro Faktor vorhanden sind, verteilen sich die PCA-Residuen im Offset von 0. Dies ist sowohl bei Vorhandensein von 2 Faktoren als auch von 6 Faktoren zu sehen. Aber mit k = 16 ist der Versatz kaum zu sehen - er verschwindet fast und die PCA-Anpassung nähert sich der FA-Anpassung. Es wird kein Unterschied in der Streuung (Varianz) der Residuen zwischen PCA und FA beobachtet.

Ein ähnliches Bild zeigt sich auch, wenn die Anzahl der extrahierten Faktoren nicht mit der tatsächlichen Anzahl der Faktoren übereinstimmt: Nur die Varianz der Residuen ändert sich etwas.

Die oben auf grauem Hintergrund gezeigten Verteilungen beziehen sich auf die in der Population vorhandenen Experimente mit scharfer (einfacher) Faktorstruktur. Wenn alle Analysen in einer Situation mit diffuser Populationsfaktorstruktur durchgeführt wurden, wurde festgestellt, dass die Verzerrung von PCA nicht nur mit dem Anstieg von k, sondern auch mit dem Anstieg von m (Anzahl der Faktoren) nachlässt. Bitte beachten Sie die verkleinerten Anhänge mit gelbem Hintergrund in der Spalte "6 Faktoren, k = 4": Für PCA-Ergebnisse wird fast kein Versatz von 0 beobachtet (der Versatz ist noch vorhanden mit m = 2, der auf dem Bild nicht gezeigt ist ).

In der Annahme, dass die beschriebenen Ergebnisse wichtig sind, habe ich beschlossen, diese Residuenverteilungen tiefer zu untersuchen und die Streudiagramme der Residuen (Y-Achse) gegen den Elementwert (Populationskorrelationswert) (X-Achse) zu zeichnen . Diese Streudiagramme kombinieren jeweils die Ergebnisse aller (50) Simulationen / Analysen. Die LOESS-Anpassungslinie (50% der zu verwendenden lokalen Punkte, Epanechnikov-Kernel) ist hervorgehoben. Die erste Reihe von Plots ist für den Fall einer scharfen Faktorstruktur in der Population (die Trimodalität der Korrelationswerte ist daher offensichtlich):

Bildbeschreibung hier eingeben

Kommentar:

  • Wir sehen deutlich die (oben beschriebene) Rekonstruktionsverzerrung, die für PCA charakteristisch ist, als die schräg verlaufende negative Trend-Löß-Linie: Die PCA der Stichprobendatensätze überschätzt die Populationskorrelationen mit großen Beträgen. FA ist unbefangen (horizontaler Löss).
  • Wenn k wächst, nimmt die PCA-Vorspannung ab.
  • PCA ist voreingenommen, unabhängig davon, wie viele Faktoren in der Population vorhanden sind: Mit 6 vorhandenen Faktoren (und 6 bei Analysen extrahierten) ist es ähnlich defekt wie mit 2 vorhandenen Faktoren (2 extrahiert).

Die zweite Reihe von Darstellungen ist für den Fall der diffusen Faktorstruktur in der Bevölkerung:

Bildbeschreibung hier eingeben

Wiederum beobachten wir die Voreingenommenheit von PCA. Im Gegensatz zum Fall einer scharfen Faktorstruktur nimmt die Verzerrung jedoch mit zunehmender Anzahl von Faktoren ab: Mit 6 Populationsfaktoren ist die Lösslinie von PCA auch unter k nur 4 nicht sehr weit von der Horizontalen entfernt. Dies ist, was wir ausgedrückt haben durch gelbe Histogramme "früher.

Ein interessantes Phänomen bei beiden Sätzen von Streudiagrammen ist, dass Lösslinien für PCA S-gekrümmt sind. Diese Krümmung zeigt sich unter anderen von mir zufällig konstruierten Populationsfaktorkonstruktionen (Ladungen) (ich habe sie überprüft), obwohl ihr Grad variiert und oft schwach ist. Wenn aus der S-Form folgt, beginnt diese PCA, die Korrelationen schnell zu verzerren, wenn sie von 0 abprallen (insbesondere unter einem kleinen k), aber ab einem bestimmten Wert - etwa 0,30 oder 0,40 - stabilisiert sie sich. Ich werde zum jetzigen Zeitpunkt nicht über einen möglichen Grund für dieses Verhalten spekulieren, auch wenn ich glaube, dass die "Sinuskurve" auf der triginometrischen Natur der Korrelation beruht.

Fit von PCA vs FA: Schlussfolgerungen

PCA ist der Gesamtausrüster des nicht-diagonalen Teils einer Korrelations- / Kovarianzmatrix und kann, wenn es zur Analyse einer Stichprobenmatrix aus einer Grundgesamtheit verwendet wird, ein ziemlich guter Ersatz für die Faktoranalyse sein. Dies geschieht, wenn das Verhältnis Anzahl der Variablen / Anzahl der erwarteten Faktoren groß genug ist. (Der geometrische Grund für die vorteilhafte Wirkung des Verhältnisses wird in der unteren Fußnote erläutert .) Bei mehr vorhandenen Faktoren kann das Verhältnis geringer sein als bei nur wenigen Faktoren. Das Vorhandensein einer scharfen Faktorstruktur (einfache Struktur existiert in der Population) behindert die PCA, sich der Qualität von FA anzunähern.1

Die Auswirkung einer scharfen Faktorstruktur auf die Gesamtanpassungsfähigkeit von PCA ist nur unter Berücksichtigung der Reste "Population minus reproduzierte Probe" ersichtlich. Daher kann es vorkommen, dass man es außerhalb einer Simulationsstudienumgebung nicht erkennt - in einer Beobachtungsstudie einer Probe haben wir keinen Zugriff auf diese wichtigen Residuen.

Im Gegensatz zur Faktoranalyse ist PCA ein (positiv) verzerrter Schätzer für die Größe von Populationskorrelationen (oder Kovarianzen), die von Null abweichen. Die Voreingenommenheit von PCA nimmt jedoch mit zunehmendem Verhältnis von Anzahl der Variablen zu Anzahl der erwarteten Faktoren ab. Die Voreingenommenheit nimmt auch ab, wenn die Anzahl der Faktoren in der Bevölkerung zunimmt , aber diese letztere Tendenz wird durch eine vorhandene scharfe Faktorstruktur behindert.

Ich möchte bemerken, dass die PCA-Anpassungsvorspannung und die Auswirkung der scharfen Struktur auf sie auch bei der Betrachtung der Reste "Probe minus reproduzierte Probe" aufgedeckt werden können; Ich habe einfach darauf verzichtet, solche Ergebnisse zu zeigen, weil sie keine neuen Eindrücke zu vermitteln scheinen.

Mein sehr vorläufiger, breiter Rat könnte letztendlich sein, PCA anstelle von FA für typische (dh mit 10 oder weniger in der Grundgesamtheit zu erwartenden Faktoren) faktoranalytische Zwecke zu unterlassen, es sei denn, Sie haben mehr als das Zehnfache der Variablen als die Faktoren. Und je weniger Faktoren vorhanden sind, desto strenger ist das erforderliche Verhältnis. Ich würde außerdem nicht empfehlen, PCA anstelle von FA zu verwenden, wenn Daten mit gut etablierter, scharfer Faktorstruktur analysiert werden - beispielsweise, wenn eine Faktoranalyse durchgeführt wird, um den zu entwickelnden oder bereits gestarteten psychologischen Test oder Fragebogen mit artikulierten Konstrukten / Skalen zu validieren . PCA kann als Werkzeug für die anfängliche Vorauswahl von Gegenständen für ein psychometrisches Instrument verwendet werden.

Einschränkungen der Studie. 1) Ich habe nur die PAF-Methode zur Faktorextraktion verwendet. 2) Die Probengröße wurde festgelegt (200). 3) Bei der Probenahme der Probenmatrizen wurde von einer normalen Population ausgegangen. 4) Für eine scharfe Struktur wurde die gleiche Anzahl von Variablen pro Faktor modelliert. 5) Populationsfaktorladungen konstruieren Ich habe sie aus einer ungefähr gleichmäßigen (für scharfe Struktur - trimodale, dh dreiteilige gleichmäßige) Verteilung entlehnt. 6) Natürlich kann es bei dieser sofortigen Untersuchung wie überall zu Versehen kommen.


Fußnote . PCA ahmt FA- Ergebnisse nach und wird zum äquivalenten Fitter der Korrelationen, wenn - wie hier gesagt - Fehlervariablen des Modells, sogenannte eindeutige Faktoren , unkorreliert werden. FA sucht sie unkorreliert zu machen, aber PCA nicht, sie kann passieren in PCA unkorreliert werden. Die Hauptbedingung ist, wenn die Anzahl der Variablen pro Anzahl der gemeinsamen Faktoren (Komponenten, die als gemeinsame Faktoren beibehalten werden) groß ist.1

Betrachten Sie die folgenden Bilder (wenn Sie erst lernen möchten, wie man sie versteht, lesen Sie bitte diese Antwort ):

Bildbeschreibung hier eingeben

Um die Korrelationen mit wenigen mgemeinsamen Faktoren erfolgreich wiederherstellen zu können , müssen eindeutige Faktoren , die statistisch eindeutige Teile der Manifestvariablen charakterisieren , unkorreliert sein. Wenn PCA verwendet wird, müssen die s im Unterraum des von den s aufgespannten Raums liegen, da PCA den Raum der analysierten Variablen nicht verlässt. Also - siehe linkes Bild - mit (Hauptkomponente ist der extrahierte Faktor) und ( , ) analysierten, eindeutigen Faktoren ,UpXp Up-mpXm=1P1p=2X1X2U1U2Zwangsüberlagerung der verbleibenden zweiten Komponente (dient als Fehler der Analyse). Folglich müssen sie mit korreliert werden . (Auf dem Bild entsprechen Korrelationen den Kosinuswinkeln zwischen Vektoren.) Die erforderliche Orthogonalität ist unmöglich, und die beobachtete Korrelation zwischen den Variablen kann niemals wiederhergestellt werden (es sei denn, die eindeutigen Faktoren sind Nullvektoren, ein trivialer Fall).r=1

Aber wenn Sie eine weitere Variable ( ) , das rechte Bild und noch ein extrahieren. Komponente als gemeinsamer Faktor müssen die drei s in einer Ebene liegen (definiert durch die verbleibenden zwei pr. Komponenten). Drei Pfeile können eine Ebene so überspannen, dass die Winkel zwischen ihnen kleiner als 180 Grad sind. Dort entsteht Freiheit für die Winkel. Als mögliche speziellen Fall sind die Winkel kann etwa gleich 120 Grad sein. Das ist schon nicht sehr weit von 90 Grad, also von der Unkorrelation. Dies ist die auf dem Bild gezeigte Situation.X3U

Wie wir vierte Variable hinzufügen, 4 wird s 3D - Raum werden überspannt. Mit 5, 5, um 4d, usw. zu überspannen. Der Raum für viele Winkel gleichzeitig, um näher an 90 Grad zu gelangen, wird erweitert. Dies bedeutet, dass der Raum, in dem PCA sich FA annähern kann , um nicht diagonale Dreiecke der Korrelationsmatrix anzupassen, ebenfalls erweitert wird.U

Aber echte FA ist normalerweise in der Lage, die Korrelationen auch bei einem kleinen Verhältnis "Anzahl der Variablen / Anzahl der Faktoren" wiederherzustellen, da die Faktorenanalyse, wie hier (und im zweiten Bild dort) erläutert , alle Faktorvektoren (gemeinsame Faktoren und eindeutige Faktoren) zulässt diejenigen) davon abzuweichen, im Raum der Variablen zu liegen. Somit gibt es auch bei nur 2 Variablen und einem Faktor den Raum für die Orthogonalität von s .UX

Die obigen Bilder geben auch einen offensichtlichen Hinweis darauf, warum PCA Korrelationen überschätzt . Auf dem linken Bild ist zum Beispiel , wobei s die Projektionen der s auf (Belastungen von ) und s die Längen der s (Belastungen von ). durch rekonstruierte Korrelation entspricht jedoch nur , dh größer als .rX1X2=a1a2u1u2aXP1P1uUP2P1a1a2rX1X2


1
Ich liebe deine PCA / FA / CCA-Zeichnungen, also freue ich mich über +1. Diese Art des Denkens ist etwas, an das ich überhaupt nicht gewöhnt bin, daher sind einige Überlegungen erforderlich, um es der mir bekannten Mathematik zuzuordnen ... Beachten Sie dies jedoch hier (wie auch in Ihrer anderen berühmten FA-vs-PCA-Antwort mit Zeichnungen) Sie haben nur zwei Variablen. Wie ich in meiner Antwort sagte, wenn es nur zwei Variablen gibt, reicht ein Faktor in FA aus, um die Kovarianz zu 100% perfekt zu reproduzieren (weil es nur einen Freiheitsgrad in der Kovarianzmatrix gibt, abgesehen von der Diagonale), aber Ein PC kann das im Allgemeinen nicht. Es besteht also kein Widerspruch zu meiner Antwort.
Amöbe

Hmm, ich hoffe ich habe den Punkt der unterschiedlichen Reproduktion durch FA und PCA nicht falsch verstanden. Der Platz hier ist zu kurz für meinen Punkt, ich würde es in eine andere Antwort setzen
Gottfried Helms

2
Antwort auf dein Update (das ist deine Antwort auf mein Update 2): Ich bin absolut einverstanden mit allem, was du hier geschrieben hast! PCA-Ladungen sind die beste Annäherung mit niedrigem Rang an die gesamte Kovarianzmatrix (einschließlich der Diagonale), aber nicht unbedingt die beste Annäherung mit niedrigem Rang an den nicht-diagonalen Teil davon; Diese letztere Annäherung wird durch Faktoranalyse gegeben. Es scheint, dass wir uns hier einig sind; Oder haben Sie immer noch das Gefühl, dass einige Teile meiner Antwort Ihrem Denken widersprechen?
Amöbe

1
@ttnphns: Ich habe unsere Diskussion oben noch einmal gelesen und komme auf einen Punkt zurück, den ich in meiner ursprünglichen Antwort angesprochen habe. PCA versucht, Ladungen zu finden, die sich der gesamten Kovarianzmatrix annähern; FA versucht, Ladungen zu finden, die sich dem nicht diagonalen Teil annähern. Aber je größer die Dimensionalität ist, desto kleiner ist der Teil der Kovarianzmatrix in der Diagonale, was bedeutet, dass sich PCA in großen Dimensionen hauptsächlich um den nicht-diagonalen Teil kümmert (weil der diagonale Teil so klein wird). Je größer die Dimensionalität ist, desto näher kommt PCA im Allgemeinen FA. Sind Sie einverstanden?
Amöbe

1
Danke für den Ping, ttnphns. Wow, das sieht interessant aus. Ich werde es sorgfältig lesen, aber jetzt noch nicht. Ich muss es vielleicht auf Januar verschieben. Ich werde es hier kommentieren, sobald ich es gelesen habe. Übrigens habe ich (im Hinterkopf) darüber nachgedacht, zu diesem Thread zurückzukehren und meine Antwort ein wenig zu überarbeiten, um sie "versöhnlicher" zu machen. Dies könnte eine gute Gelegenheit sein, dies zu tun (aber lassen Sie mich zuerst lesen, was Sie geschrieben haben). С наступающим!
Amöbe

4

(Dies ist wirklich ein Kommentar zur zweiten Antwort von @ ttnphns.)
Was die unterschiedliche Art der Reproduktion der Kovarianz unter der Annahme eines Fehlers durch PC und FA betrifft, habe ich einfach die Ladungen / Komponenten der Varianz ausgedruckt, die in den beiden vorhergehenden Schritten auftreten ; nur für die beispiele habe ich 2 variablen genommen.

Wir gehen von der Konstruktion der beiden Elemente aus einem gemeinsamen und einem objektspezifischen Faktor aus. Hier ist die Faktor-Ladungsmatrix:

  L_fa: 
          f1       f2      f3         
  X1:   0.894    0.447     .             
  X1:   0.894     .       0.447              

Die Korrelationsmatrix hierfür ist

  C:
         X1       X2 
  X1:   1.000   0.800
  X2:   0.800   1.000

Wenn wir uns die Ladematrix L_fa ansehen und wie in FA üblich interpretieren, dass f2 und f3 Fehlerausdrücke / artikelspezifische Fehler sind, geben wir C ohne diesen Fehler wieder und erhalten

 C1_Fa 
        X1       X2 
 X1:  0.800   0.800
 X2:  0.800   0.800

Wir haben also das außerdiagonale Element, die Kovarianz, perfekt reproduziert (und die Diagonale ist reduziert).

Wenn wir uns die pca-Lösung ansehen (kann durch einfache Rotationen erfolgen), erhalten wir die beiden Faktoren aus derselben Korrelationsmatrix:

 L_pca : 
         f1        f2
 X1:   0.949      -0.316
 X2:   0.949       0.316

Unter der Annahme des zweiten Faktors als Fehler erhalten wir die reproduzierte Kovarianzmatrix

  C1_PC : 
        X1      X2
 X1:   0.900   0.900
 X2:   0.900   0.900

wo wir die wahre Korrelation überschätzt haben . Dies liegt daran, dass wir die korrigierende negative partielle Kovarianz im zweiten Faktor = Fehler ignoriert haben . Beachten Sie, dass die PPCA mit dem ersten Beispiel identisch wäre.

Bei mehr Artikeln ist dies nicht mehr so ​​offensichtlich, aber dennoch ein inhärenter Effekt. Daher gibt es auch das Konzept der MinRes-Extraktion (oder -Rotation?) Und ich habe auch so etwas wie maximal-determinante Extraktion und ...


[Update] Bezüglich der Frage von @amoeba:

Ich habe das Konzept der "Minimal Residuals" ("MinRes") - Rotation als eine Methode verstanden, die mit den früheren Methoden der CFA-Berechnung übereinstimmt, um die beste Reproduktion der nicht diagonalen Elemente einer Korrelationsmatrix zu erzielen. Ich habe das in den 80er / 90er Jahren gelernt und bin der Entwicklung der Faktoranalyse nicht gefolgt (so tief wie in den letzten Jahren), daher ist "MinRes" möglicherweise aus der Mode gekommen.

Um es mit der PCA-Lösung zu vergleichen : Man kann sich vorstellen, die PCA-Lösung durch Rotation der Faktoren zu finden, wenn sie als Achsen in einem euklidischen Raum betrachtet werden und die Ladungen die Koordinaten der Elemente in diesem Vektorbereich sind.
Dann werden für ein Achsenpaar x, y die Quadratsummen aus den Belastungen der x-Achse und der y-Achse berechnet.
Daraus kann man einen Drehwinkel finden, um den wir drehen sollten, um die Quadratsummen in den gedrehten Achsen maximal auf der x ° und minimal auf der y ° -Achse zu erhalten (wobei der kleine Kreis die gedrehten Achsen anzeigt). .

Tun Sie dies für alle Achsenpaare (wobei immer nur die x-Achse die linke und die y-Achse die rechte Achse ist (also für 4 Faktoren haben wir nur 6 Rotationspaare)) und wiederholen Sie den gesamten Vorgang, um ein stabiles Ergebnis zu erzielen realisiert die sogenannte "Jacobi-Methode" zur Ermittlung der Hauptkomponenten-Lösung: Sie positioniert die erste Achse so, dass sie die maximal mögliche Summe der Belastungsquadrate ("SSqL") (was auch "Varianz" bedeutet) sammelt ") auf einer Achse in der aktuellen Korrelationskonfiguration.

Soweit ich das verstanden habe, sollte " MinRes " die Teilkorrelationen anstelle der SSqL betrachten; es werden also nicht die Quadrate der Ladungen (wie bei der Jacobi-pc-Rotation) summiert, sondern die Kreuzprodukte der Ladungen in jedem Faktor - mit Ausnahme der "Kreuzprodukte" (= Quadrate) der Ladungen von jedem Artikel mit sich selbst.
Nachdem die Kriterien für die x- und die y-Achse berechnet wurden, wird auf die gleiche Weise vorgegangen, wie dies für die iterative jacobi-Rotation beschrieben wurde.

Da sich das Rotationskriterium numerisch vom Maximum-SSqL-Kriterium unterscheidet, muss sich das Ergebnis / die Rotationsposition von der PCA-Lösung unterscheiden. Wenn es konvergiert, sollte es stattdessen die maximal mögliche Teilkorrelation auf einer Achse im ersten Faktor, die nächste maximale Korrelation auf dem nächsten Faktor usw. bereitstellen. Die Idee scheint zu sein, dann so viele Achsen / Faktoren anzunehmen, dass die verbleibende / verbleibende partielle Kovarianz marginal wird.

(Beachten Sie, dass ich die Dinge nur so interpretiert habe, dass ich diese Prozedur nicht explizit ausgeschrieben habe (oder mich im Moment nicht erinnern kann); eine Beschreibung in mathworld scheint dies eher in Formeln wie in der Antwort von amoeba auszudrücken) und ist wahrscheinlich maßgeblicher. Ich habe gerade eine weitere Referenz in der Dokumentation des R-Projekts und eine wahrscheinlich sehr gute Referenz im Gorsuch-Buch zur Faktoranalyse (Seite 116, verfügbar über Google-Books ) gefunden.


Können Sie erklären, worauf Sie sich in Ihrem letzten Satz beziehen? Was ist "MinRes" oder "Maximum-Determinante" -Extraktion und wie hängt das mit dem zusammen, was Sie zuvor geschrieben haben?
Amöbe

"MinRes" ist eine Extraktions- oder Rotationsmethode, auf die ich vor Jahren in den Monografien von S. Mulaik oder K. Überla über die Faktoranalyse gestoßen bin. Es konzentriert sich auf die Minimierung der verbleibenden nicht diagonalen Elemente. Da dies ausdrücklich im Zusammenhang mit vielen anderen Methoden erwähnt wurde, nahm ich an, dass es sich - möglicherweise geringfügig - von den CFA-Implementierungen dieser Ära unterscheidet. Ich hatte versucht, seine Begründung als Rotationskriterium umzusetzen, aber irgendwie hatte ich kein schlüssiges Ergebnis. Ich erwartete auch, dass "Maximierung der Determinante" hier bekannt sein würde; Ich werde sehen, welche Beschreibung ich vor 20 Jahren erhalten hatte ...
Gottfried Helms

Ahh, ich habe beide Teile. Eine Beschreibung des Rotationskriteriums für die "minres" -Begründung finden Sie unter go.helms-net.de/stat/fa/minres.htm . Die "maximale Determinante" ist das mathematische Modell nach einer Extraktions- / Rotationsmethode eines Korrespondenten, Jeffrey Owen Katz, der es "oblisim" nannte und möglicherweise nach unserer Korrespondenz entwickelt wurde. Zu diesem Zeitpunkt war es über meinem Kopf; Trotzdem habe ich versucht, die Methode zu verstehen und sie in einer Word-Datei formatiert und neu organisiert. Siehe go.helms-net.de/stat/fa/oblisim.zip Google für "oblisim" gab einen Newsgroup-Eintrag, der ihn eingeführt zu haben scheint.
Gottfried Helms

@amoeba: Hier ist möglicherweise der erste Eintrag, in dem Jeff Katz seine Methoden vorstellte : mathforum.org/kb/message.jspa?messageID=1516627 Es ist von 1998, also war meine Vermutung vor etwa 20 Jahren etwas ungenau ...
Gottfried Helms

2

Meiner Ansicht nach haben die Begriffe "PCA" und "FA" eine andere Dimension als die Begriffe "Erkundung", "Bestätigung" oder vielleicht "Inferenz". Somit kann jede der beiden mathematisch / statistischen Methoden mit einem der drei Ansätze angewendet werden.

Zum Beispiel, warum sollte es unsinnig sein, eine Hypothese zu haben, dass meine Daten einen allgemeinen Faktor und auch die Struktur einer Reihe von Hauptkomponenten haben (weil mein Experiment mit meinem elektronischen Gerät mir fast fehlerfreie Daten lieferte) und ich meine Hypothese teste, dass die Eigenwerte der nachfolgenden Faktoren mit einem Verhältnis von 75% auftreten? Dies ist dann PCA in einem bestätigenden Rahmen.

Zum anderen erscheint es uns lächerlich, dass wir in unserem Forscherteam mit viel Arbeit eine Itembatterie erstellen, um Gewalt zwischen Schülern zu messen und 3 Hauptverhalten (körperliche Aggression, Depression, Suche nach Hilfe durch Behörden / Eltern) anzunehmen und die entsprechenden Fragen zu stellen in dieser Batterie ... und "explorativ" herausfinden, wie viele Faktoren wir haben ... Statt zu schauen, wie gut unsere Skala drei erkennbare Faktoren enthält (neben vernachlässigbaren artikelspezifischen und möglicherweise sogar fälschlicherweise korrelierten Fehlern). Und danach, wenn ich bestätigt habe, dass unsere Artikelbatterie tatsächlich der Absicht dient, könnten wir die Hypothese prüfen, dass in den Klassen der jüngeren Kinder die Belastungen des Faktors "Suche nach Hilfe durch Behörden" höher sind als bei älteren Schülern. Hmmm, nochmal bestätigend ...

Und zur Erkundung? Ich habe eine Reihe von Maßnahmen aus einer Untersuchung zur Mikrobiologie aus dem Jahr 1960 und sie hatten nicht viel Theorie, aber sie haben alles untersucht, was sie können, weil ihr Forschungsgebiet noch sehr jung war, und ich untersuche die vorherrschende Faktorstruktur unter der Annahme, dass (zum Beispiel) , dass alle fehler wegen der optischen genauigkeit des verwendeten mikroskops gleich groß sind (der ppca-ansatz wie ich gerade gelernt habe). Dann verwende ich das statistische (und anschließend das mathematische) Modell für die FA, aber in diesem Fall auf explorative Weise.

So verstehe ich zumindest die Begriffe.
Vielleicht bin ich hier völlig auf dem falschen Weg, aber ich gehe nicht davon aus.


Ps. In den 90er Jahren schrieb ich ein kleines interaktives Programm, um die Methode der PCA und der Faktoranalyse auf den Grund zu gehen. Es wurde in Turbo-Pascal geschrieben, kann immer noch nur in einem Dos-Fenster ("Dos-Box" unter Win7) ausgeführt werden, hat aber einen wirklich schönen Reiz: interaktiv umschaltende Faktoren einbeziehen oder nicht, dann drehen, einzelne artikelspezifische Fehler- Varianz (nach dem SMC-Kriterium oder dem Equal-Variances-Kriterium (ppca?)), Kaiser-Option ein- und ausschalten, die Verwendung der Covarianzen ein- und ausschalten - nur während die Factorloadingsmatrix wie in einer Tabelle sichtbar ist und kann für die verschiedenen Rotationsmethoden gedreht werden.
Es ist nicht hochentwickelt: kein Chisquare-Test zum Beispiel, nur zum Selbstlernen der internen mathematischen Mechanik. Es gibt auch einen "Demo-Modus", in dem sich das Programm selbst ausführt, erklärende Kommentare auf dem Bildschirm anzeigt und die Tastatureingaben simuliert, die der Benutzer normalerweise machen würde.
Wer Interesse daran hat, sich selbst zu lernen oder damit zu unterrichten, kann es von meinen kleinen Software-Seiten inside- (R) .zip herunterladen. Erweitern Sie einfach die Dateien in der Zip-Datei in einem Verzeichnis, auf das die Dos-Box zugreift, und rufen Sie "demoall.bat" auf im dritten teil der "demoall" habe ich demonstriert, wie man artikelspezifische fehler durch drehungen aus einer anfangs pca-lösung modelliert ...


Ein R-Port Ihres Programms wäre interessant. Meine erste Programmiersprache (und eine der Favoriten) war übrigens [Turbo] Pascal. Ich habe damit sogar Software für meine Diplomarbeit geschrieben. Einige Zeit später verwendete ich Delphi zusammen mit anderen Sprachen und Systemen. :-)
Aleksandr Blekh

1
@Aleksandr: Na ja, so ein Import wäre sicher eine nette Idee; aber ... in der Zwischenzeit bekomme ich die "Seniorentickets" für das lokale Verkehrssystem, und obwohl ich noch nicht müde bin, bin ich der Programmierung ein bisschen überdrüssig ... Ich denke, "Delphi" war ein natürlicher Ersatz für Turbo Pascal ; Ich habe Inside- [r] bis zu einem Matrixrechner "MatMate" mit Delphi 6, in den ich Inside- [r] als Hilfswerkzeug eingebaut habe, stark verbessert. Manchmal denke ich jedoch, dass dieses wirklich schöne Feature mit Point & Click in Inside- [r] auch neu implementiert werden sollte - abgesehen von jeder ausgefeilten Skript- oder Interpretersprache ...
Gottfried Helms

2

Nur eine zusätzliche Bemerkung zu @ amoebas 'langer (und wirklich großartiger) Antwort auf den Charakter des -Stimates. Ψ

In Ihren anfänglichen Aussagen haben Sie drei : für PCA ist , für PPCA ist und für FA haben Sie unbestimmt gelassen . Ψ = 0 Ψ = σ 2 I ΨΨΨ=0Ψ=σ2IΨ

Es sollte jedoch erwähnt werden, dass es eine unendliche Anzahl verschiedener möglicher (sicherlich eingeschränkt) gibt, aber genau eine , die den Rang der Faktormatrix minimiert. Nennen wir dies Die standardmäßige (automatische) Schätzung für ist die auf den SMCs basierende Diagonalmatrix. Schreiben wir dies also als (und gerade Einige Programme versuchen (anscheinend) nicht, von zu optimieren , während (im Allgemeinen) erforderlich ist, um Heywood-Fälle / negative Bestimmtheit zu verhindern. Und darüber hinaus auch solche optimierteΨ o p t Ψ s t d Ψ s t d = α 2 D s m cΨΨoptΨstdΨstd=α2Dsmc1 α < 1 α 2 Ψ s T d & ne; Ψ o p t Ψ o p tα1α<1 α2würde keinen minimalen Rang der verbleibenden Kovarianzen garantieren, daher haben wir normalerweise diesen nicht gleich: im Allgemeinen . wirklich zu finden ist ein sehr schwieriges Spiel, und so weit ich weiß (aber das ist nicht mehr so ​​"weit" wie vor 20 Jahren, als ich mehr involviert war und näher an den Büchern war), ist dies immer noch ein ungelöstes Problem. ΨstdΨopt
Ψopt


Nun, dies spiegelt die ideale mathematische Seite des Problems wider , und meine Unterscheidung zwischen und könnte auch tatsächlich gering sein. Eine allgemeinere Einschränkung ist jedoch, dass die gesamte Faktorisierungsmaschinerie aus der Sicht erörtert wird, dass ich nur meine Stichprobe untersuche oder Daten über die gesamte Population habe . Im Modell der Inferenzstatistik, in dem ich aus einer unvollständigen Stichprobe auf die Population schliesse, ist meine empirische Kovarianz- und damit auch die Faktormatrix nur eine Schätzung, es ist nur ein Schatten der "wahren" Kovarianz- / Faktormatrix. Daher sollten wir in einem solchen Framework / Modell sogar berücksichtigen, dass unsere "Fehler" nicht ideal sind Ψ o p t ΨΨstdΨoptund daher möglicherweise falsch korreliert. Tatsächlich sollten / würden wir in solchen Modellen die irgendwie idealistische Annahme eines unkorrelierten Fehlers und damit einer streng diagonalen Form von hinter uns lassen.Ψ


Hallo, ich bin mir nicht sicher, ob ich Ihren Ausführungen hier vollständig folgen kann. Verstehe ich richtig, dass mit eine solche diagonale Matrix mit positiven Elementen gemeint ist, dass den niedrigstmöglichen Rang hat (wobei die cov / corr-Matrix ist)? Ich denke für ein allgemeines der Größe dieser niedrigstmögliche Rang nicht viel kleiner als (vielleicht oder so), also scheint es nicht sehr interessant , . Ich habe meine Antwort auf die Annahme gestützt, dass FA versucht, und (von Größe für ein gegebenesΨopt C C n × n n n - 1 Ψ o p t Ψ W n × k k C - W W - Ψ CΨoptCCn×nnn1ΨoptΨWn×kk), um zu minimieren . CWWΨ
Amöbe

Der Unterschied der Standpunkte kann auf der Reihenfolge der Schritte zur Lösung des Problems beruhen, um zwei Parameter abzuschätzen, die auch voneinander abhängen. In meiner Bemerkung beginne ich mit dem Punkt, dass es ein für das der verbleibende Rang, sagen wir , von minimal ist und , während es könnte sein , dass wir eine Reihe von Faktoren mit im Auge behalten. Wenn wir dann auf Minres-Position drehen , wird durch eine beliebige Anzahl von Faktoren , die von rechts abgeschnitten werden, nur die minimale (teilweise) Kovarianz entfernt. ...ΨoptrC=CΨopt||CWrWr||=0kk<rWrr+1k
Gottfried Helms

(...) Wenn Sie stattdessen mit , hat im Allgemeinen mindestens einen Rang mehr und daher ist die Anzahl der Faktoren . Dann ist es suboptimal , den minimal möglichen Betrag an entfernbarer Kovarianz durch Schneiden von Faktoren (auch nach Drehung durch einige Kriterien wie pc oder minres) zu finden. Haftungsausschluss : Dies ist immer noch eine Hypothese - es ist schwierig, für Kovarianzen zu finden, deren Struktur nicht selbst erstellt wurde und alle pseudozufälligen Experimente mit selbst erstellten Beispielen sind weniger zuverlässig als die empirischen Fälle. ΨstdCstds>rs+1kΨopt
Gottfried Helms

OK, ich verstehe, was du sagst. Mein Punkt ist, dass für die meisten reellen der Rang von fast der gleiche sein wird wie , dh . Wenn man danach einfach dreht , ist dies wahrscheinlich fast gleichbedeutend mit PCA auf und sich nicht um FA. C * = C - Ψ o p t C r n » k W r CCC=CΨoptCrnkWrC
Amöbe

Wahr. Nun, ich dachte, um es am präzisesten zu machen, wo der "ideale" Fall gefunden werden muss, von wo aus wir auf praktisch berechenbare Näherungen reduzieren. <br> Und jetzt noch mehr zugunsten von PCA ;-): Durch das Zulassen einer falschen Korrelation im Fehler (im zweiten Anwendungsmodus / inferentielle Statistik) kommt das Ergebnis einem Typ näher, der mit der PC-Extraktion begann ...
Gottfried Helms
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.