Mindeststichprobengröße für PCA oder FA, wenn das Hauptziel darin besteht, nur wenige Komponenten zu schätzen?


27

Wenn ich einen Datensatz mit n Beobachtungen und p Variablen (Dimensionen) habe und im Allgemeinen n klein ist ( n=1216 ) und p von klein ( p=410 ) bis vielleicht viel größer ( p=3050 ).

Ich erinnere mich, dass ich gelernt habe, dass n viel größer sein sollte als p um eine Hauptkomponentenanalyse (PCA) oder eine Faktoranalyse (FA) durchzuführen, aber es scheint, dass dies in meinen Daten möglicherweise nicht so ist. Beachten Sie, dass ich für meine Zwecke selten an Hauptkomponenten nach PC2 interessiert bin.

Fragen:

  1. Welche Faustregeln gelten für die minimale Stichprobengröße, wenn PCA verwendet werden kann und wenn dies nicht der Fall ist?
  2. Ist es jemals in Ordnung, die ersten paar PCs zu benutzen, auch wenn oder n < p ist ?n=pn<p
  3. Gibt es Referenzen dazu?
  4. Ist es wichtig, ob Ihr Hauptziel darin besteht, PC1 und möglicherweise PC2 zu verwenden:

    • einfach grafisch oder
    • als synthetische Variable dann in der Regression verwendet?

Ich erinnere mich, über diese Art von Richtlinien in Bezug auf die Faktorenanalyse gelesen zu haben. Interessieren Sie sich auch dafür oder nur für PCA? Die Antwort kann auch von der Art der Daten abhängen, mit denen Sie zu tun haben. Haben Sie ein bestimmtes Anwendungsgebiet im Auge?
Gala

1
Danke Gael für die Kommentare und Hinweise unten. Jetzt muss ich die Unterschiede zwischen FA und PCA kennen. :)
Patrick

3
Diese Frage wurde auf dieser Website ausführlich behandelt, siehe z. B. stats.stackexchange.com/questions/1576/… und stats.stackexchange.com/questions/612/…
Gala

Antworten:


21

Sie können tatsächlich messen, ob Ihre Stichprobengröße "groß genug" ist. Ein Symptom für eine zu kleine Stichprobe ist die Instabilität.

Bootstrap oder Kreuzvalidierung Ihres PCA: Diese Techniken stören Ihren Datensatz, indem Sie einen kleinen Teil Ihrer Stichprobe löschen / austauschen und dann für jeden der gestörten Datensätze "Ersatzmodelle" erstellen. Wenn die Ersatzmodelle ähnlich genug sind (= stabil), geht es Ihnen gut. Sie müssen wahrscheinlich berücksichtigen, dass die Lösung des PCA nicht eindeutig ist: PCs können kippen (multiplizieren Sie sowohl eine Punktzahl als auch die jeweilige Hauptkomponente mit ). Möglicherweise möchten Sie auch die Procrustes-Rotation verwenden, um möglichst ähnliche PC-Modelle zu erhalten.1


Vielen Dank. Denken Sie, dass Bootstrapping mit n so niedrig wie 16 übermäßig informativ sein wird? Um das zu verstehen, würde ich nur nach relativer Stabilität suchen, indem ich viele PCAs laufen lasse, wobei eine Site bei jedem Lauf weggelassen wird.
Patrick

In diesem Fall ist es durchaus möglich, alle 16 Modelle zu betrachten, die durch Löschen eines Samples gestört wurden (oder sogar alle 120 Modelle, die 2 Samples ausgelassen haben). Ich denke, mit kleinen würde ich mich wahrscheinlich für einen solchen systematischen lebenslaufähnlichen Ansatz entscheiden. n
Glaube unterstützt Monica

23

Für die Faktorenanalyse (nicht die Hauptkomponentenanalyse) gibt es eine ganze Reihe von Literaturstellen, die einige der alten Faustregeln für die Anzahl der Beobachtungen in Frage stellen. Traditionelle Empfehlungen - zumindest innerhalb der Psychometrie - wären mindestens Beobachtungen pro Variable (wobei x typischerweise irgendwo zwischen 5 und 20 liegt)xx520 ), also auf jeden Fall .np

Eine ziemlich gründliche Übersicht mit vielen Referenzen finden Sie unter http://www.encorewiki.org/display/~nzhao/The+Minimum+Sample+Size+in+Factor+Analysis

Die wichtigste Botschaft, die aus aktuellen Simulationsstudien hervorgeht, ist jedoch wahrscheinlich, dass die Qualität der Ergebnisse so stark variiert (abhängig von den Kommunalitäten, der Anzahl der Faktoren oder dem Faktor-zu-Variablen-Verhältnis usw.), dass die Ergebnisse berücksichtigt werden Das Verhältnis von Variablen zu Beobachtungen ist kein guter Weg, um die erforderliche Anzahl von Beobachtungen zu bestimmen. Wenn die Bedingungen günstig sind, können Sie möglicherweise mit viel weniger Beobachtungen davonkommen, als es alte Richtlinien vermuten lassen, aber selbst die konservativsten Richtlinien sind in einigen Fällen zu optimistisch. Zum Beispiel erzielten Preacher & MacCallum (2002) gute Ergebnisse mit extrem kleinen Stichprobengrößen und p>n aber Mundfrom, Shaw & Ke (2005) fanden in einigen Fällen eine Stichprobengröße von n>100pWar notwendig. Sie stellten auch fest, dass bei gleichbleibender Anzahl der zugrunde liegenden Faktoren mehr Variablen (und nicht weniger, wie in den Leitlinien auf der Grundlage des Verhältnisses von Beobachtungen zu Variablen impliziert) zu besseren Ergebnissen bei kleinen Stichproben von Beobachtungen führen könnten.

Relevante Referenzen:

  • Mundfrom, DJ, Shaw, DG & Ke, TL (2005). Empfehlungen zur Mindeststichprobengröße für die Durchführung von Faktoranalysen. International Journal of Testing, 5 (2), 159-168.
  • Preacher, KJ & MacCallum, RC (2002). Explorative Faktoranalyse in der Verhaltensgenetik: Faktorwiederherstellung bei kleinen Stichproben. Behavior Genetics, 32 (2), 153 & ndash; 161.
  • de Winter, JCF, Dodou, D. & Wieringa, PA (2009). Explorative Faktoranalyse mit kleinen Stichproben. Multivariate Behavioral Research, 44 (2), 147-181.

5
(+1) Hier ist ein weiteres Papier, das Simulation und reale Datensätze verwendet und darauf hinweist, dass die N / p-Faustregel in der Praxis nicht sehr gut funktioniert und Stichprobengrößen bereitstellt, die erforderlich sind, um eine stabile und genaue Lösung in EFA zu erhalten. -controlling für verschiedene Qualitätskriterien - in Abhängigkeit von der Anzahl der Faktoren und der Anzahl der Elemente (und optional der Halbwertsbreite von Cronbachs Alpha 95% CI, basierend auf der Feldtschen Formel) in einer psychiatrischen Skala: Stichprobengrößenanforderungen für die interne Validierung von psychiatrischen Skalen Int J Methods Psychiatr Res. 2011 Dec; 20 (4): 235 & ndash; 49.
chl

1

Die Idee hinter den MVA-Ungleichungen ist einfach: PCA entspricht der Schätzung der Korrelationsmatrix der Variablen. Sie versuchen, zu erratenpp12np - Daten. (Deshalb solltest du n >> p haben.)

Die Äquivalenz kann folgendermaßen gesehen werden: Jeder PCA-Schritt ist ein Optimierungsproblem. Wir versuchen herauszufinden, welche Richtung die größte Varianz ausdrückt. dh:

max(aiTΣai)

σ die Kovarianzmatrix ist.

unter den Einschränkungen:

aiTai=1

aiTaj=0
j<i

Σσ

N = p zu nehmen ist mehr oder weniger gleichbedeutend damit, einen Wert mit nur zwei Daten zu erraten ... es ist nicht zuverlässig.

2np


kk(p1)+(p2)++(pk)pk Parameter, die ziemlich viel weniger als sein könnten p(p-1)/2.
Whuber

Der Punkt ist, dass Sie (pk) Koeffizienten von Eigenvektoren aus p (p-1) / 2 Koeffizienten der Matrix berechnen. Für eine Zufallsmatrix gibt es meines Erachtens keine Möglichkeit, einige Koeffizienten, die Eigenvektoren / Eigenwerte berechnen, zu "überspringen".
Lcrmorin

Klar ist: Die üblichen Algorithmen ermitteln die Eigenwerte und die Eigenvektoren nacheinander vom größten Eigenwert abwärts. Dabei handelt es sich nicht um ein Rechenproblem, sondern um das Zählen der geschätzten Werte - es sei denn, ich habe Ihre Antwort falsch verstanden?
whuber

1

Ich hoffe das könnte hilfreich sein:

für FA und PCA

'' Die in diesem Kapitel beschriebenen Methoden erfordern große Proben, um stabile Lösungen abzuleiten. Was eine angemessene Stichprobengröße ausmacht, ist etwas kompliziert. Bis vor kurzem verwendeten Analysten Faustregeln wie „Faktoranalyse erfordert 5–10-mal so viele Probanden wie Variablen.“ Neuere Studien legen nahe, dass die erforderliche Stichprobengröße von der Anzahl der Faktoren, der Anzahl der mit jedem Faktor verbundenen Variablen und der Art und Weise abhängt Nun, die Menge der Faktoren erklärt die Varianz in den Variablen (Bandalos und Boehm-Kaufman, 2009). Ich werde auf die Beine gehen und sagen, wenn Sie mehrere hundert Beobachtungen haben, sind Sie wahrscheinlich in Sicherheit. ''

Referenz:

Bandalos, DL und MR Boehm-Kaufman. 2009. „Vier häufige Missverständnisse in der exploratorischen Faktoranalyse“. In Statistical and Methodological Myths and Urban Legends, herausgegeben von CE Lance und RJ Vandenberg, 61–87. New York: Routledge.

aus "R in Action" von Robert I. Kabacoff, sehr informatives Buch mit guten Ratschlägen für fast alle statistischen Tests.


2
Es scheint, als würden Sie nur ein Buch einstecken und einige zuvor gemachte Punkte auf der Grundlage einer sekundären oder tertiären Quelle erneut aufbereiten. Dies scheint nicht sehr nützlich zu sein. Können Sie zumindest die vollständige Referenz für Bandalos und Boehm-Kaufman, 2009 angeben?
Gala
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.