In der Regel verwenden wir PCA als Methode zur Dimensionsreduktion für Daten, bei denen angenommen wird, dass es sich um iid-Fälle handelt
Frage: Was sind die typischen Nuancen bei der Anwendung von PCA für abhängige, nicht-iid-bezogene Daten? Welche netten / nützlichen Eigenschaften von PCA, die für iid-Daten gelten, sind gefährdet (oder gehen vollständig verloren)?
Beispielsweise könnten die Daten eine multivariate Zeitreihe sein, in welchem Fall eine Autokorrelation oder eine autoregressive bedingte Heteroskedastizität (ARCH) erwartet werden könnte.
Einige verwandte Fragen zur Anwendung von PCA auf Zeitreihendaten wurden bereits gestellt, z. B. 1 , 2 , 3 , 4 , aber ich suche nach einer allgemeineren und umfassenderen Antwort (ohne auf jeden einzelnen Punkt näher eingehen zu müssen).
Bearbeiten: Wie von @ttnphns festgestellt, ist PCA selbst keine Inferenzanalyse. Man könnte jedoch an der Verallgemeinerungsleistung von PCA interessiert sein, dh an dem Bevölkerungsgegenstück der PCA-Stichprobe. ZB wie in Nadler (2008) geschrieben :
Unter der Annahme, dass die angegebenen Daten eine endliche und zufällige Stichprobe aus einer (im Allgemeinen unbekannten) Verteilung sind, ist die Beziehung zwischen den aus endlichen Daten berechneten PCA-Stichprobenergebnissen und denen des zugrunde liegenden Populationsmodells eine interessante theoretische und praktische Frage.
Verweise:
- Nadler, Boaz. "Endliche Näherungsergebnisse für die Hauptkomponentenanalyse: Ein Ansatz für Matrixstörungen." Die Annalen der Statistik (2008): 2791-2817.