Ich weiß, dass in einer Regressionssituation, wenn Sie eine Reihe von stark korrelierten Variablen haben, dies normalerweise "schlecht" ist, weil die geschätzten Koeffizienten instabil sind (Varianz geht gegen Unendlich, Determinante gegen Null).
Meine Frage ist, ob diese "Bösartigkeit" in einer PCA-Situation bestehen bleibt. Werden die Koeffizienten / Belastungen / Gewichte / Eigenvektoren für einen bestimmten PC instabil / willkürlich / nicht eindeutig, wenn die Kovarianzmatrix singulär wird? Mich interessiert besonders der Fall, dass nur die erste Hauptkomponente erhalten bleibt und alle anderen als "Lärm" oder "etwas anderes" oder "unwichtig" abgetan werden.
Ich glaube nicht, dass dies der Fall ist, weil Ihnen nur ein paar Hauptkomponenten übrig bleiben, die null oder nahezu null Varianz haben.
Leicht zu erkennen ist dies im einfachen Extremfall mit 2 Variablen nicht der Fall - nehmen wir an, sie sind perfekt korreliert. Dann ist der erste PC die exakte lineare Beziehung, und der zweite PC ist für den ersten PC senkrecht, wobei alle PC-Werte für alle Beobachtungen gleich Null sind (dh Varianz Null). Ich frage mich, ob es allgemeiner ist.