Zusätzlich zu den Antworten, die sich bereits auf die mathematischen Eigenschaften konzentrieren, möchte ich einen experimentellen Kommentar abgeben.
Zusammenfassung: Datengenerierungsprozesse werden häufig so optimiert, dass die Daten für die Regression der Hauptkomponente (PCR) oder der kleinsten Quadrate (PLS) geeignet sind.
Ich bin Analytiker. Wenn ich ein Experiment / eine Methode entwerfe, um etwas zu messen (Regression oder Klassifizierung), nutze ich mein Wissen über die Anwendung und die verfügbaren Instrumente, um Daten zu erhalten, die ein gutes Signal-Rausch-Verhältnis in Bezug auf die jeweilige Aufgabe aufweisen. Das heißt, die von mir generierten Daten sind so konzipiert, dass sie eine große Kovarianz mit der Eigenschaft von Interesse aufweisen.
Dies führt zu einer Varianzstruktur, bei der die interessante Varianz groß ist und die späteren PCs nur das (kleine) Rauschen tragen.
Ich bevorzuge auch Methoden, die redundante Informationen über die jeweilige Aufgabe liefern, um robustere oder präzisere Ergebnisse zu erzielen. PCA bündelt redundante Messkanäle in einem PC, der dann sehr unterschiedlich ist und damit zu den ersten PCs zählt.
Wenn bekannte Confounder zu einer großen Varianz führen, die nicht mit der interessierenden Eigenschaft korreliert, werde ich normalerweise versuchen, diese während der Vorverarbeitung der Daten so weit wie möglich zu korrigieren. In vielen Fällen sind diese Confounder von bekannter Natur physikalische oder chemische Natur, und dieses Wissen legt geeignete Wege zur Korrektur der Störfaktoren nahe. Ich messe zB Raman-Spektren unter dem Mikroskop. Ihre Intensität hängt von der Intensität des Laserlichts sowie davon ab, wie gut ich das Mikroskop fokussieren kann. Beides führt zu Änderungen, die durch Normalisierung korrigiert werden können, z. B. zu einem Signal, von dem bekannt ist, dass es konstant ist.
Daher können große Varianzbeiträge, die nicht zur Lösung beitragen, beseitigt worden sein, bevor die Daten in die PCA eingehen, so dass die ersten PCs größtenteils eine bedeutende Varianz aufweisen.
Last but not least gibt es hier eine sich selbst erfüllende Prophezeiung: Offensichtlich wird die PCR mit Daten durchgeführt, bei denen die Annahme, dass die informationstragende Varianz groß ist, sinnvoll ist. Wenn ich zum Beispiel denke, dass es wichtige Störfaktoren geben könnte, für die ich nicht weiß, wie ich sie korrigieren soll, würde ich mich sofort für PLS entscheiden.