Hierbei handelt es sich um drei verschiedene Methoden, von denen keine als Sonderfall einer anderen angesehen werden kann.
Formal, wenn und Y zentrierte Prädiktordatensätze ( n × p ) und Antwortdatensätze ( n × q ) sind und wenn wir nach dem ersten Achsenpaar suchen, gilt w ∈ R p für XXYn×pn×qw∈RpX und für Y , dann diese Methoden Maximieren Sie die folgenden Mengen:v∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
(Ich habe dieser Liste die kanonische Korrelationsanalyse (CCA) hinzugefügt.)
Ich vermute, dass die Verwirrung daran liegen könnte, dass in SAS alle drei Methoden über dieselbe Funktion PROC PLS
mit unterschiedlichen Parametern implementiert zu sein scheinen . Es scheint also, dass alle drei Methoden Sonderfälle von PLS sind, denn so wird die SAS-Funktion benannt. Dies ist jedoch nur eine unglückliche Benennung. In Wirklichkeit sind PLS, RRR und PCR drei verschiedene Methoden, die zufällig in SAS in einer Funktion implementiert werden, die aus irgendeinem Grund aufgerufen wird PLS
.
In beiden Tutorials, mit denen Sie verlinkt haben, ist das tatsächlich sehr klar. Seite 6 des Tutorials nennt die Ziele aller drei Methoden und sagt nicht, dass PLS zu RRR oder PCR wird, im Gegensatz zu dem, was Sie in Ihrer Frage behauptet haben. In ähnlicher Weise wird in der SAS-Dokumentation erläutert, dass drei Methoden unterschiedlich sind und Formeln und Intuition angeben:
[P] Die Regression der Hauptkomponenten wählt Faktoren aus, die so viele Prädiktorvariationen wie möglich erklären, die Regression des reduzierten Rangs wählt Faktoren aus, die so viele Antwortvariationen wie möglich erklären, und das partielle kleinste Quadrat gleicht die beiden Ziele aus, wobei nach Faktoren gesucht wird, die sowohl die Antwort- als auch die Prädiktorvariation erklären .
Es gibt sogar eine Abbildung in der SAS-Dokumentation, die ein schönes Spielzeugbeispiel zeigt, in dem drei Methoden unterschiedliche Lösungen ergeben. In diesem Spielzeugbeispiel gibt es zwei Prädiktoren und x 2 und eine Antwortvariable y . Die Richtung in Xx1x2yX , die am meisten mit korrelierten geschieht auf die Richtung der maximalen Varianz der orthogonal zu X . Daher ist PC1 orthogonal zur ersten RRR-Achse und die PLS-Achse liegt irgendwo dazwischen.yX
Man kann der RRR-Verlustfunktion eine Kammstrafe hinzufügen, um eine kammreduzierte Rangregression oder RRRR zu erhalten. Dadurch wird die Regressionsachse in Richtung PC1 gezogen, ähnlich wie PLS. Die Kostenfunktion für RRRR kann jedoch nicht in einer PLS-Form geschrieben werden, sodass sie unterschiedlich bleiben.
y