Partielle Regression der kleinsten Quadrate in R: Warum entspricht PLS für standardisierte Daten nicht der Maximierung der Korrelation?

Ich bin sehr neu in Partial Least Squares (PLS) und versuche, die Ausgabe der R-Funktion plsr()im plsPaket zu verstehen . Lassen Sie uns Daten simulieren und den PLS ausführen:

library(pls)
n <- 50
x1 <- rnorm(n); xx1 <- scale(x1) 
x2 <- rnorm(n); xx2 <- scale(x2)
y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y)
p <- plsr(yy ~ xx1+xx2, ncomp=1)

Ich hatte erwartet, dass die folgenden Nummern $a$ und $b$

> ( w <- loading.weights(p) )

Loadings:
    Comp 1
xx1 0.723 
xx2 0.690 

               Comp 1
SS loadings       1.0
Proportion Var    0.5
> a <- w["xx1",]
> b <- w["xx2",]
> a^2+b^2
[1] 1

werden berechnet, um zu maximieren

> cor(y, a*xx1+b*xx2)
          [,1]
[1,] 0.9981291

aber das ist nicht genau der Fall:

> f <- function(ab){
+ a <- ab[1]; b <- ab[2]
+ cor(y, a*xx1+b*xx2)
+ }
> optim(c(0.7,0.6), f, control=list(fnscale=-1))
$par
[1] 0.7128259 0.6672870

$value
[1] 0.9981618

Handelt es sich um einen numerischen Fehler, oder verstehe ich die Natur von und falsch? $a$ $b$ ?

Ich würde auch gerne wissen, was diese Koeffizienten sind:

> p$coef
, , 1 comps

           yy
xx1 0.6672848
xx2 0.6368604

EDIT : Jetzt sehe ich was p$coefist:

> x <- a*xx1+b*xx2
> coef(lm(yy~0+x))
        x 
0.9224208 
> coef(lm(yy~0+x))*a
        x 
0.6672848 
> coef(lm(yy~0+x))*b
        x 
0.6368604

Ich denke also, ich habe Recht mit der Natur von und $a$ $b$ .

EDIT: In Anbetracht der Kommentare von @chl denke ich, dass meine Frage nicht klar genug ist, also lass mich mehr Details angeben. In meinem Beispiel gibt es einen Vektor von Antworten und eine zweispaltige Matrix von Prädiktoren, und ich verwende die normalisierte Version von und die normalisierte Version von (zentriert und dividiert durch Standardabweichungen). Die Definition der ersten PLS-Komponente ist wobei und gewählt sind, dass ein Maximalwert des inneren Produkts erhalten wird. Daher entspricht dies der Maximierung der Korrelation zwischen $Y$ $X$ $\tilde Y$ $Y$ $\tilde X$ $X$ $t_1$ $t_1 = a \tilde X_1 + b \tilde X_2$ $a$ $b$ $\langle t_1, \tilde Y \rangle$ . $t_1$ und , nicht wahr? $Y$

r regression partial-least-squares

— Stéphane Laurent
quelle

Die PLS-Regression maximiert die Faktorwerte (die als Produkt von Rohdaten mit Kovarianz des Ladevektors (der Ladevektoren) berechnet werden , nicht die Korrelation (wie in der kanonischen Korrelationsanalyse). plsIn diesem JSS-Dokument finden Sie einen guten Überblick über das Paket und die PLS-Regression .

— Chl

Da alle Vektoren zentriert und normalisiert sind, ist Kovarianz eine Korrelation, nicht wahr? Tut mir leid, aber das JSS-Papier ist für Anfänger zu technisch.

— Stéphane Laurent

Im Allgemeinen gibt es einen asymmetrischen Deflationsprozess (resultierend aus der Regression der linearen Kombination eines Blocks auf die lineare Kombination des anderen), der die Dinge etwas kompliziert. Ich lieferte in dieser Antwort ein schematisches Bild . Hervé Abdi gab einen allgemeinen Überblick über die PLS-Regression, und auch Wegelins Umfrage zu PLS-Methoden (Partial Least Squares) ist sehr nützlich. An dieser Stelle sollte ich wahrscheinlich alle diese Kommentare in eine Antwort umwandeln ...

— chl

In meinem Beispiel gibt es einen Vektor

von Antworten und eine zweispaltige Matrix

von Prädiktoren, und ich verwende die normalisierte Version

von

und die normalisierte Version

von

(zentriert und dividiert durch Standardabweichungen). Meine Definition der ersten PLS-Komponente

ist

wobei

und

gewählt sind, dass ein Maximalwert des Skalarprodukts

Y

$Y$

X

$X$

\tilde{Y}

$\tilde Y$

Y

$Y$

\tilde{X}

$\tilde X$

X

$X$

t_{1}

$t_1$

t_{1} = a {\tilde{X}}_{1} + b {\tilde{X}}_{2}

$t_1 = a \tilde X_1 + b \tilde X_2$

a

$a$

b

$b$

. Ist es nicht die gute Definition?

⟨ t_{1}, \tilde{Y} ⟩

$\langle t_1, \tilde Y \rangle$

— Stéphane Laurent

Entschuldigung, @Stéphane, meine obigen Kommentare haben nicht berücksichtigt, dass Sie nur eine Komponente angefordert haben (daher spielt die Deflation hier keine entscheidende Rolle). Es scheint jedoch, dass Ihre Optimierungsfunktion keine Einheitsnorm-Gewichtungsvektoren auferlegt, so dass am Ende

. (Übrigens werden Sie mehr Informationen darüber erhalten, was diese "Koeffizienten" sind, aber Sie haben das anscheinend bereits selbst entdeckt.)

a^{2} + b^{2} \neq 1

$a^2+b^2\neq 1$ ?coef.mvr

— chl

Die PLS-Regression beruht auf iterativen Algorithmen (z. B. NIPALS, SIMPLS). Ihre Beschreibung der Hauptideen ist richtig: Wir suchen einen (PLS1, eine Antwortvariable / mehrere Prädiktoren) oder zwei (PLS2, mit verschiedenen Modi, mehreren Antwortvariablen / mehreren Prädiktoren) Vektoren von Gewichten, (und ) Zum Beispiel, um eine lineare Kombination der ursprünglichen Variablen zu bilden, so dass die Kovarianz zwischen Xu und Y (Yv, für PLS2) maximal ist. Konzentrieren wir uns darauf, das erste Gewichtungspaar zu extrahieren, das der ersten Komponente zugeordnet ist. Formal lautet das Kriterium zur Optimierung $u$ $v$ In Ihrem Fall ist univariate, so dass es zu maximierenbeträgt

max cov (X u, Y v) . (1)

$\max\text{cov}(Xu, Yv).\qquad (1)$

Y

$Y$

hängt nicht von

, müssen wir maximieren

. Überlegen wir uns, wo die Daten individuell standardisiert sind (ich habe anfangs den Fehler gemacht, Ihre Linearkombination anstelle von

und

separat zuskalieren!), So dass

cov (X u, y) \equiv Var (X u)^{1 / 2} \times cor (X u, y) \times Var (y)^{1 / 2}, s t . ‖ u ‖ = 1.

$\text{cov}(Xu, y)\equiv \text{Var}(Xu)^{1/2}\times\text{cor}(Xu, y)\times\text{Var}(y)^{1/2},\quad st. \|u\|=1.$

Var (y)

$\text{Var}(y)$

u

$u$

Var (X u)^{1 / 2} \times cor (X u, y)

$\text{Var}(Xu)^{1/2}\times\text{cor}(Xu, y)$ X=[x_1;x_2]

x_{1}

$x_1$

x_{2}

$x_2$

; Jedoch

undabhängig von

. Zusammenfassend lässt sich sagen, dass dieMaximierung der Korrelation zwischen der latenten Komponente und der Antwortvariablen nicht zu den gleichen Ergebnissen führt

Var (x_{1}) = Var (x_{2}) = 1

$\text{Var}(x_1)=\text{Var}(x_2)=1$

Var (X u) \neq 1

$\text{Var}(Xu)\neq 1$

u

$u$ .

Ich sollte Arthur Tenenhaus danken der mich in die richtige Richtung wies.

pls. regressionpls.pcr $u$ , aber der ChemometrieVignette bietet auch eine gute Diskussion (S. 26-29). Von besonderer Bedeutung ist auch die Tatsache, dass die meisten PLS-Routinen (zumindest die, die ich in R kenne) davon ausgehen, dass Sie nicht standardisierte Variablen bereitstellen, da die Zentrierung und / oder Skalierung intern erfolgt (dies ist besonders wichtig, wenn Sie beispielsweise eine Kreuzvalidierung durchführen ).

$u'u=1$ $u$

u = \frac{X^{'} y}{‖ X^{'} y ‖} .

$u=\frac{X'y}{\|X'y\|}.$

Mit einer kleinen Simulation kann es wie folgt erhalten werden:

set.seed(101)
X <- replicate(2, rnorm(100))
y <- 0.6*X[,1] + 0.7*X[,2] + rnorm(100)
X <- apply(X, 2, scale)
y <- scale(y)

# NIPALS (PLS1)
u <- crossprod(X, y)
u <- u/drop(sqrt(crossprod(u)))         # X weights
t  <- X%*%u
p <- crossprod(X, t)/drop(crossprod(t)) # X loadings

Sie können die obigen Ergebnisse ( u=[0.5792043;0.8151824]insbesondere) mit den Ergebnissen von R-Paketen vergleichen. Wenn Sie beispielsweise NIPALS aus dem Chemometrics- Paket verwenden (eine andere mir bekannte Implementierung ist im mixOmics- Paket verfügbar ), erhalten Sie Folgendes :

library(chemometrics)
pls1_nipals(X, y, 1)$W  # X weights [0.5792043;0.8151824]
pls1_nipals(X, y, 1)$P  # X loadings

Ähnliche Ergebnisse würden mit plsrund seinem Standard-Kernel-PLS-Algorithmus erzielt :

> library(pls)
> as.numeric(loading.weights(plsr(y ~ X, ncomp=1)))
[1] 0.5792043 0.8151824

$u$ Länge 1 hat.

Vorausgesetzt, Sie ändern Ihre Funktion, um sie auf eine lesbare zu optimieren

f <- function(u) cov(y, X%*%(u/sqrt(crossprod(u))))

und udanach normalisieren (u <- u/sqrt(crossprod(u)) ), du solltest näher an der obigen Lösung sein.

max u^{'} X^{'} Y v,

$\max u'X'Yv,$

u

$u$

X^{'} Y

$X'Y$

svd(crossprod(X, y))$u

Im allgemeineren Fall (PLS2) kann man zusammenfassend sagen, dass die ersten kanonischen PLS-Vektoren die beste Approximation der Kovarianzmatrix von X und Y in beide Richtungen sind.

Verweise

Tenenhaus, M (1999). L'approche PLS . Revue de Statistique Appliquée , 47 (2), 5-40.
ter Braak, CJF und de Jong, S. (1993). Die objektive Funktion der partiellen Regression der kleinsten Quadrate . Journal of Chemometrics , 12, 41–54.
Abdi, H (2010). Partielle Regression der kleinsten Quadrate und Projektion auf die latente Strukturregression (PLS-Regression) . Wiley Interdisciplinary Reviews: Computational Statistics , 2, 97-106.
Boulesteix, AL und Strimmer, K (2007). Partial Least Squares: ein vielseitiges Tool zur Analyse hochdimensionaler Genomdaten . Briefings in Bioinformatics , 8 (1), 32-44.

— chl
quelle

Danke chl. Ich werde Ihre Antwort nach Möglichkeit lesen (und mit Sicherheit zustimmen und auf das Häkchen klicken!)

— Stéphane Laurent

Ich habe gerade Ihre Antwort gelesen - herzlichen Glückwunsch und vielen Dank.

— Stéphane Laurent