Lineare Regression, wenn Sie nur

Angenommen , $X\beta =Y$ .

Wir wissen nicht , $Y$ genau, nur ihre Korrelation mit jedem Prädiktor, $X^\mathrm{t}Y$ .

Die gewöhnliche Lösung der kleinsten Quadrate (OLS) ist $\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y$ und es gibt kein Problem.

Angenommen, $X^\mathrm{t}X$ ist nahezu singulär (Multikollinearität), und Sie müssen den optimalen Kammparameter schätzen. Alle Methoden scheinen die genauen Werte von zu benötigen $Y$ .

Gibt es eine alternative Methode, wenn nur $X^\mathrm{t}Y$ bekannt ist?

regression multicollinearity

— Jag
quelle

interessante Frage. Vielleicht würde eine Art EM-Algorithmus funktionieren ...

— Wahrscheinlichkeitsanalyse

Ich verstehe nicht, können Sie die Kreuzvalidierung nicht zur Schätzung des optimalen Kammparameters verwenden?

— Pardis

@Pardis: Da in der Frage keine Verlustfunktion angegeben ist, wissen wir nicht, was optimal ist. Können Sie die Probleme erkennen, die auftreten, wenn die Verlustfunktion die MSE ist?

— Kardinal

@ JohnSmith: Sie spielen auf den Punkt an, an dem ich gefahren bin. Es gibt keinen Hinweis darauf, wie die "Optimalität" zu messen ist. Was Sie effektiv tun, ist die Einführung einer anderen Metrik (Distanzfunktion), um die "Qualität" der Vorhersage oder Anpassung zu messen. Wir brauchen mehr Details vom OP, um sehr weit zu kommen, vermute ich.

— Kardinal

@Pardis: Wie Sie bemerken, ist es nicht das Problem, die Schätzungen zu finden. :) Wenn Sie sich jedoch für eine Kreuzvalidierung entscheiden, wie schätzen Sie die MSE außerhalb der Stichprobe ein, dh die nicht berücksichtigte Falte für jede Iteration? :)

— Kardinal

Antworten:

Das ist eine interessante Frage. Überraschenderweise ist es möglich, unter bestimmten Voraussetzungen etwas zu tun, es besteht jedoch ein möglicher Informationsverlust über die Restvarianz. Es kommt darauf an $X$ wie viel verloren geht.

Betrachten wir die folgende Singularwertzerlegung $\newcommand{\t}{^\mathrm{t}}X = UDV\t$ von $X$ mit $U$ an $n \times p$ Matrix mit orthonormalen Spalten, $D$ eine Diagonalmatrix mit positiven Singularwerten $d_1 \geq d_2 \geq ... \geq d_p > 0$ in der Diagonale und $V$ a $p \times p$ orthogonale Matrix. Dann sind die Spalten von $U$ eine orthonormale Basis für den Spaltenraum von $X$ und

Z = U^{t} Y = D^{- 1} V^{t} V D U^{t} Y = D^{- 1} V^{t} X^{t} Y

$Z = U\t Y = D^{-1} V\t V D U\t Y = D^{-1} V\t X\t Y$ ist der Koeffizientenvektor für die Projektion von

Y

$Y$ auf diesen Spaltenraum, wenn in der

U

$U$ Spaltenbasis expandiert . Aus der Formel sehen wir, dass

Z

$Z$ nur aus Kenntnis von

X

$X$ und

berechenbar ist

X^{t} Y

$X\t Y$ .

Da der Grat Regressions Prädiktor für ein gegebenes berechnet werden als wir, dass die Koeffizienten für den Gratregressionsprädiktor in der $\lambda$

\hat{Y} = X (X^{t} X + λ I)^{- 1} X^{t} Y = U D (D^{2} + λ I)^{- 1} D U^{t} Y = U D (D^{2} + λ I)^{- 1} D Z

$\hat{Y} = X(X\t X + \lambda I)^{-1} X\t Y = U D(D^2 + \lambda I)^{-1} D U\t Y = U D(D^2 + \lambda I)^{-1} D Z$

-Säule Basis sind

U

$U$

Nun nehmen wir die Verteilungsannahme an, dass

das

dimensionale Mittel

und die Kovarianzmatrix

. Dann hat

das

dimensionale Mittel

und die Kovarianzmatrix

. Stellen wir uns ein unabhängigesmit der gleichen Verteilung wie

(alles von hier aus bedingt auf

), so ist das entsprechende

\hat{Z} = D (D^{2} + λ I)^{- 1} D Z .

$\hat{Z} = D (D^2 + \lambda I)^{-1} D Z.$

Y

$Y$

n

$n$

ξ

$\xi$

σ^{2} I_{n}

$\sigma^2 I_n$

Z

$Z$

p

$p$

U^{t} ξ

$U\t \xi$

σ^{2} I_{p}

$\sigma^2 I_p$

Y^{New}

$Y^{\text{New}}$

Y

$Y$

X

$X$

die gleiche Verteilung wie

und ist unabhängig und

Z^{New} = U^{t} Y^{New}

$Z^{\text{New}} = U\t Y^{\text{New}}$

Z

$Z$

Hierdie dritte Gleichung folgt durch Orthogonalität von

und

und den vierten durch die Tatsachedass

orthonormal Spalten. Die Größe

ist ein Fehler, über den wir keine Informationen erhalten können, der jedoch nicht von

abhängt

\begin{array}{rcl} E | | Y^{New} - \hat{Y} | |^{2} & = & E | | Y^{New} - U Z^{New} + U Z^{New} - U \hat{Z} | |^{2} \\ = & E | | Y^{New} - U Z^{New} | |^{2} + E | | U Z^{New} - U \hat{Z} | |^{2} \\ = & {Err}_{0} + E | | Z^{New} - \hat{Z} | |^{2} . \end{array}

$\begin{eqnarray*} E ||Y^{\text{New}} - \hat{Y}||^2 &= & E || Y^{\text{New}} - U Z^{\text{New}} + U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & E || Y^{\text{New}} - U Z^{\text{New}}||^2 + E||U Z^{\text{New}} - U \hat{Z} ||^2 \\ & = & \text{Err}_0 + E||Z^{\text{New}} - \hat{Z} ||^2. \end{eqnarray*}$

Y^{New} - U Z^{New}

$Y^{\text{New}} - U Z^{\text{New}}$

U Z^{New} - U \hat{Z}

$U Z^{\text{New}} - U \hat{Z}$

U

$U$

{Err}_{0}

$\text{Err}_0$

λ

$\lambda$ entweder. Um den Vorhersagefehler auf der linken Seite zu minimieren, müssen wir den zweiten Term auf der rechten Seite minimieren.

Durch eine Standardberechnung

\begin{array}{rcl} E | | Z^{New} - \hat{Z} | |^{2} & = & E | | Z - \hat{Z} | |^{2} + 2 \sum_{i = 1}^{p} cov (Z_{i}, {\hat{Z}}_{i}) \\ = & E | | Z - \hat{Z} | |^{2} + 2 σ^{2} \underset{df (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ}}} . \end{array}

$\begin{eqnarray*} E||Z^{\text{New}} - \hat{Z} ||^2 &= & E||Z - \hat{Z}||^2 + 2 \sum_{i=1}^p \text{cov}(Z_i, \hat{Z}_i) \\ & = & E||Z - \hat{Z}||^2 + 2 \sigma^2 \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}}_{\text{df}(\lambda)}. \end{eqnarray*}$ Here

df (λ)

$\text{df}(\lambda)$ is known as the effective degrees of freedom for ridge regression with parameter

λ

$\lambda$ . An unbiased estimator of

E | | Z - \hat{Z} | |^{2}

$E||Z - \hat{Z}||^2$ is

err (λ) = | | Z - \hat{Z} | |^{2} = \sum_{i = 1}^{p} {(1 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}^{2} Z_{i}^{2} .

$\text{err}(\lambda) = ||Z - \hat{Z}||^2 = \sum_{i=1}^p \left(1 - \frac{d_i^2}{d_i^2 + \lambda}\right)^2 Z_i^2.$

We combine this with the (unbiased) estimator

err (λ) + 2 σ^{2} df (λ)

$\text{err}(\lambda) + 2 \sigma^2 \text{df}(\lambda)$ of

E | | Z^{New} - \hat{Z} | |^{2}

$E||Z^{\text{New}} - \hat{Z} ||^2$ given that we know

σ^{2}

$\sigma^2$ , which we then need to minimize. Obviously, this can only be done if we know

σ^{2}

$\sigma^2$ or have a reasonable guess at or estimator of

σ^{2}

$\sigma^2$ .

Estimating $\sigma^2$ can be more problematic. It is possible to show that

E | | Z - \hat{Z} | |^{2} = σ^{2} (p - \underset{d (λ)}{\underset{⏟}{\sum_{i = 1}^{p} \frac{d_{i}^{2}}{d_{i}^{2} + λ} (2 - \frac{d_{i}^{2}}{d_{i}^{2} + λ})}}) + bias (λ)^{2} .

$E||Z - \hat{Z}||^2 = \sigma^2\left(p - \underbrace{\sum_{i=1}^p \frac{d_i^2}{d_i^2 + \lambda}\left(2 - \frac{d_i^2}{d_i^2 + \lambda}\right)}_{\text{d}(\lambda)}\right) + \text{bias}(\lambda)^2.$ Thus if it is possible to choose

λ

$\lambda$ so small that the squared bias can be ignored we can try to estimate

σ^{2}

$\sigma^2$ as

{\hat{σ}}^{2} = \frac{1}{p - d (λ)} | | Z - \hat{Z} | |^{2} .

$\hat{\sigma}^2 = \frac{1}{p-\text{d}(\lambda)} ||Z - \hat{Z}||^2.$ If this will work depends a lot on

X

$X$ .

For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.

— NRH
quelle

Define $β$ as in the question and $β(λ,K)=[(X^TX)_{KK}+λI]^{−1}(X^TY)_K$ for various parameters $\lambda$ and sets $K$ of sample labels. Then $e(λ,K):=\|Xβ(λ,K)-Y\|^2-\|Xβ-Y\|^2$ is computable since the unknown $\|Y\|^2$ drops out when expanding both norms.

This leads to the following algorithm:

Compute the $e(λ,K)$ for some choices of the training set $K$ .
Plot the results as a function of $\lambda$ .
Accept a value of $\lambda$ where the plot is flattest.
Use $β^*=[X^TX+λI]^{−1}X^TY$ as the final estimate.

— Arnold Neumaier
quelle

I'm guessing "where the plot is flattest" will be at

λ

$\lambda$ very small, like roughly 0 :)

— jbowman

@jbowman: This will happen only if the problem is well-conditioned and needs no regularization, then

λ = 0

$\lambda=0$ is indeed adequate. In the ill-conditioned case, the prediction of the items outside

K

$K$ will be poor because of overfitting, and

e (λ, K)

$e(\lambda,K)$ will therefore be large.

— Arnold Neumaier

@ArnoldNeumaier:

(X^{T} Y)_{K}

$(X^TY)_K$ isn't computable. We only know the correlation with each predictor.

(X^{T} Y)

$(X^TY)$ is in the "predictor domain", not in the "Y domain" (If N is the sample size and p the number of predictors, we only have p values, one for each predictor).

— Jag

@Jag: Then there is not enough information for selecting

λ

$\lambda$ . But

X^{T} Y

$X^TY$ must have been collected somehow. If during its collection you partition the sample into

k

$k$ batches and assemble the

X^{T} Y

$X^TY$ separately for each batch then one can reserve one batch each for cross validation.

— Arnold Neumaier

@ArnoldNeumaier:

X^{T} Y

$X^TY$ are externally given, don't collected.

— Jag