Was ist der Unterschied zwischen kleinsten Quadraten und pseudoinversen Techniken für die lineare Regression?

11

Ich wundere mich über den Unterschied zwischen ihnen. Grundsätzlich erledigen sie am Ende die gleiche Aufgabe, indem sie Parameterkoeffizienten finden, aber sie sehen genauso anders aus, wie wir die Koeffizienten finden. Für mich scheint die Methode der kleinsten Quadrate Differenzierung und Matrixform zu verwenden, um die Koeffizienten zu finden, und Pseudo-Inverse scheinen nur Matrixmanipulation zu verwenden, aber wie kann ich den Unterschied zwischen ihnen sagen? Oder gibt es überhaupt keinen Unterschied?

— user122358
quelle

Die pseudo-inverse Matrix nach Moore-Penrose liefert per Definition eine Lösung der kleinsten Quadrate. Das Konzept der kleinsten Quadrate kann aber auch aus der Schätzung der maximalen Wahrscheinlichkeit unter normalen Modellen abgeleitet werden.

— Łukasz Grad

13

Im Kontext der linearen Regression bedeutet "kleinste Quadrate", dass wir die Koeffizienten finden möchten, die den quadratischen Fehler minimieren. Es gibt nicht an, wie diese Minimierung durchgeführt werden soll, und es gibt viele Möglichkeiten. Das Multiplizieren des Antwortvektors mit der Moore-Penrose-Pseudoinverse der Regressormatrix ist eine Möglichkeit, dies zu tun, und daher ein Ansatz zur linearen Regression der kleinsten Quadrate (wie andere hervorgehoben haben).

Unterschiede zwischen Methoden können auftreten, wenn die Regressormatrix nicht den vollen Rang hat. Dies kann beispielsweise passieren, wenn die Anzahl der Variablen die Anzahl der Datenpunkte überschreitet. In diesem Fall gibt es unendlich viele Möglichkeiten für optimale Koeffizienten. Die Methoden unterscheiden sich darin, wie sie eine Lösung aus dieser unendlichen Menge auswählen. Das Unterscheidungsmerkmal der pseudoinversen Methode in dieser Situation ist, dass sie die Lösung mit einem Minimum zurückgibt $\ell_2$ Norm.

— user20160
quelle

Dies ist die richtige Antwort, aber ich würde genauer sagen, es gibt die minimale L2-Normlösung zurück, da es unendlich viele Möglichkeiten gibt, Ihre Norm zu definieren, und es ist wichtig zu beachten, dass die Lösung beispielsweise nicht die beste sein wird im Sinne der Norm L0 und L_infinity.

— Boomkin

Sehr richtig. Ich meinte L2 implizit, aber bearbeitet, um genauer zu sein, wie Sie vorschlagen.

— user20160

3

Es kommt darauf an, was Sie unter "Differenzierungstechniken" verstehen. Es gibt zwei Methoden, die ich darunter verstehen könnte:

Verwenden Sie die Differenzierung, um den Gradienten abzuleiten, und führen Sie dann einen Gradientenabstieg auf der Fehleroberfläche durch. Dies wäre jedoch für die lineare Regression eher ungewöhnlich (jedoch nicht für andere Arten der Regression).
Verwenden Sie die Differenzierung, um den Gradienten abzuleiten, und verwenden Sie diese dann, um ein Minimum analytisch zu bestimmen, indem Sie den Gradienten auf Null setzen.

Die erste Methode unterscheidet sich stark von der Pseudo-Inversen. Der zweite ist nicht. Wenn Sie die Differenzierung durchführen und die Gleichung lösen, die sich aus dem Setzen des Gradienten auf Null ergibt, erhalten Sie als allgemeine Lösung genau die Pseudo-Inverse.

Wenn Sie darüber nachdenken, macht es sehr viel Sinn. Wenn unterschiedliche Techniken zu unterschiedlichen Koeffizienten führen würden, wäre es schwer zu sagen, welche richtig sind. Wenn sie dieselben Koeffizienten erzeugen, sollte es auch so sein, dass Sie die für eine Methode verwendeten Gleichungen von der anderen ableiten können.

— LiKao
quelle

3

Wie in den anderen Antworten ausgeführt wurde, ist das Multiplizieren mit der Pseudoinverse eine der Möglichkeiten, eine Lösung der kleinsten Quadrate zu erhalten.

Es ist leicht zu verstehen, warum. Sagen wir, Sie haben $k$ Punkte in $n-$ Dimensionsraum:

X. = [\begin{matrix} 1 & x_{11} & x_{12} & x_{13} & \dots & x_{1 n} \\ 1 & x_{21} & x_{22} & x_{23} & \dots & x_{2 n} \\ ⋮ & ⋮ & ⋮ & ⋮ & ⋱ & ⋮ \\ 1 & x_{k 1} & x_{k 2} & x_{k 3} & \dots & x_{k n} \end{matrix}]]

$X = \begin{bmatrix} 1 & x_{11} & x_{12} & x_{13} & \dots & x_{1n} \\ 1 & x_{21} & x_{22} & x_{23} & \dots & x_{2n} \\ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{k1} & x_{k2} & x_{k3} & \dots & x_{kn} \end{bmatrix}$

Lassen Sie jeden entsprechenden Punkt einen Wert in haben $Y$ ::

Y. = [\begin{matrix} y_{1} \\ y_{2} \\ ⋮ \\ y_{k} \end{matrix}]]

$Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_k \end{bmatrix}$

Sie möchten eine Reihe von Gewichten finden

W. = [\begin{matrix} w_{1} \\ w_{2} \\ ⋮ \\ w_{n} \end{matrix}]]

$W = \begin{bmatrix} w_1 \\ w_2 \\ \vdots \\ w_n \end{bmatrix}$

so dass der quadratische Fehler zwischen $XW$ und $Y$ wird minimiert, das ist die Lösung der kleinsten Quadrate: $min_Wf(W)$ , wo $f(W) = (Y-XW)^T(Y-XW)$ (Sie können das leicht sehen $f(W)$ ist die Summe der quadratischen Fehler).

Wir tun dies, indem wir die Ableitung von finden $f(W)$ durch $W$ und setzen Sie es auf $0$ ::

\frac{δ f}{δ W.} = \frac{δ (Y. - - X. W.)^{T.} (Y. - - X. W.)}{δ W.} = \frac{δ ({Y.}^{T.} Y. - - {W.}^{T.} {X.}^{T.} Y. - - {Y.}^{T.} X. W. + {W.}^{T.} {X.}^{T.} X. W.)}{δ W.} = \frac{δ ({Y.}^{T.} Y. - - 2 {Y.}^{T.} X. W. - - {Y.}^{T.} X. W. + {W.}^{T.} {X.}^{T.} X. W.)}{δ W.} = \frac{δ {Y.}^{T.} Y. - - 2 {Y.}^{T.} X. W. + {W.}^{T.} {X.}^{T.} X. W.}{δ W.} = - - 2 {Y.}^{T.} X. + 2 {W.}^{T.} {X.}^{T.} X.

$\frac{\delta f}{\delta W} = \frac{\delta (Y-XW)^T(Y-XW)}{\delta W} = \frac{\delta (Y^TY - W^TX^TY - Y^TXW + W^TX^TXW)}{\delta W} = \frac{\delta (Y^TY - 2Y^TXW - Y^TXW + W^TX^TXW)}{\delta W} = \frac{\delta Y^TY - 2Y^TXW + W^TX^TXW}{\delta W} = -2Y^TX + 2W^TX^TX$

Setzen Sie die Ableitung auf $0$ ::

2 {W.}^{T.} {X.}^{T.} X. = 2 {Y.}^{T.} X.

$2W^TX^TX = 2Y^TX$

{X.}^{T.} X. W. = {X.}^{T.} Y.

$X^TXW = X^TY$

({X.}^{T.} X.)^{- - 1} {X.}^{T.} X. W. = ({X.}^{T.} X.)^{- - 1} {X.}^{T.} Y.

$(X^TX)^{-1}X^TXW = (X^TX)^{-1}X^TY$

W. = ({X.}^{T.} X.)^{- - 1} {X.}^{T.} Y.

$W = (X^TX)^{-1}X^TY$

Auf diese Weise können wir die pseudo-inverse Matrix als Lösung für das Problem der kleinsten Quadrate ableiten.

— spülen
quelle

2

Die pseudo-inverse Lösung basiert auf dem Fehler der kleinsten Quadrate, wie Łukasz Grad hervorhob. Das heißt, Sie lösen tatsächlich das Minimierungsproblem von,

$E(W) =\frac{1}{2}\sum \left(y^{(i)}-W ^Tx^{(i)}\right)^2$

durch Differenzieren des Fehlers wrt $W$ . Dann bekommen Sie die Lösung: $W = \left(X^TX\right)^{-1}X^TY$ . (Beachten Sie, dass Pseudo-Inverse nicht invers ist. Sie können die Lösung also nicht als gleich interpretieren $X^{-1}Y$ , was wie eine Lösung aus erscheinen mag $XW = Y$ direkt mit Matrixmanipulation. Es ist ein weiteres Thema, wie man die Pseudo-Inverse findet.)

Wenn Sie nach der kovarianzbasierten Lösung fragen $W = \frac{cov(X, Y)}{var(X)}$ kann es als direkte Lösung interpretiert werden, die auf der linearen Beziehung zwischen basiert $X$ und $Y$ . Tatsächlich wird diese Lösung auch streng aus dem Fehler der kleinsten Quadrate abgeleitet, und der Unterschied zum pseudoinversen ist nicht wesentlich. Dies ist immer noch die pseudo-inverse Lösung, aber Sie wissen, dass Ihre Linie definitiv den Punkt der Mittelwerte durchläuft $(\bar{X},\bar{Y})$ . Das Fehlermaß kann also wie folgt umgeschrieben werden:

$E(W) =\frac{1}{2}\sum \left((y^{(i)}-\bar{y})-W ^T(x^{(i)}-\bar{x})\right)^2$

Wenn Sie verwenden $x-\bar{x}$ zu repräsentieren $x$ und $y-\bar{y}$ zu repräsentieren $y$ ist Ihre Lösung mit Pseudo-Inverse dieselbe wie die mit Kovarianz. Der Unterschied besteht darin, dass Sie den Achsenabschnitt jetzt separat berechnen müssen, da durch Subtrahieren der Mittelwerte von $x$ und $y$ zentrieren Sie die Koordinaten virtuell auf $(\bar{x}, \bar{y})$ und Ihre Linie passiert es, daher ist der Achsenabschnitt Null. Sie haben das neue Koordinatensystem wieder dem ursprünglichen zugeordnet, indem Sie den Achsenabschnitt mit berechnen $w_{0} = \bar{y} -W^{T}\bar{x}$ .

— Xiao-Feng Li
quelle