Was bedeutet das statistisch, wenn

7

Es ist kein Fall aus der realen Welt, aber nehmen wir an, wir haben Beobachtungen und Variablen, da , wenn die Entwurfsmatrix ist, eine quadratische Matrix ist. Was bedeutet das statistisch? , wenn nicht existiert? $n$ $k$ $k= n - 1$ $X$ $(X'X)$ $(X'X)^{-1}$

— Bahgat Nassour
quelle

2

Ich fand diese geometrische Erklärung sehr gut: Teil 1 und Teil 2 .

— Dimitriy V. Masterov

@ DimitriyV.Masterov Danke, es ist wirklich eine sehr gute Erklärung.

— Bahgat Nassour

@ Dimitriyvmasterov danke! Der erste Link ist großartig. Ich denke, der zweite Link ist defekt, er scheint identisch mit dem ersten zu sein

— MichaelChirico

@ MichaelChirico Ja, sie sind die gleichen, aber ich denke, er meint, dass ein Teil2 Eigenwerte

— Bahgat Nassour

11

Mit " existiert nicht " meinen wir die ursprüngliche Matrix $X^TX$ ist nicht invertierbar, dh seine Umkehrung $(X^TX)^{-1}$ ist nicht vorhanden. Normalerweise bezieht sich dies auf das Vorhandensein von Eigenwerten mit extrem kleiner Größe (oder Null) in der Matrix $X^TX$ .

Dieses Problem der Nicht-Invertierbarkeit legt nahe, dass die Matrix $X^TX$ ist rangmangelhaft. Eine Matrix mit Rangmangel hat einen Spaltenraum, der den Vektorraum nicht mit den gleichen Abmessungen wie Ihre Daten überspannt (denken Sie an eine 2D-Basis, möchten aber 3D-Punkte abbilden). Ein Rangmangel tritt normalerweise als Problem in Situationen auf, in denen Sie schätzen möchten $p$ Parameter aber Ihr Matrixrang $q$ ist kleiner als $p$ . In diesem Fall hat man ein unterdefiniertes Problem, $q$ Gleichung und $p$ Unbekannte wo $p>q$ . Statisch bedeuten wir, dass die Informationen zur Lösung dieses Problems einfach nicht verfügbar sind.

Es gibt bereits einen sehr guten Thread darüber, was Rangmangel ist und wie man damit umgeht. wenn Sie dies weiter verfolgen möchten.

— usεr11852
quelle

Der verlinkte Beitrag bietet einen hervorragenden Überblick. (Dieser Beitrag ist auch großartig = D)

— Bdeonovic

7

Betrachten Sie im Fall der Regression das grundlegendste lineare Modell

Y. = X. b + ε,

$Y=Xb+\varepsilon,$ der Schätzer der kleinsten Quadrate

\hat{β}

$\hat{\beta}$ muss befriedigen

\hat{Y.} = X. \hat{β}

$\hat{Y}=X\hat{\beta}$ wo

\hat{Y}

$\hat{Y}$ ist die Projektion von

Y

$Y$ auf den Raum von den Spalten von überspannt

X

$X$ . Dies führt uns zur normalen Gleichung

{X.}^{'} X. \hat{β} = {X.}^{'} Y. .

$X'X\hat{\beta}=X'Y.$ Wenn

X

$X$ hat dann vollen Rang

X^{'} X

$X'X$ ist invertierbar, also ist die (eindeutige) Lösung der Gleichung

\hat{β} = ({X.}^{'} X.)^{- - 1} {X.}^{'} Y. .

$\hat{\beta}=(X'X)^{-1}X'Y.$ jedoch, wenn

(X^{'} X)^{- 1}

$(X'X)^{-1}$ existiert nicht, ist die Lösung der normalen Gleichung nicht eindeutig (z. B. kann eine verallgemeinerte Inverse die Gleichung lösen).

— Francis
quelle

3

+1 für die Erwähnung von psueod-inverse. Es ist aufschlussreich zu erwähnen, dass man, wenn eine Pseudo-Inverse existiert, immer noch Schätzungen bestimmter Kontraste erhalten kann.

— StatsStudent

6

Um die bereits angebotenen guten Antworten zu ergänzen, wenn Sie eine statistische Implikation der Singularität von wünschen $\left( \mathbf{X}^{T} \mathbf{X} \right)^{-1}$ Sie können an die Varianz des OLS-Schätzers denken: Er explodiert und alle Präzision geht verloren. Die Konfidenzgrenzen für die Schätzer werden wiederum extrem groß und Rückschlüsse werden unmöglich.

Diese Implikationen führen häufig dazu, dass man sich stattdessen für eine Gratregression entscheidet, da die Einführung einer Vorspannungskonstante die Inverse stabiler macht und die Varianzen weniger aufgeblasen werden.

— JohnK
quelle