Homoskedastizitätsannahme bei linearer Regression vs. Konzept studentisierter Residuen

Nachdem ich über studentisierte Residuen gelesen habe, verstehe ich nicht, wie die Idee unterschiedlicher Residuenvarianzen, die von bestimmten Werten eines Prädiktors abhängig sind (wie dies durch das Konzept studentisierter Residuen impliziert wird), nicht inhärent im Widerspruch zur Annahme der Homoskedastizität in linearen Regressionsmodellen mit einem einzigen steht Prädiktorvariable. $X$

In meinem Lehrbuch heißt es, dass die Annahme der Homoskedastizität bedeutet, dass die Varianz von (abhängige Variable), abhängig von (eine bestimmte Realisierung der unabhängigen Prädiktorvariablen), über den Wertebereich dieses Prädiktors konstant ist. Diese bedingte Varianz sei auch gleich der bedingten Varianz der Restvariablen für ein gegebenes . Nach meinem Verständnis ist dies eine Aussage auf Bevölkerungsebene. Zusammen wäre das: $Y$ $X = x$ $\varepsilon$ $x$

$Var(Y|X) = Var(\varepsilon|X) = \sigma^2_\varepsilon$

Später befasst sich das Buch mit der Erkennung von Ausreißern in der abhängigen Variablen und schlägt die Verwendung standardisierter und studentisierter Residuen vor. Ein standardisierter Rest ist ein einzelner Rest $\varepsilon_i$ geteilt durch die geschätzte Standardabweichung $\hat\sigma_\varepsilon$ der Restvariablen in der Population. Im Fall des standardisierten Residuums wird somit jedes Residuum $\varepsilon_i$ Verwendung des gleichen konstanten Wertes $\hat\sigma_\varepsilon$ standardisiert, wenn Homoskedastizität angenommen werden kann:

$Stand.Res_i = \frac{\varepsilon_i}{\hat\sigma_\varepsilon}$ .

Im nächsten Absatz wird jedoch der studentisierte Rest eingeführt. Das Buch sagt: "Es kann gezeigt werden, dass die Genauigkeit der Schätzung der Residuen mit dem Abstand von von seinem Mittelwert zunimmt . Im Fall des studentisierten Residuums werden Residuen nicht durch ihren geschätzten Gesamtstandardfehler geteilt, sondern durch die geschätzte Standardabweichung der Residuen am Ort . Diese Standardabweichung kann aus dieser Formel erhalten werden: $x_i$ $\bar x$ $x_i$

$Student.Res_i = \frac{\varepsilon_i }{\hat\sigma_\varepsilon \cdot \sqrt {1-h_i}}$

wobei der Hebelwert eines (in diesem einfachen Fall: singulären) Prädiktors . Daher scheint es mir, dass in diesem Fall die Residuen nicht alle durch denselben konstanten Wert geteilt werden (wie im Fall des standardisierten Residuums), sondern dass jetzt eine Verteilung der verbleibenden Standardfehler vorliegt, die von den Hebelwerten abhängt. Diese Hebelwerte sind an den äußersten Enden der Prädiktorvariablen größer, wie in anderen Fragen auf dieser Site erläutert wurde. Auf Wikipedia ( https://en.wikipedia.org/wiki/Errors_and_residuals#Regressions ) heißt es: $h_i$ $x_i$

In der Regressionsanalyse ist die Unterscheidung zwischen Fehlern und Residuen subtil und wichtig und führt zum Konzept der studentisierten Residuen. Bei einer nicht beobachtbaren Funktion, die die unabhängige Variable mit der abhängigen Variablen in Beziehung setzt - beispielsweise einer Linie - sind die Abweichungen der Beobachtungen der abhängigen Variablen von dieser Funktion die nicht beobachtbaren Fehler. Wenn für einige Daten eine Regression durchgeführt wird, sind die Abweichungen der Beobachtungen der abhängigen Variablen von der angepassten Funktion die Residuen. [...] Aufgrund des Verhaltens des Regressionsprozesses können die Verteilungen von Residuen an verschiedenen Datenpunkten (der Eingabevariablen) variieren, selbst wenn die Fehler selbst identisch verteilt sind. Konkret in einer linearen Regression, in der die Fehler identisch verteilt sind, Die Variabilität der Residuen von Eingaben in der Mitte der Domäne ist höher als die Variabilität der Residuen an den Enden der Domäne [Zitieren erforderlich]: Lineare Regressionen passen besser zu Endpunkten als in der Mitte. Dies spiegelt sich auch in den Einflussfunktionen verschiedener Datenpunkte auf die Regressionskoeffizienten wider: Endpunkte haben einen größeren Einfluss.

Obwohl dies für mich intuitiv sinnvoll ist, verstehe ich nicht ganz, wie es der Annahme der Homoskedastizität nicht widerspricht. Dies liegt daran, dass auf Bevölkerungsebene die Fehlervarianz für alle Ebenen von gleich sein kann. Wenn wir diese Fehlervarianz jedoch durch Anpassen einer Regressionslinie schätzen (damit wir dann die Residuen als Schätzungen der Fehler auf Bevölkerungsebene verwenden können), werden wir automatisch und künstlich eine Verteilung der verbleibenden Standardabweichungen erzeugen, die von abhängig sind $X$ $X$ anstatt dass diese Reststandardabweichung der gleiche Singularwert für jeden Rest ist? Das würde also bedeuten, dass das standardisierte Residuum nur auf der (nicht beobachtbaren) Bevölkerungsebene wirklich nützlich ist, oder? Weil für eine gegebene Stichprobe das standardisierte Residuum unmöglich ein genauer Schätzer für alle Werte , die einfach aufgrund der Art und Weise, wie das Regressionsmodell angepasst wird , weit von sind? $x_i$ $\bar x$

Wenn dies jedoch der Fall wäre, verstehe ich die Empfehlung, die ich an so vielen Stellen gelesen habe, um die Homoskedastizität zu testen, nicht, indem ich die studentisierten Residuen gegen die Prädiktorvariable aufzeichne und prüfe, ob die Varianz der Residuen auf allen Ebenen von gleich ist . Wenn in einer angepassten Regressionslinie die Varianz der Residuen für verschiedene Ebenen unterschiedlich sein kann (wie ich denke, impliziert das Konzept des studentisierten Residuums und der Auszug aus Wikipedia), wie macht es Sinn, dass jeder empfiehlt, die Gleichheit der Residuenvarianzen über zu testen unter Verwendung der Streudiagramme studentisierter Residuen gegen das Niveau des Prädiktors ? Kann jemand bitte darauf hinweisen, welche Fehler ich hier mache? $X$ $X$ $X$ $X$

Verwechsle ich Fehler- und Restwerte oder Bevölkerungs- und Stichprobenwerte? Ich habe überall gesucht und konnte keine zufriedenstellende Antwort finden, die besprach, warum dies kein Konflikt ist (oder zumindest keine, die ich verstanden habe). Vielen Dank im Voraus!

— dgks
quelle

Ich verstehe Ihre Verwirrung nicht wirklich, aber lassen Sie mich das versuchen. Betrachten Sie eine lineare Regression mit Fehlern und Residuen wobei eine Identitätsmatrix ist und ist die Hutmatrix. Angenommen, das lineare Modell ist korrekt spezifiziert und alle Annahmen, einschließlich der bedingungslosen und bedingten Homoskedastizität von Fehlern, sind erfüllt.

y = X β + ε

$y=X\beta+\varepsilon$

ε

$\varepsilon$

e := y - X \hat{β} = (I - H) y

$e:=y-X\hat\beta=(I-H)y$

I

$I$

H := X (X^{⊤} X)^{- 1} X^{⊤}

$H:=X(X^\top X)^{-1}X^\top$

Während nach der gerade eingeführten Annahme homoskedastisch ist , sind die Modellreste der Ebene von bedingt heteroskedastisch : Ihre Varianz kann als . Dies ist ein Artefakt der OLS-Schätzung in einem linearen Modell. $\varepsilon$ $e$ $X$ $\text{Var}(e)=\sigma^2_\varepsilon(I-H)$

Angenommen, Sie wissen nicht, ob alle Annahmen erfüllt sind (was die realistische Perspektive ist), und möchten sie überprüfen. Sie wären möglicherweise versucht, die Residuen anstelle der nicht beobachteten Fehler zu verwenden, um eine Modelldiagnose durchzuführen, z. B. um die Annahme einer bedingten Homoskedastizität von bewerten . Leider übersetzt sich ein bedingt homoskedastisches in ein bedingt heteroskedastisches wie aus der obigen Varianzformel hervorgeht . Daher können Sie nicht viel über die bedingte Homoskedastizität von lernen, indem Sie die Variabilität in vs. . $e$ $\varepsilon$ $\varepsilon$ $\varepsilon$ $e$ $\varepsilon$ $e$ $X$

Aber es gibt ein Heilmittel. Sie können die Varianzverzerrung in anpassen, indem Sie die Skalierung aufgrund der Multiplikation mit in "rückgängig machen" . Dies führt zu (intern oder extern) studentisierten Residuen oder wobei und intern sind und externe Schätzungen der Fehlervarianz. Die Studentisierung von Residuen ermöglicht es, die Residuen wieder auf das gleiche Maß an bedingter Varianz wie die nicht beobachteten Modellfehler $e$ $(I-H)$ $e$ $\tilde{e}_{int}:=\frac{e}{\hat\sigma_{int}\sqrt{1-h_{ii}}}$ $\tilde{e}_{ext}:=\frac{e}{\hat\sigma_{ext}\sqrt{1-h_{ii}}}$ $\hat\sigma_{int}$ $\hat\sigma_{ext}$ $\varepsilon$ sind bis zu einem Skalierungsfaktor, der über die Datenpunkte hinweg einheitlich ist und somit die bedingte Homo- oder Heteroskedastizität nicht beeinflusst.

Aus diesem Grund ist es sinnvoll, studentisierte Residuen anstelle von rohen Residuen wenn die bedingte Heteroskedastizität der Modellfehler gegenüber dem Regressor bewertet wird . $\tilde{e}$ $e$ $\varepsilon$ $X$

— Richard Hardy
quelle