Dies ist ein Ort, an dem mir das Betrachten einiger Formeln geholfen hat, auch für Menschen mit mathematischen Ängsten (ich schlage nicht vor, dass Sie dies unbedingt tun). Das einfache lineare Regressionsmodell lautet wie folgt:
Wichtig hierbei ist, dass dieses Modell explizit angegeben wird gibt an, dass nach der Schätzung der aussagekräftigen Informationen in den Daten (das ist " ") nichts als weißes Rauschen übrig bleibt. Darüber hinaus werden die Fehler als Normal mit einer Varianz von .
Y=β0+β1X+εwhere ε∼N(0,σ2ε)
β0+β1Xσ2ε
Es ist wichtig zu wissen, dass keine Variable ist (obwohl wir es in der Algebra der Mittelstufe so nennen würden). Es ändert sich nicht. variiert. variiert. Der Fehlerbegriff variiert zufällig . Das heißt, es ist eine Zufallsvariable . Die Parameter ( sind jedoch Platzhalter für Werte, die wir nicht kennen - sie variieren nicht. Stattdessen sind sie unbekannte Konstanten . Das Fazit dieser Tatsache für diese Diskussion ist, dass, egal was ist (dh welcher Wert dort eingesteckt ist),σ2εXYεβ0, β1, σ2ε)Xσ2εBleibt das selbe. Mit anderen Worten ist die Varianz der Fehler / Residuen konstant. Betrachten Sie das folgende Modell aus Gründen des Kontrasts (und der besseren Übersichtlichkeit):
In diesem Fall geben wir einen Wert für (beginnend in der dritten Zeile) , lasse es durch die Funktion laufen und erhalte die Fehlervarianz, die sich bei genau diesem Wert von ergibt . Dann gehen wir den Rest der Gleichung wie gewohnt durch.
X f ( X ) X
Y=β0+β1X+εwhere ε∼N(0,f(X)) where f(X)=exp(γ0+γ1X)and γ1≠0
Xf(X) X
Die obige Diskussion soll helfen , die Natur der Annahme zu verstehen ; die frage fragt auch, wie man das beurteilt . Grundsätzlich gibt es zwei Ansätze: formale Hypothesentests und das Untersuchen von Plots. Tests auf Heteroskedastizität können verwendet werden, wenn Sie experimentelle Daten haben (dh die nur bei festen Werten von ) oder eine ANOVA. Ich diskutiere hier einige solcher Tests: Warum Levene-Test der Varianzgleichheit und nicht des F-VerhältnissesX. Ich denke jedoch, dass es am besten ist, sich die Grundstücke anzuschauen. @Penquin_Knight hat gute Arbeit geleistet, um zu zeigen, wie eine konstante Varianz aussieht, indem die Residuen eines Modells, bei dem Homoskedastizität auftritt, gegen die angepassten Werte aufgetragen wurden. Heteroskedastizität kann möglicherweise auch in einem Diagramm der Rohdaten oder in einem Diagramm mit Skalenposition (auch Spread-Level-Diagramm genannt) nachgewiesen werden. R zeichnet das Letztere bequem für Sie mit einem Anruf an plot.lm(model, which=2)
; Es ist die Quadratwurzel der Absolutwerte der Residuen gegen die angepassten Werte, wobei eine Kurve mit geringer Intensität hilfreich überlagert ist. Sie möchten, dass die Lowess flach und nicht geneigt sitzt.
Betrachten Sie die folgenden Darstellungen, in denen verglichen wird, wie homoskedastische und heteroskedastische Daten in diesen drei verschiedenen Arten von Abbildungen aussehen könnten. Beachten Sie die Trichterform für die oberen beiden heteroskedastischen Diagramme und die nach oben abfallende untere Linie im letzten Diagramm.
Der Vollständigkeit halber hier der Code, mit dem ich diese Daten generiert habe:
set.seed(5)
N = 500
b0 = 3
b1 = 0.4
s2 = 5
g1 = 1.5
g2 = 0.015
x = runif(N, min=0, max=100)
y_homo = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(s2 ))
y_hetero = b0 + b1*x + rnorm(N, mean=0, sd=sqrt(exp(g1 + g2*x)))
mod.homo = lm(y_homo~x)
mod.hetero = lm(y_hetero~x)