Es hängt alles davon ab, wie Sie die Parameter schätzen . Normalerweise sind die Schätzer linear, was impliziert, dass die Residuen lineare Funktionen der Daten sind. Wenn die Fehler eine Normalverteilung haben, die Daten dann so tun, woher so die Residuen tun u i ( i Indizes mit den Daten Fällen, natürlich).uichu^ichich
Es ist denkbar (und logisch möglich), dass, wenn die Residuen ungefähr eine Normalverteilung (univariate Verteilung) zu haben scheinen, dies aus nicht-normalen Fehlerverteilungen resultiert. Bei Schätzverfahren der kleinsten Quadrate (oder der maximalen Wahrscheinlichkeit) ist die lineare Transformation zur Berechnung der Residuen jedoch "mild" in dem Sinne, dass die charakteristische Funktion der (multivariaten) Verteilung der Residuen sich nicht wesentlich von der der Fehler unterscheiden kann .
In der Praxis müssen die Fehler niemals exakt normalverteilt sein, daher ist dies ein unwichtiges Problem. Wesentlich wichtiger für die Fehler ist, dass (1) alle ihre Erwartungen nahe Null liegen sollten; (2) ihre Korrelationen sollten gering sein; und (3) es sollte eine akzeptabel kleine Anzahl von abweichenden Werten geben. Um dies zu überprüfen, wenden wir verschiedene Anpassungstests, Korrelationstests und Ausreißertests auf die Residuen an. Eine sorgfältige Regressionsmodellierung umfasst immer das Ausführen solcher Tests (einschließlich verschiedener grafischer Visualisierungen der Residuen, die beispielsweise automatisch von Rs plot
Methode bereitgestellt werden , wenn sie auf eine lm
Klasse angewendet werden ).
Ein anderer Weg, um zu dieser Frage zu gelangen, ist die Simulation anhand des hypothetischen Modells. Hier ist ein (minimaler, einmaliger) R
Code, um die Arbeit zu erledigen:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
Für den Fall n = 32 zeigt diese überlagerte Wahrscheinlichkeitsdarstellung von 99 Residuensätzen, dass sie tendenziell nahe an der Fehlerverteilung liegen (was normal ist), da sie gleichmäßig an der Referenzlinie :y= x
Für den Fall n = 6 deutet die geringere mittlere Steigung in den Wahrscheinlichkeitsdiagrammen darauf hin, dass die Residuen eine geringfügig geringere Varianz als die Fehler aufweisen, aber insgesamt tendenziell normalverteilt sind, da die meisten von ihnen der Referenzlinie ausreichend gut folgen (vorausgesetzt, kleiner Wert von ):n