Interpretation des Diagramms Residuen vs. angepasste Werte zur Überprüfung der Annahmen eines linearen Modells

Betrachten Sie die folgende Abbildung aus Faraways linearen Modellen mit R (2005, S. 59).

Bildbeschreibung hier eingeben

Das erste Diagramm scheint darauf hinzudeuten, dass die Residuen und die angepassten Werte nicht korreliert sind, da sie in einem homoskedastischen linearen Modell mit normalverteilten Fehlern vorliegen sollten. Daher legen die zweite und dritte Kurve, die die Abhängigkeit zwischen den Residuen und den angepassten Werten anzuzeigen scheinen, ein anderes Modell nahe.

Aber warum legt die zweite Darstellung, wie Faraway bemerkt, ein heteroskedastisches lineares Modell nahe, während die dritte Darstellung ein nichtlineares Modell nahe legt?

Das zweite Diagramm scheint darauf hinzudeuten, dass der Absolutwert der Residuen stark positiv mit den angepassten Werten korreliert, wohingegen im dritten Diagramm kein solcher Trend erkennbar ist. Also, wenn es der Fall wäre, theoretisch in einem heteroskedastischen linearen Modell mit normalverteilten Fehlern

Cor (e, \hat{y}) = [\begin{array}{ccc} 1 & \dots & 1 \\ ⋮ & ⋱ & ⋮ \\ 1 & \dots & 1 \end{array}]

$\mbox{Cor}\left(\mathbf{e},\hat{\mathbf{y}}\right) = \left[\begin{array}{ccc}1 & \cdots & 1 \\ \vdots & \ddots & \vdots \\ 1 & \cdots & 1\end{array}\right]$

(wobei der Ausdruck links die Varianz-Kovarianz-Matrix zwischen den Residuen und den angepassten Werten ist) Dies würde erklären, warum der zweite und dritte Plot mit Faraways Interpretationen übereinstimmen.

Aber ist das der Fall? Wenn nicht, wie kann Faraways Interpretation der zweiten und dritten Handlung sonst gerechtfertigt werden? Warum zeigt der dritte Plot auch notwendigerweise Nichtlinearität an? Ist es nicht möglich, dass es linear ist, die Fehler aber entweder nicht normal verteilt sind oder dass sie normal verteilt sind, aber nicht um Null zentriert sind?

— Evan Aad
quelle

Keines der drei Diagramme zeigt eine Korrelation (zumindest keine lineare Korrelation, was die relevante Bedeutung von "Korrelation" in dem Sinne ist, in dem sie in " Die Residuen und die angepassten Werte sind nicht korreliert " verwendet wird).

— Glen_b

@ Glen_b: Danke. Ich habe den Absatz, auf den Sie sich bezogen haben, korrigiert, indem ich "Korrelation" durch "Abhängigkeit" ersetzt habe.

— Evan Aad

Antworten:

$x$ $\pm$

Diagnosediagramme mit ungefährem Mittelwert und Streuung bei jedem Wert der angepassten Markierung in

$x$ $y$ $x$
$y$ $x$

Ist es nicht möglich, dass es linear ist, die Fehler aber entweder nicht normal verteilt sind oder dass sie normal verteilt sind, aber nicht um Null zentriert sind?

Nicht wirklich *, in diesen Situationen sehen die Diagramme anders aus als das dritte Diagramm.

$\theta$ $\beta_0+\theta$

(ii) Wenn die Fehler nicht normal verteilt sind, könnte das Punktmuster an einer anderen Stelle als der Mittellinie am dichtesten sein (wenn die Daten beispielsweise verzerrt wären), aber der lokale mittlere Restwert wäre immer noch nahe 0.

nicht normale Fehler

Hier stellen die violetten Linien immer noch einen (sehr) ungefähren 95% -Intervall dar, aber es ist nicht mehr symmetrisch. (Ich beschreibe ein paar Probleme, um den grundlegenden Punkt hier nicht zu verschleiern.)

$x$ $y$ $x$

— Glen_b - Setzen Sie Monica wieder ein
quelle

\hat{y}

$\hat{y}$

\hat{y}

$\hat{y}$

x

$x$

x_{1}

$x_1$

x_{2}

$x_2$

x_{1}

$x_1$

x

$x$

σ^{2} I

$\sigma^2 I$

N (0, V)

$\mbox{N}\left(\mathbf{0},V\right)$

V

$V$

σ^{2} I

$\sigma^2 I$

V

$V$

— Evan Aad

(ctd) ... wie Sie anhand meines ersten Kommentars unter meiner Antwort sehen sollten, insbesondere aufgrund des Satzes, der mit "Sie könnten sich vorstellen ..." beginnt - aber es schließt Heteroskedastizität, die damit zusammenhängt, so ziemlich aus der Mittelwert.

— Glen_b

Sie schrieben

Das zweite Diagramm scheint darauf hinzudeuten, dass der Absolutwert der Residuen stark positiv mit den angepassten Werten korreliert.

Es scheint nicht so, es tut es. Und das bedeutet heteroskedastisch.

Dann geben Sie eine Matrix aller Einsen an, was irrelevant ist; Korrelation kann existieren und kleiner als 1 sein.

Dann schreibst du

Warum zeigt der dritte Plot auch notwendigerweise Nichtlinearität an? Ist es nicht möglich, dass es linear ist, die Fehler aber entweder nicht normal verteilt sind oder dass sie normal verteilt sind, aber nicht um Null zentriert sind?

Sie zentrieren sich um 0. Die Hälfte oder so liegt unter 0, die Hälfte darüber. Es ist schwieriger zu sagen, ob sie normalerweise in diesem Diagramm verteilt sind, aber ein anderes Diagramm, das normalerweise empfohlen wird, ist ein normales Quantil-Diagramm der Residuen, und das würde zeigen, ob sie normal sind oder nicht.

— Peter Flom - Wiedereinsetzung von Monica
quelle

Vielen Dank. Ist es möglich, dass die Verteilung der Fehler des ersten Diagramms

N (0, V)

$\mbox{N}\left(\mathbf{0},V\right)$

V

$V$

σ^{2} I

$\sigma^2 I$

Ein Quantil-Normalplot betrachtet nur die Normalität. Der Beweis für Homoskedastizität in der ersten Handlung ist visuell

— Peter Flom - Reinstate Monica

@PeterFlom: Entschuldigung für die Nekropost: Ich bin etwas verwirrt über die Quantifizierung, bei der wir den Fehler an jedem Punkt betrachten (xi, yi): Betrachten wir mehrere Antworten (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) für die Eingabe xi; i = 1,2, ..., n (Anzahl der Datenpunkte) und dann den Mittelwert und die Varianz für die Werte yi_j? Ich bin nur verwirrt darüber, warum in einer linearen Regression y = ax + b, x, y, a (oder eine mehrlinige y + a1x1 + a2x2 + ... angst dann ai, xi) Zufallsvariablen und keine festen Werte sind. Führen wir diese Analyse auch für jedes Prädiktorenpaar und jedes Paar (y, x_i) durch, wobei y der unabhängige Wert ist?

— Gary

Ich verstehe nicht, worüber Sie verwirrt sind. Für jede Beobachtung gibt es einen vorhergesagten Wert von y und einen tatsächlichen Wert von y. Der Rest ist der Unterschied zwischen ihnen.

— Peter Flom - Reinstate Monica