Warum basiert die Diagnose auf Residuen?


11

Bei einer einfachen linearen Regression möchte man oft überprüfen, ob bestimmte Annahmen erfüllt sind, um Rückschlüsse ziehen zu können (z. B. sind Residuen normalverteilt).

Ist es sinnvoll, die Annahmen zu überprüfen, indem überprüft wird, ob die angepassten Werte normal verteilt sind?

Antworten:


19

Warum basiert die Diagnose auf Residuen?

Da sich viele der Annahmen auf die bedingte Verteilung von beziehen , nicht auf seine bedingungslose Verteilung. Dies entspricht einer Annahme über die Fehler, die wir anhand der Residuen schätzen.Y

Bei einer einfachen linearen Regression möchte man oft überprüfen, ob bestimmte Annahmen erfüllt sind, um Rückschlüsse ziehen zu können (z. B. sind Residuen normalverteilt).

Bei der tatsächlichen Normalitätsannahme geht es nicht um die Residuen, sondern um den Fehlerterm. Am nächsten an denen, die Sie haben, sind die Residuen, weshalb wir sie überprüfen.

Ist es sinnvoll, die Annahmen zu überprüfen, indem geprüft wird, ob die angepassten Werte normal verteilt sind?

Nein. Die Verteilung der angepassten Werte hängt vom Muster der . Es sagt Ihnen überhaupt nicht viel über die Annahmen.x

Zum Beispiel habe ich gerade eine Regression für simulierte Daten durchgeführt, für die alle Annahmen korrekt angegeben wurden. Zum Beispiel wurde die Normalität der Fehler erfüllt. Folgendes passiert, wenn wir versuchen, die Normalität der angepassten Werte zu überprüfen:

Normalitätsdiagnose an Einbauten

Sie sind eindeutig nicht normal; Tatsächlich sehen sie bimodal aus. Warum? Nun, weil die Verteilung der angepassten Werte vom Muster des x abhängtx . Die Fehler waren normal, aber die angepassten Werte können fast alles sein.

yxxy

Normalitätsdiagnose für rohe y-Werte

y .

Yyyx


Was sind die Annahmen, wie überprüfen wir sie und wann müssen wir sie treffen?

  • x

  • E(Y)xx

  • Var(Y|x)xxx

  • Bedingte Unabhängigkeit / Unabhängigkeit von Fehlern. Bestimmte Formen der Abhängigkeit können überprüft werden (z. B. serielle Korrelation). Wenn Sie die Form der Abhängigkeit nicht vorhersehen können, ist es ein wenig schwer zu überprüfen.

  • Y

(Es gibt tatsächlich einige andere Annahmen, die ich nicht erwähnt habe, wie z. B. additive Fehler, dass die Fehler einen Mittelwert von Null haben, und so weiter.)

Wenn Sie nur daran interessiert sind, die Anpassung der Linie der kleinsten Quadrate zu schätzen und nicht an Standardfehlern, müssen Sie die meisten dieser Annahmen nicht treffen. Beispielsweise beeinflusst die Verteilung von Fehlern die Inferenz (Tests und Intervalle) und kann die Effizienz der Schätzung beeinflussen, aber die LS-Linie ist beispielsweise immer noch am besten linear unverzerrt. Wenn die Verteilung nicht so schlecht und nicht normal ist, dass alle linearen Schätzer schlecht sind, ist es nicht unbedingt ein großes Problem, wenn die Annahmen über den Fehlerterm nicht zutreffen.


Ich habe meiner Antwort einige Diagramme hinzugefügt.
Glen_b -State Monica

2
Dies ist eine großartige Antwort. Wenn Sie mehr wollen, decke ich hier ein ähnliches Gebiet ab: Was ist, wenn Residuen normal verteilt sind, Y jedoch nicht?
Gung - Reinstate Monica

@gung Ich trete mich dafür, dass ich nicht zuerst darauf verlinkt habe.
Glen_b -State Monica

1
@Glen: Sehr gute Disposition. Ich hatte lange Zeit die gleiche Verwirrung, dank der nicht so guten Behandlung des Themas in Lehrbüchern und fast in vielen Ressourcen im Internet. Andererseits wird die bedingungslose Verteilung von Y fast immer untersucht, um ein Modell für die bedingte Verteilung abzuleiten, insbesondere im Zeitreihenkontext. Gibt es eine theoretische Begründung dahinter? Ich habe versucht, es als Frage zu stellen, aber ich denke, ich konnte es nicht richtig formulieren : stats.stackexchange.com/questions/74886/…
Cagdas Ozgenc

@CagdasOzgenc Der einzige Grund, warum ich mir das vorstellen kann, ist, dass es einfach ist, bevor Sie ein Modell haben. Die Antwort, die Sie auf diese verknüpfte Frage haben, schien mir eine gute Antwort zu sein, als sie veröffentlicht wurde.
Glen_b -State Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.