Wie falsch ist ein Regressionsmodell, wenn die Annahmen nicht erfüllt sind?


28

Was passiert beim Anpassen eines Regressionsmodells, wenn die Annahmen der Ausgaben nicht erfüllt werden?

  1. Was passiert, wenn die Residuen nicht homoskedastisch sind? Wenn die Residuen ein zunehmendes oder abnehmendes Muster im Diagramm Residuen vs.
  2. Was passiert, wenn die Residuen nicht normal verteilt sind und den Shapiro-Wilk-Test nicht bestehen? Der Shapiro-Wilk-Test auf Normalität ist ein sehr strenger Test, und selbst wenn der Normal-QQ-Plot etwas vernünftig aussieht, bestehen die Daten den Test nicht.
  3. Was passiert, wenn ein oder mehrere Prädiktoren nicht normal verteilt sind, auf dem Normal-QQ-Plot nicht richtig angezeigt werden oder wenn die Daten den Shapiro-Wilk-Test nicht bestehen?

Ich verstehe, dass es keine harte Schwarz-Weiß-Teilung gibt, dass 0,94 richtig und 0,95 falsch ist, und in der Frage möchte ich wissen:

  1. Was bedeutet, wenn die Normalität nicht eingehalten wird, bedeutet dies für ein Modell, das gemäß dem R-Quadrat-Wert gut passt. Wird es weniger zuverlässig oder völlig unbrauchbar?
  2. Inwieweit ist die Abweichung akzeptabel oder überhaupt akzeptabel?
  3. Wenn Transformationen auf die Daten angewendet werden, um die Normalitätskriterien zu erfüllen, wird das Modell besser, wenn die Daten normaler sind (höherer P-Wert beim Shapiro-Wilk-Test, besserer Blick auf den normalen QQ-Plot) oder nutzlos sind (ebenso gut oder schlecht im Vergleich zum Original), bis die Daten den Normalitätstest bestehen?

Ich denke, die Antwort auf den Titel lautet nur "Ja".
Thomas Cleberg

@ThomasCleberg Interessante Antwort. Sagen Sie das auch, wenn Sie gefragt werden: "Wie geht es Ihnen?" :)
JohnK

Nein, aber wenn sie mich fragen, ob ich am Leben bin. :)
Thomas Cleberg

Eine grundlegende Frage, die Sie sich stellen sollten: "Wofür möchten Sie das Regressionsmodell verwenden?"
Floris

Antworten:


32

Was passiert, wenn die Residuen nicht homoskedastisch sind? Wenn die Residuen ein zunehmendes oder abnehmendes Muster im Diagramm Residuen vs.

Wenn der Fehlerterm nicht homoskedastisch ist (wir verwenden die Residuen als Proxy für den nicht beobachtbaren Fehlerterm), ist der OLS-Schätzer immer noch konsistent und unvoreingenommen, aber nicht mehr der effizienteste in der Klasse der linearen Schätzer. Es ist jetzt der GLS-Schätzer, der diese Eigenschaft genießt.

Was passiert, wenn die Residuen nicht normal verteilt sind und den Shapiro-Wilk-Test nicht bestehen? Der Shapiro-Wilk-Test auf Normalität ist ein sehr strenger Test, und selbst wenn der Normal-QQ-Plot etwas vernünftig aussieht, bestehen die Daten den Test nicht.

Das Gauß-Markov-Theorem verlangt keine Normalität. Der OLS-Schätzer ist immer noch BLAU, aber ohne Normalität werden Sie Schwierigkeiten haben, Schlussfolgerungen zu ziehen, dh Hypothesentests und Konfidenzintervalle, zumindest für endliche Stichprobengrößen. Es gibt jedoch immer noch den Bootstrap.

Asymptotisch ist dies weniger problematisch, da der OLS-Schätzer unter milden Regularitätsbedingungen eine begrenzende Normalverteilung aufweist.

Was passiert, wenn ein oder mehrere Prädiktoren nicht normal verteilt sind, auf dem Normal-QQ-Plot nicht richtig angezeigt werden oder wenn die Daten den Shapiro-Wilk-Test nicht bestehen?

Soweit ich weiß, gelten die Prädiktoren entweder als fest oder die Regression ist von ihnen abhängig. Dies begrenzt den Effekt der Nichtnormalität.

Was bedeutet, wenn die Normalität nicht eingehalten wird, bedeutet dies für ein Modell, das gemäß dem R-Quadrat-Wert gut passt. Wird es weniger zuverlässig oder völlig unbrauchbar?

Das R-Quadrat ist der Anteil der vom Modell erklärten Varianz. Es erfordert keine Normalitätsannahme und ist unabhängig davon ein Maß für die Anpassungsgüte. Wenn Sie es für einen Teil-F-Test verwenden möchten, ist das eine ganz andere Geschichte.

Inwieweit ist die Abweichung akzeptabel oder überhaupt akzeptabel?

Abweichung von der Normalität meinst du, oder? Es hängt wirklich von Ihren Zwecken ab, denn wie ich bereits sagte, wird der Rückschluss in Abwesenheit der Normalität schwierig, aber nicht unmöglich (Bootstrap!).

Wenn Transformationen auf die Daten angewendet werden, um die Normalitätskriterien zu erfüllen, wird das Modell besser, wenn die Daten normaler sind (höherer P-Wert beim Shapiro-Wilk-Test, besserer Blick auf den normalen QQ-Plot) oder nutzlos sind (ebenso gut oder schlecht im Vergleich zum Original), bis die Daten den Normalitätstest bestehen?

Kurz gesagt, wenn Sie alle Gauß-Markov-Annahmen plus Normalität haben, ist der OLS-Schätzer Best Unbias (BUE), dh der effizienteste unter allen Schätzerklassen - die Cramer-Rao-Untergrenze - erreicht. Dies ist natürlich wünschenswert, aber es ist nicht das Ende der Welt, wenn es nicht geschieht. Die obigen Ausführungen gelten.

Beachten Sie bei Transformationen, dass die Verteilung der Antwort möglicherweise der Normalität näher kommt, die Interpretation danach jedoch möglicherweise nicht ohne Weiteres möglich ist.

Dies sind nur einige kurze Antworten auf Ihre Fragen. Sie scheinen besonders besorgt über die Auswirkungen von Nicht-Normalität zu sein. Insgesamt würde ich sagen, dass es nicht so katastrophal ist, wie man glaubt und es gibt Workarounds. Die zwei Referenzen, die ich beigefügt habe, sind ein guter Ausgangspunkt für die weitere Lektüre, wobei die erste theoretischer Natur ist.

Referenzen :

Hayashi, Fumio. : "Econometrics.", Princeton University Press, 2000

Michael H. Kutner et al. "Angewandte lineare statistische Modelle", McGraw-Hill Irwin, 2005.


Y.Xichβich

2
y

βichβichY.Y.1,,Y.n

@ DeltaIV Was meinst du mit "ideales Modell"? Es ist das wahre Modell, das in den Parametern linear ist. Das schränkt uns jedoch nicht ein, wenn wir als Schätzer nur lineare Funktionen der Antwort betrachten. Der GM gibt an, dass, wenn wir unsere Aufmerksamkeit auf lineare Funktionen der Antwort beschränken, der OLS unter einigen zusätzlichen Annahmen BLAU ist. Wenn wir nun auch von Normalität ausgehen , können Sie, unabhängig von der Funktion der von Ihnen in Betracht gezogenen Antwort , einfach keine bessere Leistung erbringen als die OLS, vorausgesetzt natürlich, der Schätzer ist unvoreingenommen.
JohnK

Y.ichβich
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.