Nichtnormalität in Residuen

Ich beziehe mich auf diesen Beitrag, der die Bedeutung der Normalverteilung der Residuen in Frage zu stellen scheint, und argumentiere, dass dies zusammen mit der Heteroskedastizität möglicherweise durch die Verwendung robuster Standardfehler vermieden werden könnte.

Ich habe verschiedene Transformationen in Betracht gezogen - Wurzeln, Protokolle usw. - und alles erweist sich als nutzlos, um das Problem vollständig zu lösen.

Hier ist ein QQ-Diagramm meiner Residuen:

Normalitätsdiagramm

Daten

Abhängige Variable: bereits mit logarithmischer Transformation (behebt Ausreißerprobleme und ein Problem mit der Schiefe in diesen Daten)
Unabhängige Variablen: Alter der Firma und eine Reihe von binären Variablen (Indikatoren) (Später habe ich einige Zählungen für eine separate Regression als unabhängige Variablen)

Der iqrBefehl (Hamilton) in Stata bestimmt keine schwerwiegenden Ausreißer, die eine Normalität ausschließen. Die folgende Grafik schlägt jedoch etwas anderes vor, ebenso wie der Shapiro-Wilk-Test.

— Cesare Camestre
quelle

Ein solches Diagramm würde mich nicht beunruhigen, die Abweichungen scheinen mild genug zu sein. Wenn Sie möchten, können Sie diesem Diagramm mithilfe des qenvPakets Vertrauensgrenzen hinzufügen .

— Maarten Buis

Ich stimme @MaartenBuis zu, dass Sie sich aufgrund der Handlung nicht zu viele Sorgen machen sollten. Ich würde nicht empfehlen, sich auf einen formalen Normalitätstest (z. B. Shapiro-Test) der Residuen zu verlassen. Bei großen Stichproben lehnt der Test die Hypothese fast immer ab . Hier ist eine informative Antwort von Glen, die genau die Frage der formalen Prüfung der Normalität von Residuen behandelt.

— COOLSerdash

Siehe auch dies und das . Beachten Sie auch, dass Ihre normalen Annahmen mit zunehmender Stichprobengröße weniger kritisch werden. Wenn Sie nicht viele Prädiktoren haben, sollte eine solche milde Nichtnormalität überhaupt keine Konsequenz haben. Das Problem ist nicht nur, dass Hypothesentests bei großen Stichproben abgelehnt werden - sie beantworten auch bei anderen Stichprobengrößen die falsche Frage.

— Glen_b -State Monica

Der Wert besagt, dass die Abweichungen von der Normalität größer sind, als man zufällig erwarten würde. Er besagt nicht, dass diese Abweichungen groß genug sind, um Ihr Modell zu gefährden. Basierend auf Ihrer Grafik würde mein Urteil lauten, dass es Ihnen gut geht.

p

$p$

— Maarten Buis

Was zählt, ist die Auswirkung auf Ihre Schlussfolgerung . Die einzige Form der Schlussfolgerung, dass solch ein winziger Effekt überhaupt Auswirkungen haben würde, wäre ein Vorhersageintervall ... und selbst dort würde ich ihn wahrscheinlich mit wenig Aufwand verwenden, es sei denn, ich benötige ein Vorhersageintervall weit in den Schwanz hinein ( sagen 99% oder mehr). Von größerer Bedeutung wären Themen wie Abhängigkeit und Verzerrung sowie eine falsche Angabe des Modells für den Mittelwert oder die Varianz.

— Glen_b -State Monica

Antworten:

Eine Möglichkeit, Ihrem Diagramm einen "testähnlichen Geschmack" hinzuzufügen, besteht darin, Vertrauensgrenzen um sie herum hinzuzufügen. In Stata würde ich das so machen:

sysuse nlsw88, clear
gen lnw = ln(wage)

reg lnw i.race grade c.ttl_exp##c.ttl_exp union

predict resid if e(sample), resid

qenvnormal resid, mean(0) sd(`e(rmse)') overall reps(20000) gen(lb ub)

qplot resid lb ub, ms(oh none ..) c(. l l)     ///
    lc(gs10 ..) legend(off) ytitle("residual") ///
    trscale(`e(rmse)' * invnormal(@))          ///
    xtitle(Normal quantiles)

Geben Sie hier die Bildbeschreibung ein

— Maarten Buis
quelle

Beachten Sie, dass Stata-Benutzer zuerst qenv(von ssc install qenv) installieren müssen .

— Nick Cox

Ich werde mir das heute ansehen und sehen, ob ich in der Lage bin, die Vertrauensgrenzen zu erreichen

— Cesare Camestre

Fehlermeldung: qenvnormal resid, mean (0) se (`e (rmse) ') Gesamtwiederholungen (20000) gen (lb ub) - Option se () nicht erlaubt

— Cesare Camestre

richtig, es hätte sein sollen sd(). Es ist normal (kein Wortspiel beabsichtigt), dass qenvmit der overallOption sehr lange dauert.

— Maarten Buis

Die Hilfe für qenvnormalerklärt, dass Sie installieren müssen qplot. Es wird erwartet, dass Sie die Hilfe lesen. Noch wichtiger ist, ich denke, Sie verwenden eine sehr alte Version von qplot. Installieren Sie von Paket gr42_6 von stata-journal.com/software/sj12-1

— Nick Cox

Eine Sache, die bei der Untersuchung dieser qq-Diagramme zu beachten ist, ist, dass die Schwänze dazu neigen, von der Linie abzuweichen, selbst wenn die zugrunde liegende Verteilung wirklich normal ist und egal wie groß das N ist. Dies ist in Maartens Antwort impliziert . Dies liegt daran, dass mit zunehmender Größe von N die Schwänze immer weiter entfernt sind und immer seltenere Ereignisse auftreten. Es werden daher immer sehr wenig Daten in den Schwänzen sein und sie werden immer viel variabler sein. Wenn der Großteil Ihrer Linie dort ist, wo erwartet wird und nur die Schwänze abweichen, können Sie sie im Allgemeinen ignorieren.

Eine Möglichkeit, mit der ich den Schülern helfen kann, zu lernen, wie sie ihre QQ-Diagramme auf Normalität beurteilen, besteht darin, Zufallsstichproben aus einer als normal bekannten Verteilung zu generieren und diese Stichproben zu untersuchen. Es gibt Übungen, in denen sie Stichproben verschiedener Größen generieren, um zu sehen, was passiert, wenn sich N ändert, und solche, bei denen sie eine echte Stichprobenverteilung nehmen und diese mit Zufallsstichproben derselben Größe vergleichen. Das TeachingDemos- Paket von R enthält einen Test auf Normalität, der eine ähnliche Technik verwendet.

# R example - change the 1000 to whatever N you would like to examine
# run several times
y <- rnorm(1000); qqnorm(y); qqline(y)

— John
quelle

Einverstanden, aber dies war einer der wichtigsten Punkte von Maarten in seiner Antwort und deshalb werden Intervalle verwendet, um Unsicherheit zu signalisieren.

— Nick Cox

Schlagen Sie vor, dass diese Antwort überflüssig ist? Ich denke, dass ein Teil davon in Maartens Antwort impliziert ist, aber ich denke nicht, dass es ein wichtiger Punkt oder vollständig ist. Maartens Antwort ist gut. Diese Antwort ist anders, aber verwandt.

— John

Es ist nicht überflüssig, aber ein Querverweis auf Maartens Antwort würde wahrscheinlich zukünftigen Lesern helfen.

— Nick Cox

Um den Zusammenhang zwischen dieser und meiner Antwort deutlich zu machen: Wenn Sie unter die Haube von qenvIhnen schauen würden, würden Sie sehen, dass diese Simulationstechnik den Kern der Berechnung der Konfidenzbänder bildet.

— Maarten Buis

Link hinzugefügt ...

— John