Warum beeinträchtigen nicht normalverteilte Fehler die Gültigkeit unserer Signifikanzaussagen?

Es gibt eine Normalitätsannahme, wenn es darum geht, OLS-Modelle zu betrachten, und das heißt, dass die Fehler normal verteilt sind. Ich habe Cross Validated durchsucht und es hört sich so an, als müssten Y und X nicht normal sein, damit Fehler normal sind. Meine Frage ist, warum bei nicht normalverteilten Fehlern die Gültigkeit unserer Signifikanzaussagen beeinträchtigt wird. Warum sind die Konfidenzintervalle zu breit oder zu eng?

— user44278
quelle

Warum ist die Gültigkeit unserer Signifikanzaussagen beeinträchtigt, wenn wir nicht normalverteilte Fehler haben? Warum sind die Konfidenzintervalle zu breit oder zu eng?

Die Konfidenzintervalle basieren auf der Art und Weise, wie Zähler und Nenner in einer t-Statistik verteilt sind.

Bei normalen Daten hat der Zähler einer t-Statistik eine Normalverteilung und die Verteilung des Quadrats des Nenners (das dann eine Varianz ist) ist ein bestimmtes Vielfaches einer Chi-Quadrat-Verteilung. Wenn der Zähler und der Nenner ebenfalls unabhängig sind (wie dies nur bei normalen Daten der Fall ist, da die Beobachtungen selbst unabhängig sind), hat die gesamte Statistik eine t-Verteilung.

Dies bedeutet dann, dass eine t-Statistik wie eine zentrale Größe ist (ihre Verteilung hängt nicht davon ab, wie hoch der wahre Steigungskoeffizient ist, und Es ist eine Funktion des Unbekannten ), wodurch es für die Erstellung von Konfidenzintervallen geeignet ist. Diese Intervalle verwenden dann Quantile in ihrer Konstruktion, um die gewünschte Abdeckung zu erhalten. $\frac{\hat \beta - \beta}{s_{\hat\beta}}$ $\beta$ $t$

Wenn die Daten von einer anderen Verteilung stammen würden, hätte die Statistik keine t-Verteilung. Wenn es beispielsweise einen schweren Schwanz hätte, wäre die t-Verteilung tendenziell etwas schwächer (die äußeren Beobachtungen beeinflussen den Nenner stärker als den Zähler). Hier ist ein Beispiel. In beiden Fällen gilt das Histogramm für 10.000 Regressionen:

Geben Sie hier die Bildbeschreibung ein

Das Histogramm links ist für den Fall, dass die Daten bedingt normal sind, n = 30 (und in diesem Fall ). Die Distribution sieht so aus, wie sie sollte. Das Histogramm auf der rechten Seite ist für den Fall gedacht, dass die bedingte Verteilung recht schief und stark schwanzförmig ist und das Histogramm nur sehr wenige Werte außerhalb - die Verteilung ist der theoretischen Verteilung für nicht sehr ähnlich. weil die Statistik nicht mehr die t-Verteilung hat. $\beta=0$ $(-2,2)$

Ein 95% t-Intervall (das 95% der Steigungen in unserer Stichprobe enthalten sollte) liegt zwischen -2,048 und 2,048. Für die normalen Daten umfasste es tatsächlich 95,15% der 10000 Stichprobensteigungen. Für die verzerrten Daten sind 99,91% enthalten.

— Glen_b - Monica neu starten
quelle

Welche Distribution haben Sie für die Version mit verzerrtem und schwerem Schwanz verwendet?

— Gung - Reinstate Monica

@gung Gamma mit Formparameter 0,01 (Stichprobengröße 30, einfache lineare Regression angepasst); ziemlich ähnliche Ergebnisse treten bei anderen stark verzerrten Verteilungen auf. Sie brauchen nicht annähernd diesen Versatz, damit sich die Verteilung deutlich von .

t

$t$

— Glen_b -Rate State Monica