Warum ist der F-Test für die Annahme der Normalität so empfindlich?

16

Warum ist der F- Test für die Varianzdifferenz so empfindlich gegenüber der Annahme einer Normalverteilung, selbst für große ? $N$

Ich habe versucht, im Internet zu suchen und die Bibliothek besucht, aber keine davon hat gute Antworten gegeben. Es heißt, dass der Test sehr empfindlich auf Verstöße gegen die Annahme für die Normalverteilung ist, aber ich verstehe nicht, warum. Hat jemand eine gute Antwort darauf?

normality-assumption f-test

— Magnus Johannesen
quelle

6

Für welchen Test

F

$F$ interessieren Sie sich?

— S. Kolassa - Wiedereinsetzung von Monica

F-Test zur Messung der Varianzdifferenz.

— Magnus Johannesen

35

Ich nehme an, Sie meinen den F-Test für das Verhältnis der Varianzen, wenn Sie ein Paar von Stichprobenvarianzen auf Gleichheit prüfen (weil dies das einfachste ist, das für Normalität ziemlich empfindlich ist; der F-Test für ANOVA ist weniger empfindlich).

Wenn Ihre Stichproben aus Normalverteilungen gezogen werden, hat die Stichprobenvarianz eine skalierte Chi-Quadrat-Verteilung

Stellen Sie sich vor, Sie hätten keine Daten aus Normalverteilungen, sondern eine Verteilung, die schwerer als normal ist. Dann würden Sie zu viele große Varianzen in Bezug auf diese skalierte Chi-Quadrat-Verteilung erhalten, und die Wahrscheinlichkeit, dass die Stichprobenvarianz in den äußersten rechten Schwanz gelangt, reagiert sehr stark auf die Schwänze der Verteilung, aus der die Daten gezogen wurden =. (Es wird auch zu viele kleine Abweichungen geben, aber der Effekt ist etwas weniger ausgeprägt)

Wenn nun beide Stichproben aus dieser Verteilung mit dem stärkeren Schwanz gezogen werden, erzeugt der größere Schwanz auf dem Zähler einen Überschuss an großen F-Werten und der größere Schwanz auf dem Nenner einen Überschuss an kleinen F-Werten (und umgekehrt für den linken Schwanz).

Diese beiden Effekte führen in einem Test mit zwei Schwänzen tendenziell zur Abstoßung, obwohl beide Proben die gleiche Varianz aufweisen . Dies bedeutet, dass die tatsächlichen Signifikanzniveaus tendenziell höher sind, als wir es wünschen, wenn die wahre Verteilung schwerer als normal ist.

Umgekehrt führt die Entnahme einer Stichprobe aus einer Verteilung mit geringerem Schwanz zu einer Verteilung von Stichprobenvarianzen, deren Schwanz zu kurz ist. Die Varianzwerte sind in der Regel eher "mittelmäßig" als bei Daten aus Normalverteilungen. Auch hier ist der Aufprall am oberen Ende stärker als am unteren Ende.

Wenn nun beide Stichproben aus dieser Verteilung mit dem helleren Schwanz gezogen werden, führt dies zu einem Überschuss an F-Werten in der Nähe des Medians und zu wenigen in jedem Schwanz (die tatsächlichen Signifikanzniveaus sind niedriger als gewünscht).

Diese Effekte scheinen sich bei größeren Stichproben nicht unbedingt zu verringern. in einigen Fällen scheint es schlimmer zu werden.

Zur teilweisen Veranschaulichung sind hier 10000 Stichprobenvarianzen (für ) für Normalverteilungen, Verteilungen und Gleichverteilungen, skaliert, um den gleichen Mittelwert wie a : $n=10$ $t_5$ $\chi^2_9$

Es ist ein bisschen schwer, den fernen Schwanz zu sehen, da er im Vergleich zum Peak relativ klein ist (und für den die Beobachtungen im Schwanz ein Stück weiter, als wir geplant haben), aber wir können etwas von der Auswirkung auf den Verteilung auf die Varianz. Es ist vielleicht noch lehrreicher, diese durch die Inverse des Chi-Quadrat-Cdf zu transformieren, $t_5$

Was im Normalfall einheitlich aussieht (wie es sollte), hat im T-Fall einen großen Peak im oberen Schwanz (und einen kleineren Peak im unteren Schwanz) und ist im einheitlichen Fall eher hügelig, aber mit einem breiten Spitzenwert um 0,6 bis 0,8 und die Extreme haben eine viel geringere Wahrscheinlichkeit als sie sollten, wenn wir von Normalverteilungen abtasten.

Diese erzeugen wiederum die Auswirkungen auf die Verteilung des zuvor beschriebenen Varianzverhältnisses. Um unsere Fähigkeit zu verbessern, den Effekt auf die Schwänze zu sehen (was schwer zu sehen sein kann), habe ich die Umkehrung des cdf-Werts (in diesem Fall für die -Verteilung) transformiert : $F_{9,9}$

$t_5$

Es gibt viele andere Fälle, die für eine vollständige Studie untersucht werden müssen, aber dies gibt zumindest einen Eindruck von der Art und Richtung der Wirkung sowie der Art und Weise, in der sie auftritt.

— Glen_b - Setzen Sie Monica wieder ein
quelle

1

Wirklich schöne Demo

— Shadowtalker

3

Wie Glen_b in seinen Simulationen brillant illustriert hat, ist der F-Test für ein Varianzverhältnis empfindlich gegenüber den Schwänzen der Verteilung. Der Grund dafür ist, dass die Varianz einer Stichprobenvarianz vom Kurtosis-Parameter abhängt und somit die Kurtosis der zugrunde liegenden Verteilung einen starken Einfluss auf die Verteilung des Verhältnisses der Stichprobenvarianzen hat.

$S_N^2$ $S_n^2$ $n<N$ $^\dagger$

\frac{S_{N}^{2}}{S_{n}^{2}} \overset{Ca.}{\sim} \frac{n - 1}{N - 1} + \frac{N - n}{N - 1} \cdot F (D F_{C}, D F_{n}),

$\frac{S_N^2}{S_n^2} \overset{\text{Approx}}{\sim} \frac{n-1}{N-1} + \frac{N-n}{N-1} \cdot F(DF_C, DF_n),$

$\kappa$

D F_{n} = \frac{2 n}{κ - (n - 3) / (n - 1)} D F_{C} = \frac{2 (N - n)}{2 + (κ - 3) (1 - 2 / N + 1 / N n)} .

$DF_n = \frac{2n}{\kappa - (n-3)/(n-1)} \quad \quad \quad DF_C = \frac{2(N-n)}{2+(\kappa-3)(1-2/N+1/Nn)}.$

$\kappa=3$ $DF_n = n-1$ $DF_C = N-n$

$\hat{\kappa}$

$^\dagger$ $N-1$ $N$

— Setzen Sie Monica wieder ein
quelle

+1 Dies ist ein sehr interessanter Beitrag. Sicherlich ist es bei mesokurtischen Verteilungen schwieriger, die Varianz-Verhältnis-Verteilung so weit vom F zu entfernen, wie dies bei einer vollständigen Auswahl der Verteilung möglich ist, aber es ist nicht so schwer, Fälle zu identifizieren (bei der Stichprobengröße in meiner Antwort, 10 und 10) wobei die tatsächliche Fehlerrate des Typs I mehr als ein wenig von einer nominalen Rate von 0,05 entfernt ist. Die ersten 3 Fälle, die ich ausprobiert habe (Verteilungen mit Bevölkerungs-Kurtosis = 3 - alle auch symmetrisch), hatten Ablehnungsraten von Typ I von 0,0379, 0,0745 und 0,0785. ... ctd

— Glen_b -Reinstate Monica

ctd ... Ich habe kaum Zweifel, dass extremere Fälle identifiziert werden könnten, wenn man ein wenig darüber nachdenkt, wie man die Annäherung verschlechtern kann. Ich stelle mir jedoch vor, dass es in größeren Stichproben besser sein könnte (dass das Signifikanzniveau nicht stark beeinflusst wird).

— Glen_b -Reinstate Monica