Test auf finite Varianz?


29

Ist es möglich, die Endlichkeit (oder Existenz) der Varianz einer Zufallsvariablen anhand einer Stichprobe zu testen? Als Null wäre entweder {die Varianz existiert und ist endlich} oder {die Varianz existiert nicht / ist unendlich} akzeptabel. Philosophisch (und rechnerisch) scheint dies sehr seltsam zu sein, da es keinen Unterschied zwischen einer Population ohne endliche Varianz und einer Population mit sehr großer Varianz (sagen wir> ) geben sollte. Ich bin also nicht zuversichtlich, dass dieses Problem auftreten kann gelöst.10400

Ein Ansatz, der mir vorgeschlagen wurde, war über den zentralen Grenzwertsatz: Unter der Annahme, dass die Stichproben iid sind und die Grundgesamtheit einen endlichen Mittelwert hat, könnte man irgendwie überprüfen, ob der Stichprobenmittelwert mit zunehmender Stichprobengröße den richtigen Standardfehler aufweist. Ich bin mir jedoch nicht sicher, ob diese Methode funktionieren würde. (Insbesondere sehe ich nicht, wie ich es zu einem richtigen Test machen kann.)


1
Relevant: stats.stackexchange.com/questions/94402/… Wenn es die geringste Möglichkeit gibt, dass die Varianz nicht existiert, ist es besser, ein Modell zu verwenden, das keine endliche Varianz annimmt. Denken Sie nicht einmal daran, es zu testen.
kjetil b halvorsen

Antworten:


13

Nein, dies ist nicht möglich, da eine endliche Stichprobe der Größe n nicht zuverlässig zwischen einer normalen Population und einer normalen Population unterscheiden kann, die durch eine 1/N Menge einer Cauchy-Verteilung mit N >> kontaminiert ist n. (Natürlich hat der erstere eine endliche Varianz und der letztere eine unendliche Varianz.) Somit hat jeder vollständig nichtparametrische Test eine willkürlich niedrige Leistung gegenüber solchen Alternativen.


4
Das ist ein sehr guter Punkt. Haben die meisten Hypothesentests jedoch nicht eine willkürlich niedrige Leistung gegenüber einer Alternative? Zum Beispiel hat ein Test für den Mittelwert Null eine sehr geringe Leistung, wenn eine Stichprobe aus einer Grundgesamtheit mit dem Mittelwert für 0 < | gegeben wird ϵ | klein. Ich frage mich immer noch, ob ein solcher Test überhaupt vernünftig aufgebaut werden kann, geschweige denn, ob er in einigen Fällen eine geringe Leistung aufweist. ϵ0<|ϵ|
Shabbychef

2
Außerdem schienen "verschmutzte" Verteilungen wie die, die Sie zitieren, immer im Widerspruch zu der Idee zu stehen, "identisch verteilt" zu sein. Vielleicht würden Sie zustimmen. Es scheint, dass die Aussage, dass Stichproben aus einer bestimmten Verteilung gezogen werden, ohne dass die Verteilung als bedeutungslos eingestuft wird, bedeutungslos ist.
Shabbychef

2
(1) Sie haben Recht mit der geringen Leistung, aber das Problem hier (scheint mir) ist, dass es keinen allmählichen Schritt von "endlich" zu "unendlich" gibt: Das Problem scheint keine natürliche Skala zu haben, die es uns sagt Was ist eine "kleine" Abweichung von der Null im Vergleich zu einer "großen" Abweichung. (2) Die Vertriebsform ist unabhängig von iid-Überlegungen. Ich meine nicht, dass zum Beispiel 1% der Daten von einem Cauchy und 99% von einem Normal stammen. Ich meine, dass 100% der Daten von einer Verteilung stammen, die fast normal ist, aber Cauchy-Schwänze hat. In diesem Sinne können die Daten für eine kontaminierte Verteilung verwendet werden.
whuber


3
@shabbychef Wenn sich jede Beobachtung aus genau demselben Mischungsprozess ergibt, sind sie identisch verteilt, und zwar jeweils als Unentschieden aus der entsprechenden Mischungsverteilung. Wenn einige Beobachtungen notwendigerweise von einem Prozess stammen und andere notwendigerweise von einem anderen Prozess stammen (Beobachtungen 1 bis 990 sind normal und Beobachtungen 991 bis 1000 sind beispielsweise Cauchy), sind sie nicht identisch verteilt (obwohl die kombinierte Stichprobe möglicherweise nicht unterscheidbar ist) aus einer 99% -1% Mischung). Dies hängt im Wesentlichen vom Modell des von Ihnen verwendeten Prozesses ab.
Glen_b

16

Sie können nicht sicher sein, ohne die Verteilung zu kennen. Es gibt jedoch bestimmte Dinge, die Sie tun können, z. B. das Betrachten der sogenannten "partiellen Varianz". Wenn Sie also eine Stichprobe der Größe , zeichnen Sie die aus den ersten n Termen geschätzte Varianz , wobei n von 2 bis läuft N .NnnN

Mit einer endlichen Populationsvarianz hoffen Sie, dass sich die partielle Varianz bald in der Nähe der Populationsvarianz einpendelt.

Bei einer unendlichen Populationsvarianz sehen Sie Sprünge in der Teilvarianz, gefolgt von langsamen Rückgängen, bis der nächste sehr große Wert in der Stichprobe erscheint.

Dies ist eine Illustration mit normalen und zufälligen Cauchy-Variablen (und einer logarithmischen Skala) Teilweise Abweichung

Dies kann nicht hilfreich sein, wenn die Form Ihrer Verteilung so ist, dass eine viel größere Stichprobengröße erforderlich ist, als Sie haben, um sie mit ausreichender Sicherheit zu identifizieren, dh wenn sehr große Werte für eine Verteilung mit endlicher Varianz ziemlich (aber nicht extrem) selten sind. oder sind extrem selten für eine Verteilung mit unendlicher Varianz. Für eine gegebene Verteilung wird es Stichprobengrößen geben, die mit größerer Wahrscheinlichkeit ihre Natur offenbaren; Umgekehrt gibt es für eine gegebene Stichprobengröße Verteilungen, die mit größerer Wahrscheinlichkeit ihre Natur für diese Stichprobengröße verschleiern.


4
+1 Ich mag das, weil (a) eine Grafik in der Regel viel mehr zeigt als ein Test und (b) es praktisch ist. Ich bin ein wenig besorgt, dass es einen willkürlichen Aspekt hat: sein Aussehen wird (stark, vielleicht) von der Reihenfolge abhängen, in der die Daten angegeben werden. Wenn die "partielle Varianz" auf einen oder zwei Extremwerte zurückzuführen ist und sie sich dem Anfang nähern, kann diese Grafik täuschen. Ich frage mich, ob es eine gute Lösung für dieses Problem gibt.
whuber

1
+1 für tolle Grafik. Verfestigt wirklich das Konzept "keine Varianz" in der Cauchy-Verteilung. @whuber: Die Daten in allen möglichen Permutationen sortieren, den Test für jede durchführen und einen Durchschnitt bilden? Nicht sehr recheneffizient, das gebe ich dir zu :) aber vielleicht könntest du nur eine Handvoll zufälliger Permutationen auswählen?
Naught101

2
@ naught101 Die Mittelung über alle Permutationen sagt nichts aus, da Sie eine perfekt horizontale Linie erhalten. Vielleicht verstehe ich falsch, was du meinst?
Whuber

1
@whuber: Eigentlich wollte ich den Durchschnitt einer Art von Konvergenztest nehmen, nicht die Grafik selbst. Aber ich gebe zu, es ist eine ziemlich vage Idee, und das liegt hauptsächlich daran, dass ich keine Ahnung habe, wovon ich spreche :)
naught101

7

Hier ist eine andere Antwort. Angenommen, Sie könnten das Problem folgendermaßen parametrisieren:

H0: Xt(df=3) versus H1: Xt(df=1).

Dann könnten Sie einen gewöhnlichen Neyman-Pearson- Wahrscheinlichkeitstest von gegen H 1 durchführen . Beachten Sie, dass H 1 ist Cauchy (unendliche Varianz) und H 0 ist der üblicher Student t mit 3 Freiheitsgraden (endliche Varianz) , die PDF hat: f ( x | ν ) = Γ ( ν + 1H0H1H1H0 t

f(x|ν)=Γ(ν+12)νπΓ(ν2)(1+x2ν)ν+12,

für . Bei einfachen Zufallsstichprobendaten x 1 , x 2 , , x n lehnt der Wahrscheinlichkeitsverhältnis-Test H 0 ab, wenn Λ ( x ) = n i = 1 f ( x i | ν = 1 )<x<x1,x2,,xnH0 wobeik0so gewähltdass P(Λ(X)>k

Λ(x)=i=1nf(xi|ν=1)i=1nf(xi|ν=3)>k,
k0
P(Λ(X)>k|ν=3)=α.

Es ist ein wenig Algebra zu vereinfachen

Λ(x)=(32)ni=1n(1+xi2/3)21+xi2.

Wir erhalten also wieder eine einfache Zufallsstichprobe, berechnen und lehnen H 0 ab, wenn Λ ( x ) zu groß ist. Wie groß? Das ist der lustige Teil! Es wird schwierig (unmöglich?) Sein, ein geschlossenes Formular für den kritischen Wert zu erhalten, aber wir könnten es mit Sicherheit so nah wie wir wollen annähern. Hier ist eine Möglichkeit, dies mit R zu tun. Angenommen, α = 0,05 , und für Lacher sagen wir n = 13 .Λ(x)H0Λ(x)α=0.05n=13

Wir generieren eine Reihe von Samples unter , berechnen Λ für jedes Sample und finden dann das 95. Quantil.H0Λ

set.seed(1)
x <- matrix(rt(1000000*13, df = 3), ncol = 13)
y <- apply(x, 1, function(z) prod((1 + z^2/3)^2)/prod(1 + z^2))
quantile(y, probs = 0.95)

12.8842(3/2)13k1.9859

H0H1α

Haftungsausschluss: Dies ist ein Spielzeugbeispiel. Ich habe keine reale Situation, in der ich gespannt war, ob meine Daten von Cauchy stammen und nicht von Student's t mit 3 df. Und die ursprüngliche Frage sagte nichts über parametrisierte Probleme aus, sie schien eher nach einem nichtparametrischen Ansatz zu suchen, der meiner Meinung nach von den anderen gut angesprochen wurde. Der Zweck dieser Antwort ist für zukünftige Leser, die über den Titel der Frage stolpern und nach dem klassischen Ansatz eines staubigen Lehrbuchs suchen.

H1:ν1


2
α

1
H1:ν2ν>2

2
α

1
αα=2

6

DY1,Y2,,YN:

  1. H0:YiNormal(μ,σ)
  2. HA:YiCauchy(ν,τ)

One hypothesis has finite variance, one has infinite variance. Just calculate the odds:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)P(D,μ,σ|H0,I)dμdσP(D,ν,τ|HA,I)dνdτ

Where P(H0|I)P(HA|I) is the prior odds (usually 1)

P(D,μ,σ|H0,I)=P(μ,σ|H0,I)P(D|μ,σ,H0,I)
And
P(D,ν,τ|HA,I)=P(ν,τ|HA,I)P(D|ν,τ,HA,I)

Now you normally wouldn't be able to use improper priors here, but because both densities are of the "location-scale" type, if you specify the standard non-informative prior with the same range L1<μ,τ<U1 and L2<σ,τ<U2, then we get for the numerator integral:

(2π)N2(U1L1)log(U2L2)L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσ

Where s2=N1i=1N(YiY¯)2 and Y¯=N1i=1NYi. And for the denominator integral:

πN(U1L1)log(U2L2)L2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

And now taking the ratio we find that the important parts of the normalising constants cancel and we get:

P(D|H0,I)P(D|HA,I)=(π2)N2L2U2σ(N+1)L1U1exp(N[s2(Y¯μ)2]2σ2)dμdσL2U2τ(N+1)L1U1i=1N(1+[Yiντ]2)1dνdτ

And all integrals are still proper in the limit so we can get:

P(D|H0,I)P(D|HA,I)=(2π)N20σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

The denominator integral cannot be analytically computed, but the numerator can, and we get for the numerator:

0σ(N+1)exp(N[s2(Y¯μ)2]2σ2)dμdσ=2Nπ0σNexp(Ns22σ2)dσ

Now make change of variables λ=σ2dσ=12λ32dλ and you get a gamma integral:

2Nπ0λN121exp(λNs22)dλ=2Nπ(2Ns2)N12Γ(N12)

And we get as a final analytic form for the odds for numerical work:

P(H0|D,I)P(HA|D,I)=P(H0|I)P(HA|I)×πN+12NN2s(N1)Γ(N12)0τ(N+1)i=1N(1+[Yiντ]2)1dνdτ

So this can be thought of as a specific test of finite versus infinite variance. We could also do a T distribution into this framework to get another test (test the hypothesis that the degrees of freedom is greater than 2).


1
When you started to integrate, you introduced a term s2. It persists through the final answer. What is it?
whuber

2
@whuber - s is the standard deviation MLE, s2=N1i=1N(YiY¯)2. I thought it was the usual notation for standard deviation, just as Y¯ is usual for average - which I have incorrectly written as x¯, will edit accordingly
probabilityislogic

5

The counterexample is not relevant to the question asked. You want to test the null hypothesis that a sample of i.i.d. random variables is drawn from a distribution having finite variance, at a given significance level. I recommend a good reference text like "Statistical Inference" by Casella to understand the use and the limit of hypothesis testing. Regarding h.t. on finite variance, I don't have a reference handy, but the following paper addresses a similar, but stronger, version of the problem, i.e., if the distribution tails follow a power law.

POWER-LAW DISTRIBUTIONS IN EMPIRICAL DATA SIAM Review 51 (2009): 661--703.


1

One approach that had been suggested to me was via the Central Limit Theorem.

This is a old question, but I want to propose a way to use the CLT to test for large tails.

Let X={X1,,Xn} be our sample. If the sample is a i.i.d. realization from a light tail distribution, then the CLT theorem holds. It follows that if Y={Y1,,Yn} is a bootstrap resample from X then the distribution of:

Z=n×mean(Y)mean(X)sd(Y),

is also close to the N(0,1) distribution function.

Now all we have to do is perform a large number of bootstraps and compare the empirical distribution function of the observed Z's with the e.d.f. of a N(0,1). A natural way to make this comparison is the Kolmogorov–Smirnov test.

The following pictures illustrate the main idea. In both pictures each colored line is constructed from a i.i.d. realization of 1000 observations from the particular distribution, followed by a 200 bootstrap resamples of size 500 for the approximation of the Z ecdf. The black continuous line is the N(0,1) cdf.

enter image description here enter image description here


2
No amount of bootstrapping will get you anywhere against the problem I raised in my answer. That's because the vast majority of samples will not supply any evidence of a heavy tail--and bootstrapping, by definition, uses only the data from the sample itself.
whuber

1
@whuber If the X values are taken from a symmetrical power law, then the generalized CLT applies and KS test will detect the difference. I believe that your observation do not correctly characterize what you say is a "gradual step from "finite" to "infinite""
Mur1lo

1
The CLT never "applies" to any finite sample. It's a theorem about a limit.
whuber

1
When I say that it "applies" I'm only saying that it provides a good approximation if we have a large sample.
Mur1lo

1
The vagueness of "good approximation" and "large" unfortunately fail to capture the logic of hypothesis tests. Implicit in your statement is the possibility of collecting an ever larger sample until you are able to detect the heavy-tailedness: but that's not how hypotheses tests usually work. In the standard setting you have a given sample and your task is to test whether it is from a distribution in the null hypothesis. In this case, bootstrapping won't do that any better than any more straightforward test.
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.