Wie viele der größten Terme in


11

Betrachten Sie N i = 1 | X i | Ni=1|Xi| wobei X 1 , , X NX1,,XN iid sind und die CLT gilt.
Wie viele der größten Begriffe machen die Hälfte der Gesamtsumme aus?
Zum Beispiel erreichen 10 + 9 + 8 (10 + 9 + 8 + 1) / 2: 30% der Terme ungefähr die Hälfte der Gesamtzahl.

Definieren
sumbiggest (j ; X 1X N ) Summe der j größten von  | X 1 | | X N |sumbiggest( j;X1XN)sum of the j biggest of |X1||XN|
Halbsumme ( N ) das kleinste j, so dass sumbiggest (j) sumbiggest ( N ) / 2 .halfsum(N)the smallest j such that sumbiggest( j )sumbiggest(N)/2.

Gibt es ein allgemeines asymptotisches Ergebnis für die Halbsumme ( N , μ , σN,μ,σ )?
Eine einfache, intuitive Ableitung wäre schön.

(Ein wenig Monte Carlo schlägt vor, dass manchmal die halbe Summe ( NN ) NN / 4 oder so ist;
das heißt, das größte Viertel des X iXi addiert sich zur Hälfte der Gesamtsumme.
Ich erhalte 0,24 NN für die Halbnormalen, 0,19 NN für exponentiell für NN = 20, 50, 100.)


3
Erwarten Sie kein CLT-ähnliches universelles Ergebnis. Zum Beispiel unterscheidet sich die Antwort für einheitliche (0,1) Variablen stark von der Antwort für einheitliche (1000.1001) Variablen!
whuber

Richtig, die halbe Summe hängt natürlich von Mittelwert und SD ab. Aber warum ~ N / 5 für Exponential?
Denis

2
Asymptotisch, Denis, die Cutoff für den halfsum wird der Wert x für die x 0 t f ( t ) d t = 1 / 2 , wo f die pdf für IS | X i | ;; Die Frage fragt nach N ( 1 - F ( x ) ) ( F ist das cdf für | X i | ). Im Falle der Uniform [ 0 , 1 ]xx0tf(t)dt=1/2f|Xi|N(1F(x))F|Xi|[0,1] Verteilung erhalten Sie die Antwort von @ Dilip; für ein Exponential gilt x 0,186682 N N / 5 . x0.186682NN/5
whuber

Antworten:


2

Nein, es gibt kein allgemeines asymptotisches Ergebnis. Sei x [ 1 ]x [ N ] das geordnete x i , wobei x [ 1 ] das größte ist.x[1]x[N]xix[1]

Betrachten Sie die folgenden zwei Beispiele:

1) P ( x = 0 ) = 1 . Klar gilt das CLT. Sie benötigen nur M = 1 Beobachtung für M j = 1 | x [ j ] | 1P(x=0)=1M=12N| xi| . Mj=1|x[j]|12N|xi|

2) P ( x = 1 ) = 1 . Klar gilt das CLT. Sie benötigen M = N / 2 Beobachtungen für M j = 1 | x [ j ] | 1P(x=1)=1M=N/22N| xi| .Mj=1|x[j]|12N|xi|

Für ein nicht triviales Beispiel ist die Bernoulli-Verteilung:

3) P ( x = 1 ) = p , P ( x = 0 ) = 1 - p  . Wieder einmal gilt das CLT. Sie benötigen p N / 2 the der Beobachtungen, um Ihre Bedingungen zu erfüllen. Durch Variieren von p zwischen 0 und 1 können Sie Beispiel 1 oder Beispiel 2 so nahe kommen, wie Sie möchten.P(x=1)=p, P(x=0)=1ppN/2p


4
Es ist zwar offensichtlich, dass die Antwort irgendwo zwischen 0 und N / 2 liegen kann , aber das bedeutet nicht, dass kein allgemeines Ergebnis vorliegt. Dies impliziert, dass wir Antworten in Betracht ziehen sollten, bei denen der Bruch von einigen Eigenschaften der zugrunde liegenden Verteilung wie dem Mittelwert und der SD abhängt. Diese reichen zusammen mit der CLT aus, um spezifische und quantitative Informationen darüber zu liefern, wie die x [ i ] im Vergleich zu ihrer Summe verteilt sind. Es ist also vernünftig, auf ein solches Ergebnis zu hoffen. 0N/2x[i]
whuber

1

Hier ist ein grobes Argument, das eine etwas andere Schätzung für gleichmäßig verteilte Zufallsvariablen gibt. Angenommen, X i sind kontinuierliche Zufallsvariablen, die gleichmäßig auf [ 0 , 1 ] verteilt sind . Dann hat i X i den Mittelwert N / 2 . Nehmen wir an, dass durch einen überraschenden und absolut unglaublichen Zufall die Summe genau gleich N / 2 ist . So wir , wie viele der größten Werte schätzen wollen X Summe bis zu N / 4 oder mehr. Nun ist das Histogramm von N Proben ( N.Xi[0,1]iXiN/2N/2XN/4NN very large) drawn from the uniformm distribution U[0,1]U[0,1] is roughly flat from 00 to 11, and so for any xx, 0<x<10<x<1, there are (1x)N(1x)N samples distributed roughly uniformly between xx to 11. These samples have average value (1+x)/2(1+x)/2 and sum equal to (1x)N(1+x)/2)=(1x2)N/2(1x)N(1+x)/2)=(1x2)N/2. The sum exceeds N/4N/4 for x1/2x1/2. So, the sum of (11/2)N0.3N(11/2)N0.3N largest samples exceeds N/4N/4.

You could try and generalize this a bit. If iXi=YiXi=Y, then for any given YY, we want xx to be such that (1x2)N/2=Y/2(1x2)N/2=Y/2 where YY is normal with mean N/2N/2 and variance N/12N/12. Thus, conditioned on a value of YY, x=1(Y/N)x=1(Y/N). Multiply by the density of YY and integrate (from Y=0Y=0 to Y=NY=N) to find the average number of largest samples that will exceed half the random sum.


The distance between two points restricted to be in the interval (0,1)(0,1) cannot be exponentially distributed because the distance must be less than 11 while an exponential random variable take on values in (0,)(0,). What is true is that if Y1,Y2,,Yn+1Y1,Y2,,Yn+1 are independent exponential random variables, then conditioned on Ymax=αYmax=α, the order statistics Y(1),Y(2),,Y(n)Y(1),Y(2),,Y(n) are uniformly distributed in (0,α)(0,α). See, for example, this question and answer on the companion site math.SE. (continued)
Dilip Sarwate

In any case, my argument does not use the distances between the ordered samples from the uniform distribution.
Dilip Sarwate

You're right, I misunderstood you. As a side question, aren't the pieces between uniform-random points exponentially distributed, after scaling -- the converse of your q+a ? [Broken Stick Rule from the Wolfram Demonstrations Project] (demonstrations.wolfram.com/BrokenStickRule) sure looks exponential, there must be an easy? proof.
denis

Please ask your side question as a separate question.
Dilip Sarwate

Started, then saw probability-distribution-of-fragment-lengths, you could comment there.
denis

0

Let's assume X has just positive values to get rid of the absolute value.

Without an exact prove, I think you have to solve for k

(1FX(k))E(X|X>=k)=12E(X) with F being the cumulative distribution function for X

and then the answer is given by taking the n(1FX(k)) highest values.

My logic is that asymtopically the sum of all values higher than k should be about

n(1FX(k))E(X|X>=k)

and asymtopically half the total sum is about

12nE(X).

Numerical simulation show that the result holds for the uniform case (uniform in [0,1]) where F(k)=k and I get k=(12). I am not certain if the result always hold or if it can be simplified further, but I think it really depends on the distribution function F.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.