Erwartete Häufigkeit, mit der der empirische Mittelwert einen Wert überschreitet


11

Bei einer gegebenen Folge von iid-Zufallsvariablen sagen wir Xi[0,1] für i=1,2,...,n , ich versuche die erwartete Anzahloft die empirischen Mittelwert gebunden1ni=1nXiüberschreitet einen Wert,c0, wenn wir weiterhin Proben zeichnen, dh:

T=defj=1nP({1ji=1jXic})

Wenn wir annehmen, dass c=a+E[X] für einige a>0 , können wir Hoeffdings Ungleichung verwenden , um zu erhalten

Tj=1ne2ja2=1e2a2ne2a21

Was (vielleicht) gut aussieht, aber eigentlich ziemlich locker gebunden ist, gibt es bessere Möglichkeiten, diesen Wert zu begrenzen? Ich gehe davon aus, dass es einen Weg geben kann, da die verschiedenen Ereignisse (für jedes j ) eindeutig nicht unabhängig sind. Mir ist kein Weg bekannt, diese Abhängigkeit auszunutzen. Es wäre auch schön, die Einschränkung zu entfernen, dass c größer als der Mittelwert ist.

edit : Die Einschränkung auf größer als der Mittelwert ist, kann aufgehoben werden, wenn wirMarkovs Ungleichungwie folgt verwenden:c

Was allgemeiner ist, aber viel schlimmer als die oben angegebene Grenze, obwohl klar ist, dassTimmer dann divergieren muss, wenncE[X] ist.

Tj=1n1jE[X]c=E[X]Hnc
TcE[X]

Ihre Definition von stimmt nicht mit Ihrer Beschreibung überein. Wenn das " j × " entfernt würde, wäre es die erwartete Anzahl von Überschreitungen von c , aber wie geschrieben ist es eine lineare Kombination der Zeiten . Dies ist offensichtlich keine Erwartung, da sich die Wahrscheinlichkeiten nicht gegenseitig ausschließen. Wenn zum Beispiel c 0 ist , ist T = n ( n + 1 ) / 2 . Tj×cc0T=n(n+1)/2
whuber

@whuber oh, richtig, guter Punkt danke, ich habe es oben behoben.
Fairidox

Ich stelle fest, dass Sie Ihre Obergrenze geändert haben. Es scheint jetzt negativ zu sein ;-).
whuber

Sollte das " " im Exponential nicht quadriert werden? - Ok, es vereinfacht sich mit der Domain [0,1]j
Alecos Papadopoulos

Antworten:


1

Dies ist ein ziemlich handgemachter Ansatz, und ich würde mich sehr über einen Kommentar dazu freuen (und die kritisierenden sind normalerweise die hilfreichsten). Wenn ich das richtig verstehe, berechnet das OP die Stichprobenmittelwerte , wobei jede Stichprobe die vorherige Stichprobe +1 Beobachtung aus einem neuen rv enthält. Bezeichnen Sie F j die Verteilung jedes Stichprobenmittelwerts. Dann können wir schreiben x¯jFj

T=defj=1n(1Fj(c))=nj=1nFj(c)

Betrachten wir eine Stichprobengröße , nach der die Verteilung der Probe Mittelwert fast normal ist, bezeichnen es GmG^ . Dann können wir schreiben

T=nj=1mFj(c)j=m+1nG^j(c)<nj=m+1nG^j(c)

Die Lösung G j ( c ) erhalten wir G j ( c ) = 1 - Φ ( G^j(c) wobeiΦdie Standardnormal-cdf ist,σdie Standardabweichung des iid-Prozesses ist undμsein Mittelwert ist. Einfügen in die Bindung und Neuanordnung erhalten wir

G^j(c)=1Φ(jσ(μc))
Φσμ

T<m+j=m+1nΦ(jσ(a))

Beachten Sie, dass diese Grenze auch von der Varianz des Prozesses abhängt. Ist dies eine bessere Bindung als die in der Frage dargestellte? Dies hängt entscheidend davon ab, wie "schnell" die Verteilung des Stichprobenmittelwerts "fast normal" wird. Um ein numerisches Beispiel zu geben, nehmen wir an, dass . Angenommen, die Zufallsvariablen sind in [ 0 , 1 ] einheitlich . Dann ist σ = m=30[0,1] undμ=1σ=112μ=12a=0.05n=34n>30n=10078.536.2199.538.5aa=0.1 , der Hoeffding konvergent gebunden49.5 while the bound I propose converges to 30.5 (i.e the sum of the normal cdfs contributes very little to the overall bound).
Somewhat more generally, we note that for n the Hoeffding bound converges to

Hb1e2a21
while my bound to
Abm

Since for small values of a (which is rather the case of interest) Hb becomes a large number, there is still the case that Ab may outperform it in tightness, even if the sample is such that the distribution of the sample mean converges slowly to the normal distribution.


"(i.e no more than the assumed sample-size threshold one needs to get the normal approximation in the distribution of the sample mean)" what are you talking about here?
Glen_b -Reinstate Monica

Nothing important. As I write some lines above, a rule of thumb so that the distribution of the sample mean is "a lot" like normal, is that we need at least a sample size of 30. So for sample size 100, and a 20% deviation case, my bound is 30.5 i.e. m+0.5 - in other words the j=m+1nΦ(jσ(a)) part of the bound contributes very little.
Alecos Papadopoulos

Unless you can state the circumstances under which it holds, please avoid calling that thing a rule of thumb in any general sense. The figure of 30 is completely arbitrary (usually either far too weak or far too strong), and that 30 also turns up in your case is, I believe simple coincidence.
Glen_b -Reinstate Monica

1
@Glen_b "30" was not even a coincidence - I just used it to provide a numerical example. I have no objection to the issue, I don't like "rules of thumb" (especially when they are dubious). I have made some changes in my answer. Thanks for the input.
Alecos Papadopoulos

@Glen_b Thanks for the possibly non-stationary (i.e. long) memory!
Alecos Papadopoulos
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.