Empirische Verteilungsalternative


12

KOPFGELD:

Das volle Kopfgeld wird an jemanden vergeben, der einen Verweis auf ein veröffentlichtes Papier bereitstellt, in dem der unten stehende Schätzer verwendet oder erwähnt wird.F~

Motivation:

Dieser Abschnitt ist wahrscheinlich nicht wichtig für Sie und ich vermute, er wird Ihnen nicht dabei helfen, das Kopfgeld zu erhalten. Da jedoch jemand nach der Motivation gefragt hat, arbeite ich an folgenden Themen.

Ich arbeite an einem Problem der statistischen Graphentheorie. Das Standard-Dichtegraph-Grenzobjekt ist eine symmetrische Funktion im Sinne von . Abtasten eines Graphen auf Vertices kann man sich als Abtastung einheitliche Werte auf dem Einheitsintervall ( für ) , und dann ist die Wahrscheinlichkeit einer Kante ist . Lassen Sie die resultierende Adjazenzmatrix genannt werden .W:[0,1]2[0,1]W(u,v)=W(v,u)nnUii=1,,n(i,j)W(Ui,Uj)A

Wir können als Dichte f = W / \ iint W behandeln, wenn \ iint W> 0 ist . Wenn wir f basierend auf A ohne Einschränkungen für f schätzen, können wir keine konsistente Schätzung erhalten. Ich fand ein interessantes Ergebnis zur konsistenten Schätzung von f, wenn f aus einer beschränkten Menge möglicher Funktionen stammt. Aus diesem Schätzer und \ sum A können wir W schätzen .Wf=W/WW>0fAfffAW

Leider zeigt die Methode, die ich gefunden habe, Konsistenz, wenn wir die Verteilung mit der Dichte . Die Art und Weise, wie konstruiert wird, setzt voraus, dass ich ein Punktegitter abtaste (im Gegensatz zum Zeichnen aus dem Original ). In dieser Statistik. SE Frage frage ich nach dem eindimensionalen (einfacheren) Problem, was passiert, wenn wir nur Probe Bernoullis auf einem Gitter wie diesem abtasten können, anstatt tatsächlich direkt von der Verteilung abzutasten.A ffAf

Referenzen für Grafikgrenzen:

L. Lovasz und B. Szegedy. Grenzen dichter Graphsequenzen ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos und K. Vesztergombi. Konvergente Sequenzen dichter Graphen i: Subgraph-Frequenzen, metrische Eigenschaften und Tests. ( arxiv ).

Notation:

Betrachten Sie eine kontinuierliche Verteilung mit cdf und pdf die das Intervall positiv stützenFff F sup z [ 0 , 1 ] f ( z ) = c < f [ 0 , 1 ] X F X F U i [ 0 ,[0,1] . Nehmen wir an, hat keine Punktmasse, ist überall differenzierbar und auch, dass das Supremum von im Intervall . Es sei , dass die Zufallsvariable aus der Verteilung abgetastet wird . sind einheitliche Zufallsvariablen zu .fFsupz[0,1]f(z)=c<f[0,1]XFXFUi[0,1]

Problem eingerichtet:

Oft können wir Zufallsvariablen mit der Verteilung und mit der üblichen empirischen Verteilungsfunktion wie folgt arbeiten : wobei die Indikatorfunktion ist. Beachten Sie, dass diese empirische Verteilung selbst zufällig ist (wobei festgelegt ist). F FX1,,XnFI F n(t)t

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Leider kann ich keine Samples direkt aus . Ich weiß jedoch, dass nur auf positive Unterstützung hat.FfY 1 , ... , Y n Y i p i = f ( ( i - 1 + U i ) / n ) / c c U i Y i ~ Bern ( p i ) , F Y i ~ F n ( t ) = 1[0,1] , und ich kann Zufallsvariablen wobei eine Zufallsvariable mit einer Bernoulli-Verteilung mit Erfolgswahrscheinlichkeit ist. wobei und wie oben definiert sind. Also, . Ein offensichtlicher Weg, wie ich aus diesen Werten abschätzen könnte , besteht darin, woY1,,YnYi

pi=f((i1+Ui)/n)/c
cUiYiBern(pi)FYi
F~n(t)=1i=1nYii=1tnYi
ist die ( auf die nächste Ganzzahl ) und neu zeichnen, wenn (um eine Teilung durch Null zu vermeiden und das Universum zusammenbrechen zu lassen) . Beachten Sie, dass auch eine Zufallsvariable ist, da die Zufallsvariablen sind.F ( t )i=1nYi=0F~(t)Yi

Fragen:

Von (was ich denke sollte) am einfachsten bis am schwierigsten.

  1. Weiß jemand, ob diese (oder etwas ähnliches) einen Namen hat? Können Sie eine Referenz angeben, in der ich einige seiner Eigenschaften sehen kann?F~n

  2. Als , ist ein konsistenter Schätzer von (und können Sie es beweisen)?˜ F n ( t )nF~n(t)F(t)

  3. Was ist die einschränkende Verteilung von als ?F~n(t)n

  4. Im Idealfall möchte ich Folgendes als Funktion von - z. B. , aber ich weiß nicht, was die Wahrheit ist. Das steht für Big O in WahrscheinlichkeitO P (nOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Einige Ideen und Hinweise:

  1. Dies ähnelt weitgehend einer Akzeptanz-Ablehnungs-Stichprobe mit einer gitterbasierten Schichtung. Beachten Sie, dass dies nicht der Fall ist, da wir dort kein weiteres Muster ziehen, wenn wir den Vorschlag ablehnen.

  2. Ich bin mir ziemlich sicher ~ F * n(t)=cF~n voreingenommen ist. Ich denke, die Alternative ist unvoreingenommen, hat aber die unangenehme Eigenschaft, dass .P( ~ F * (1)=1)<1

    F~n(t)=cnich=1tnY.ich
    P(F~(1)=1)<1
  3. Ich möchte als Plug-in-Schätzer verwenden . Ich denke nicht, dass dies nützliche Informationen sind, aber vielleicht wissen Sie aus irgendeinem Grund, warum es sein könnte.F~n

Beispiel in R

Hier ist ein R-Code, mit dem Sie die empirische Verteilung vergleichen möchten F~n . Tut mir leid, ein Teil der Einrückung stimmt nicht ... Ich kann das nicht beheben.

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

Ausgabe aus den obigen Daten

EDITS:

EDIT 1 -

Ich habe dies bearbeitet, um @ whubers Kommentare zu adressieren.

EDIT 2 -

Ich habe R-Code hinzugefügt und ein bisschen mehr aufgeräumt. Ich habe die Schreibweise aus Gründen der Lesbarkeit leicht geändert, aber im Wesentlichen ist es dasselbe. Ich habe vor, sobald es mir erlaubt ist, ein Kopfgeld dafür zu erheben. Bitte lassen Sie mich wissen, wenn Sie weitere Klarstellungen wünschen.

EDIT 3 -

Ich glaube, ich habe @ cardinals Bemerkungen angesprochen. Ich habe die Tippfehler in der Gesamtvariante behoben. Ich füge ein Kopfgeld hinzu.

EDIT 4 -

Es wurde ein Abschnitt "Motivation" für @ cardinal hinzugefügt.


1
Ihre Frage wurde in dem Moment, in dem Sie sich auf undefinierte Objekte bezogen und eine eigenwillige Notation verwendeten, mehrdeutig. Zum Beispiel taucht früh auf, hat aber keine offensichtliche Verbindung zu und erst wenn Sie viel weiter lesen, erfahren Sie, dass Sie es als "keine diskrete Verteilung" betrachten - aber um was für ein Objekt handelt es sich? Entscheidend ist, was bedeutet " ?" "bedeutet normalerweise Supremum, aber vielleicht hat es etwas mit der wesentlichen Unterstützung einer Distribution zu tun? Weil alles in der Frage davon abhängt, was diese bedeuten, kann ich keinen Sinn ergeben von der F sup z f ( z ) supfFsupzf(z)sup
frage

1
Danke @whuber für deine Kommentare. Bitte lassen Sie mich wissen, wenn die überarbeitete Frage immer noch verwirrend ist.
user1448319

1
Aha! Das ist der erste Hinweis, den ich gesehen habe, dass nicht festgelegt ist und dass Sie an den Asymptotika interessiert sind. Wenn es stimmt, dass Sie die Flexibilität haben, sich für zu entscheiden , eröffnet dies dann nicht eine Fülle von Möglichkeiten, beispielsweise eine adaptive Auswahl der Stichprobenpunkte (anstatt sich auf ein festes Raster zu beschränken )? Es ist auch offensichtlich , Sie unausgesprochene Annahmen machen, so dass stetig ist (äquivalent ist absolut stetig ). Was können Sie noch über die zugrunde liegende Verteilung annehmen , die bei dieser Analyse hilfreich sein kann? n { i / n } f F Fnn{ich/n}fFF
whuber

2
Ein paar andere Fragen / Bemerkungen: Es scheint implizit darauf zu beruhen, wie Sie vorschlagen, zu konstruieren, dass Sie tatsächlich ein dreieckiges Array , für die Zwecke der Konvergenzanalyse in Betracht ziehen. Wie Sie das konstruieren , scheint es auch möglich zu sein, Bernoulli-Zufallsvariablen mit der bedingten Erfolgswahrscheinlichkeit wobei eine einheitliche Zufallsvariable ist. Ist das wahr? (Ein wenig mehr Kontext zu Ihrer Frage würde wahrscheinlich viele dieser Fragen lösen.) Prost. Y i , n i = 1 , ... , n p i f ( U ) / c UpiYi,ni=1,,npif(U)/cU
Kardinal

2
Diese Frage wurde so sehr verbessert, dass ich sie erst wiedererkannte, als mir klar wurde, dass ich die Kommentare schon einmal gesehen hatte. Es ist jetzt eine wirklich interessante und viel besser geschriebene Frage.
Glen_b -Reinstate Monica

Antworten:


1

Während dieser Referenz

EDIT: HINZUGEFÜGTE VERWEISE AUF SEHR ÄHNLICHE STATISTISCHE "Nichtparametrische Schätzung aus unvollständigen Beobachtungen" EL Kaplan und Paul Meier, Journal of American Statistical Association, Vol. 53, Nr. 282 (Juni 1958), S. 457-481

bezieht sich nicht auf Ihren ECDF-ähnlichen Schätzer auf Ich glaube, er entspricht logischerweise dem Kaplan-Meier-Schätzer (auch bekannt als Product Limit Estimator), wie er in der Überlebensanalyse verwendet wird, auch wenn er auf einen Zeitbereich angewendet wird.[ 0 , )[0,1][0,) .

Das Schätzen des Bias wäre möglich, wenn Sie eine vernünftige Schätzung der Verteilung über die Kernel-Glättung haben, wenn sich das Verhalten gut genug verhält (siehe z. B. Khmaladze-Transformation) auf Wikipedia).

In dem bivariaten Fall in Ihrem Graph-Problem scheint die Schätzung von aus mit einer trivialen Symmetrie-Einschränkung ähnlich zu sein wie bei Jean-David Fermanian, Dragan Radulovic und Marten Wegkamp (2004), Schwache Konvergenz empirischer Copula Prozesse , Bernoulli , vol. 10, nein. 5, 847–860, als @ cardinal bezeichnete "Multivariate Delta Method".Af=W/WA


Willkommen auf der Seite, James. Ich freue mich auf weitere Beiträge von Ihnen.
Kardinal

0

Dies beantwortet die Fragen 2 und 3 oben. Ich möchte immer noch eine Referenz (von Frage 1).

Dies wird bei noch nicht berücksichtigtYi=0 .

Betrachte und dann wo die Indizes die Ableitungen bezeichnen. Erinnern Sie sich an . Lassen Sie Beachten Sie also, dass undg Ag(A,B)=A/(A+B)

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
pi=f((i1+Ui)/n)/c
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
μR+μS=c1F(t)+c1(1F(t))=c1g(μR,μS)=F(t) . Ebenfalls,
 Var(R)=1n2i=1nt Var(Yi)=1n0tf(u)/c(1f(u)/c)du=1nc20tf(u)(cf(u))du Var(S)=1nc2t1f(u)(cf(u))du
Man beachte, dass durch die Unabhängigkeit der s. Cov(R,S)=0Yi

Nun verwenden wir eine Taylor-Erweiterung, um zu bekommen

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
wo Insbesondere erhalten wir
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
n(F~n(t)F(t))dN(0,VF(t))

Bitte kommentieren Sie, wenn Sie diesbezüglich einen Fehler feststellen.

EDITS:

Bearbeiten 1 -

Ein Tippfehler inVF(t) . Vielen Dank an @cardinal für Ihren Vorschlag in den Kommentaren zu Frage 4.

Bearbeiten 2 -

Viele Tippfehler behoben: Ich hatte wo ich an vielen Stellen hätte haben sollen . Ich muss noch @ Kardinals Antwort über .c1cYi=0


1
Sehr geehrter @user: Dies ist auf dem richtigen Weg; Hier sind ein paar Vorschläge. ( 1 ) Der Mittelwert von existiert nicht, zumindest nicht, bis Sie angeben, was passiert, wenn , daher ist die Analyse in der Antwort streng genommen nicht korrekt. Das Definieren eines Verhaltens bei Null unterbricht die Unabhängigkeitsstruktur, es geht jedoch nicht alles verloren. ( 2 ) Im Wesentlichen wenden Sie die multivariate Delta-Methode an. Beachten Sie, dass dies nicht die Existenz des Mittelwerts von , sodass es sauberer (und richtiger) wird, wenn Sie diesen Weg gehen. F~n(t)ichY.ich=0F~n(t)
Kardinal

2
( 3 ) Punkt 4 in Ihrer Liste wird wie folgt behandelt. Beachten Sie, dassDer erste Term auf der rechten Seite, , lautetist also eindeutig . Sie müssen sich nur mit der Mittelfrist auseinandersetzen, aber das ergibt sich leicht aus Markovs Ungleichung, gefolgt von Jensens und ist auch .
supC[0,1]C|F~-F|sup[0,1]|F~-F~|+01|F~-EF~|+Ö(n-1).
{ichY.ich>0}|1-cn-1ichY.ich|Öp(n-1/2)Öp(n-1/2)
Kardinal

Sehr geehrter @user, es wäre hilfreich, wenn Sie Ihre Bemerkung näher erläutern würden, dass Sie den Fall nicht berücksichtigen . Sie beschreiben eine bedingte Stichprobenentnahme. Die Bedingung für ist nicht unabhängig (oder bedingt unabhängig), daher gilt die (implizite) Analyse in der Antwort nicht. Es kann hilfreich sein, den Fall dies zu sehen (zeichnen Sie einfach die Tabelle ). ichY.ich=0Y.ich{ichY.ich>0}n=22×2
Kardinal

Nebenbei sei angemerkt, dasskann diese Definition vereinfacht werden. supCC|F~-F|=01|F~-F|
Kardinal
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.