KOPFGELD:
Das volle Kopfgeld wird an jemanden vergeben, der einen Verweis auf ein veröffentlichtes Papier bereitstellt, in dem der unten stehende Schätzer verwendet oder erwähnt wird.
Motivation:
Dieser Abschnitt ist wahrscheinlich nicht wichtig für Sie und ich vermute, er wird Ihnen nicht dabei helfen, das Kopfgeld zu erhalten. Da jedoch jemand nach der Motivation gefragt hat, arbeite ich an folgenden Themen.
Ich arbeite an einem Problem der statistischen Graphentheorie. Das Standard-Dichtegraph-Grenzobjekt ist eine symmetrische Funktion im Sinne von . Abtasten eines Graphen auf Vertices kann man sich als Abtastung einheitliche Werte auf dem Einheitsintervall ( für ) , und dann ist die Wahrscheinlichkeit einer Kante ist . Lassen Sie die resultierende Adjazenzmatrix genannt werden .
Wir können als Dichte f = W / \ iint W behandeln, wenn \ iint W> 0 ist . Wenn wir f basierend auf A ohne Einschränkungen für f schätzen, können wir keine konsistente Schätzung erhalten. Ich fand ein interessantes Ergebnis zur konsistenten Schätzung von f, wenn f aus einer beschränkten Menge möglicher Funktionen stammt. Aus diesem Schätzer und \ sum A können wir W schätzen .
Leider zeigt die Methode, die ich gefunden habe, Konsistenz, wenn wir die Verteilung mit der Dichte . Die Art und Weise, wie konstruiert wird, setzt voraus, dass ich ein Punktegitter abtaste (im Gegensatz zum Zeichnen aus dem Original ). In dieser Statistik. SE Frage frage ich nach dem eindimensionalen (einfacheren) Problem, was passiert, wenn wir nur Probe Bernoullis auf einem Gitter wie diesem abtasten können, anstatt tatsächlich direkt von der Verteilung abzutasten.A f
Referenzen für Grafikgrenzen:
L. Lovasz und B. Szegedy. Grenzen dichter Graphsequenzen ( arxiv ).
C. Borgs, J. Chayes, L. Lovasz, V. Sos und K. Vesztergombi. Konvergente Sequenzen dichter Graphen i: Subgraph-Frequenzen, metrische Eigenschaften und Tests. ( arxiv ).
Notation:
Betrachten Sie eine kontinuierliche Verteilung mit cdf und pdf die das Intervall positiv stützenf F sup z ∈ [ 0 , 1 ] f ( z ) = c < ∞ f [ 0 , 1 ] X ∼ F X F U i [ 0 , . Nehmen wir an, hat keine Punktmasse, ist überall differenzierbar und auch, dass das Supremum von im Intervall . Es sei , dass die Zufallsvariable aus der Verteilung abgetastet wird . sind einheitliche Zufallsvariablen zu .
Problem eingerichtet:
Oft können wir Zufallsvariablen mit der Verteilung und mit der üblichen empirischen Verteilungsfunktion wie folgt arbeiten : wobei die Indikatorfunktion ist. Beachten Sie, dass diese empirische Verteilung selbst zufällig ist (wobei festgelegt ist). F FI F n(t)t
Leider kann ich keine Samples direkt aus . Ich weiß jedoch, dass nur auf positive Unterstützung hat.Y 1 , ... , Y n Y i p i = f ( ( i - 1 + U i ) / n ) / c c U i Y i ~ Bern ( p i ) , F Y i ~ F n ( t ) = 1 , und ich kann Zufallsvariablen wobei eine Zufallsvariable mit einer Bernoulli-Verteilung mit Erfolgswahrscheinlichkeit ist. wobei und wie oben definiert sind. Also, . Ein offensichtlicher Weg, wie ich aus diesen Werten abschätzen könnte , besteht darin, wo
Fragen:
Von (was ich denke sollte) am einfachsten bis am schwierigsten.
Weiß jemand, ob diese (oder etwas ähnliches) einen Namen hat? Können Sie eine Referenz angeben, in der ich einige seiner Eigenschaften sehen kann?
Als , ist ein konsistenter Schätzer von (und können Sie es beweisen)?˜ F n ( t )
Was ist die einschränkende Verteilung von als ?
Im Idealfall möchte ich Folgendes als Funktion von - z. B. , aber ich weiß nicht, was die Wahrheit ist. Das steht für Big O in WahrscheinlichkeitO P (
Einige Ideen und Hinweise:
Dies ähnelt weitgehend einer Akzeptanz-Ablehnungs-Stichprobe mit einer gitterbasierten Schichtung. Beachten Sie, dass dies nicht der Fall ist, da wir dort kein weiteres Muster ziehen, wenn wir den Vorschlag ablehnen.
Ich bin mir ziemlich sicher ~ F * n(t)=c voreingenommen ist. Ich denke, die Alternative ist unvoreingenommen, hat aber die unangenehme Eigenschaft, dass .P( ~ F * (1)=1)<1
Ich möchte als Plug-in-Schätzer verwenden . Ich denke nicht, dass dies nützliche Informationen sind, aber vielleicht wissen Sie aus irgendeinem Grund, warum es sein könnte.
Beispiel in R
Hier ist ein R-Code, mit dem Sie die empirische Verteilung vergleichen möchten . Tut mir leid, ein Teil der Einrückung stimmt nicht ... Ich kann das nicht beheben.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
EDITS:
EDIT 1 -
Ich habe dies bearbeitet, um @ whubers Kommentare zu adressieren.
EDIT 2 -
Ich habe R-Code hinzugefügt und ein bisschen mehr aufgeräumt. Ich habe die Schreibweise aus Gründen der Lesbarkeit leicht geändert, aber im Wesentlichen ist es dasselbe. Ich habe vor, sobald es mir erlaubt ist, ein Kopfgeld dafür zu erheben. Bitte lassen Sie mich wissen, wenn Sie weitere Klarstellungen wünschen.
EDIT 3 -
Ich glaube, ich habe @ cardinals Bemerkungen angesprochen. Ich habe die Tippfehler in der Gesamtvariante behoben. Ich füge ein Kopfgeld hinzu.
EDIT 4 -
Es wurde ein Abschnitt "Motivation" für @ cardinal hinzugefügt.