Minimiert ein Median-unvoreingenommene-Schätzer die mittlere absolute Abweichung?

Dies ist eine Folgefrage, aber auch eine andere Frage als meine vorherige .

Ich habe auf Wikipedia gelesen, dass " ein median-unverzerrter Schätzer das Risiko in Bezug auf die von Laplace beobachtete absolute Abweichungsverlustfunktion minimiert ". Meine Monte-Carlo-Simulationsergebnisse stützen dieses Argument jedoch nicht.

Ich gehe davon aus einer Probe aus einem log-normalen Bevölkerung, , wobei und der log-Mittelwert und log-sd sind, $X_1,X_2,...,X_N \sim \mbox{LN}(\mu,\sigma^2)$ $\mu$ $\sigma$ $\beta = \exp(\mu)=50$

Der geometrische Mittelwertschätzer ist ein median-unverzerrter Schätzer für den Populationsmedian $\exp(\mu)$ .

wobeiundsind die log-log-Mittelwert und und die MLE fürund. $\hat{\beta}_{\mbox{GM}}= \exp(\hat{\mu})= \exp{(\sum\frac{\log(X_i)}{N})} \sim \mbox{LN}(\mu,\sigma^2/N)$ $\mu$ $\sigma$ $\hat\mu$ $\hat\sigma$ $\mu$ $\sigma$

Ein korrigierter Schätzer für den geometrischen Mittelwert ist ein Schätzer für den mittleren Bevölkerungswert.

$\hat{\beta}_{\mbox{CG}}= \exp(\hat{\mu}-\hat\sigma^2/2N)$

Ich generiere wiederholt Samples der Größe 5 aus dem LN . Die Replikationsnummer ist 10.000. Die durchschnittlichen absoluten Abweichungen, die ich erhalten habe, sind 25,14 für den Schätzer des geometrischen Mittels und 22,92 für den korrigierten geometrischen Mittelwert. Warum? $(\log(50),\sqrt{\log(1+2^2)})$

Übrigens betragen die geschätzten absoluten Abweichungen im Median 18,18 für den geometrischen Mittelwert und 18,58 für den korrigierten geometrischen Mittelwertschätzer.

Das verwendete R-Skript ist hier:

#```{r stackexchange}
#' Calculate the geomean to estimate the lognormal median.
#'
#' This function Calculate the geomean to estimate the lognormal
#' median.
#'
#' @param x a vector.
require(plyr)
GM <- function(x){
    exp(mean(log(x)))
}
#' Calculate the bias corrected geomean to estimate the lognormal
#' median.
#'
#' This function Calculate the bias corrected geomean using the
#' variance of the log of the samples, i.e., $\hat\sigma^2=1/(n-1)
# \Sigma_i(\Log(X_i)-\hat\mu)^2$
#'
#' @param x a vector.
BCGM <- function(x){
y <- log(x)
exp(mean(y)-var(y)/(2*length(y)))
}
#' Calculate the bias corrected geomean to estimate the lognormal
#' median.
#'
#' This function Calculate the bias corrected geomean using
#' $\hat\sigma^2=1/(n)\Sigma_i(\Log(X_i)-\hat\mu)^2$
#'
#' @param x a vector.
CG <- function(x){
y <- log(x)
exp(mean(y)-var(y)/(2*length(y))*(length(y)-1)/length(y))
}

############################

simln <- function(n,mu,sigma,CI=FALSE)
{
    X <- rlnorm(n,mu,sigma)
    Y <- 1/X
    gm <- GM(X)
    cg <- CG(X)
    ##gmk <- log(2)/GM(log(2)*Y) #the same as GM(X)
    ##cgk <- log(2)/CG(log(2)*Y)
    cgk <- 1/CG(Y)
    sm <- median(X)
    if(CI==TRUE) ci <- calCI(X)
    ##bcgm <- BCGM(X)
    ##return(c(gm,cg,bcgm))
    if(CI==FALSE) return(c(GM=gm,CG=cg,CGK=cgk,SM=sm)) else return(c(GM=gm,CG=cg,CGK=cgk,CI=ci[3],SM=sm))
}
cv <-2
mcN <-10000
res <- sapply(1:mcN,function(i){simln(n=5,mu=log(50),sigma=sqrt(log(1+cv^2)), CI=FALSE)})
sumres.mad <- apply(res,1,function(x) mean(abs(x-50)))
sumres.medad <- apply(res,1,function(x) median(abs(x-50)))
sumres.mse <- apply(res,1,function(x) mean((x-50)^2))
#```

#```{r eval=FALSE}
#> sumres.mad
      GM       CG      CGK       SM 
#25.14202 22.91564 29.65724 31.49275 
#> sumres.mse
      GM       CG      CGK       SM 
#1368.209 1031.478 2051.540 2407.218 
#```

— Zhenglei
quelle

1.) "10.000" ist zu klein für Ihre Frage - versuchen Sie "250.000" (oder mehr). 2.) Wenn Sie eine Monte-Carlo-Simulation ausführen und ein merkwürdiges Ergebnis erhalten, versuchen Sie, den Startwert mit zu ändern set.seed. 3.) Traue Wikipedia nicht immer - Kenntnis , wie Sie Ihren Text in Anführungszeichen (aus den „Median“ -Artikel) unterscheidet sich von diesem anderen Wikipedia - Artikel 4.) Ihr R - Code ein totales Durcheinander ist - Check - out Googles R Style Guide für einige gute stilrichtlinien.

— Steve S

Wenn wir einen Schätzer wählen $\alpha^+$ durch das Kriterium, dass es den erwarteten absoluten Fehler vom wahren Wert minimiert $\alpha$

$E=<|\alpha^+-\alpha|> = \int_{-\infty}^{\alpha^+} (\alpha^+-\alpha)f(\alpha) \mathrm{d}\alpha + \int^{\infty}_{\alpha^+} (\alpha-\alpha^+)f(\alpha)\mathrm{d}\alpha$

wir fordern

$\frac{dE}{d\alpha^+} = \int_{-\infty}^{\alpha^+} f(\alpha) \mathrm{d}\alpha - \int^{\infty}_{\alpha^+} f(\alpha) \mathrm{d}\alpha = 0$

das ist äquivalent zu $P(\alpha > \alpha^+) = 1/2$ . So $\alpha^+$ ist der gezeigte Median nach Laplace im Jahr 1774.

Wenn Sie Probleme mit R haben, stellen Sie es bitte in einer anderen Frage zu Stack Overflow

— Keith
quelle

Theoretisch halte ich es für richtig. Ich bin jedoch verwirrt über die R-Simulationsergebnisse, die diese Aussage nicht wie erwartet stützen.

— Zhenglei

Ich bin ein Data Scientist / Physiker, habe also noch nie eine Zeile von R gesehen. Wie ich in der Frage angedeutet habe, sollten Sie sie in Stack Overflow stellen, wenn es sich um ein Codeproblem handelt, und Sie werden viel mehr Aufmerksamkeit erhalten. Die obige Antwort ist jedoch richtig, es sei denn, Sie möchten näher erläutern, wie sie auf einen median-unverzerrten Schätzer verallgemeinert wird. Weitere Einzelheiten finden Sie auf Seite 172 von ET Jaynes Buch Probability theory ISBN 978-0-521-59271-0.

— Keith

Vielen Dank für Ihre Antwort. Es ist kein Codierungsproblem. Ich möchte nur Simulationen durchführen, um zu zeigen, dass ein median-unverzerrter Schätzer die erwartete absolute Abweichung minimiert. Ich habe die Antwort nicht akzeptiert, da ich hauptsächlich über den Simulationsschritt verwirrt bin. Ich habe es in R implementiert, aber Simulationen konnten in Matlab oder Python oder in einer anderen Sprache durchgeführt werden.

— Zhenglei

Ich vermute, das Problem ist, dass Sie es mit einer Näherung zu tun haben, die als N -> funktioniert

\infty

$\infty$ Sie haben aber 10.000 und 5, was beide kleine Zahlen sind. Vielleicht ist es besser, wenn Sie drei Fragen stellen. Warum ist es in der Theorie wahr, wenn N praktisch groß genug ist und wenn etwas mit Ihrem R-Code nicht stimmt? Ich antwortete auf die erste, die zweite ist weitgehend berechnend, aber es kann eine gute Faustregel für diesen speziellen Fall geben, und die dritte gehört zum Stapelüberlauf.

— Keith

@Keith Entschuldigung für meine schwache Mathematik, aber kannst du mehr Details darüber zeigen, wie du die Erwartung abgeleitet hast?

— AdamO