Wie erhalte ich ein Konfidenzintervall für ein Perzentil?

Ich habe eine Reihe von Rohdatenwerten, die Dollarbeträge sind, und ich möchte ein Konfidenzintervall für ein Perzentil dieser Daten finden. Gibt es eine Formel für ein solches Konfidenzintervall?

confidence-interval quantiles tolerance-interval

— Graphth
quelle

Antworten:

Diese Frage, die eine häufige Situation abdeckt, verdient eine einfache, nicht ungefähre Antwort. Zum Glück gibt es einen.

Angenommen, sind unabhängige Werte von einer unbekannten Verteilung deren Quantil I schreibt . Dies bedeutet, dass jedes eine Chance hat, dass (mindestens) kleiner oder gleich . Folglich hat die Anzahl von kleiner oder gleich ein Binomial $X_1, \ldots, X_n$ $F$ $q^\text{th}$ $F^{-1}(q)$ $X_i$ $q$ $F^{-1}(q)$ $X_i$ $F^{-1}(q)$ Verteilung. $(n,q)$

Motiviert durch diese einfache Überlegung schreiben Gerald Hahn und William Meeker in ihrem Handbuch Statistical Intervals (Wiley 1991)

Ein zweiseitiges verteilungsfreies konservatives -Konfidenzintervall für wird erhalten ... als $100(1-\alpha)\%$ $F^{-1}(q)$ $[X_{(l)}, X_{(u)}]$

wobei die Ordnungsstatistik der Stichprobe ist. Sie fahren fort zu sagen $X_{(1)}\le X_{(2)}\le \cdots \le X_{(n)}$

Man kann ganze Zahlen symmetrisch (oder nahezu symmetrisch) um und so nah wie möglich beieinander wählen , abhängig von den Anforderungen, dass $0 \le l \le u \le n$ $q(n+1)$
$\begin{matrix} (1) & B (u - 1; n, q) - B (l - 1; n, q) \geq 1 - α . \end{matrix}$ $B(u-1;n,q) - B(l-1;n,q) \ge 1-\alpha.\tag{1}$

Der Ausdruck links ist die Wahrscheinlichkeit, dass eine Binomialvariable einen der Werte . Offensichtlich ist dies die Wahrscheinlichkeit, dass die Anzahl der Datenwerte , die innerhalb der unteren der Verteilung liegen, weder zu klein (kleiner als ) noch zu groß ( oder größer) ist. $(n,q)$ $\{l, l+1, \ldots, u-1\}$ $X_i$ $100q\%$ $l$ $u$

Hahn und Meeker folgen mit einigen nützlichen Bemerkungen, die ich zitieren werde.

Das vorhergehende Intervall ist konservativ, da das tatsächliche Konfidenzniveau, das durch die linke Seite von Gleichung ist, größer als der angegebene Wert . ... $(1)$ $1-\alpha$

Es ist manchmal unmöglich, ein verteilungsfreies statistisches Intervall zu erstellen, das mindestens das gewünschte Konfidenzniveau aufweist. Dieses Problem ist besonders akut, wenn Perzentile im Schwanz einer Verteilung aus einer kleinen Stichprobe geschätzt werden. ... In einigen Fällen kann der Analyst dieses Problem lösen, indem er und unsymmetrisch wählt. Eine andere Alternative kann darin bestehen, ein reduziertes Konfidenzniveau zu verwenden. $l$ $u$

$n=100$ $100(1-\alpha)=95\%$ $q=0.90$ $l=85$ $u=97$

$95.3\%$ $95\%$

$81$

\begin{matrix} 1.49 & 1.66 & 2.05 & \dots & 24.33 & 24.72 & 25.46 & 25.67 & 25.77 & 26.64 \\ 28.28 & 28.28 & 29.07 & 29.16 & 31.14 & 31.83 & 33.24 & 37.32 & 53.43 & 58.11 \end{matrix}

$\matrix{ 1.49&1.66&2.05&\ldots&\mathbf {24.33}&24.72&25.46&25.67&25.77&26.64\\ 28.28&28.28&29.07&29.16&31.14&31.83&\mathbf{33.24}&37.32&53.43&58.11}$

$85^\text{th}$ $24.33$ $97^\text{th}$ $33.24$ $[24.33, 33.24]$

$95\%$ $90^\text{th}$ $33.24$ $97$ $100$ $90^\text{th}$ $24.33$ $84$ $90^\text{th}$ $90^\text{th}$

$l$ $u$ $l$ $u$ $2$ R

Die mittlere Simulationsabdeckung betrug 0,9503; Die erwartete Abdeckung beträgt 0,9523

Die Übereinstimmung zwischen Simulation und Erwartung ist hervorragend.

#
# Near-symmetric distribution-free confidence interval for a quantile `q`.
# Returns indexes into the order statistics.
#
quantile.CI <- function(n, q, alpha=0.05) {
  #
  # Search over a small range of upper and lower order statistics for the 
  # closest coverage to 1-alpha (but not less than it, if possible).
  #
  u <- qbinom(1-alpha/2, n, q) + (-2:2) + 1
  l <- qbinom(alpha/2, n, q) + (-2:2)
  u[u > n] <- Inf
  l[l < 0] <- -Inf
  coverage <- outer(l, u, function(a,b) pbinom(b-1,n,q) - pbinom(a-1,n,q))
  if (max(coverage) < 1-alpha) i <- which(coverage==max(coverage)) else
    i <- which(coverage == min(coverage[coverage >= 1-alpha]))
  i <- i[1]
  #
  # Return the order statistics and the actual coverage.
  #
  u <- rep(u, each=5)[i]
  l <- rep(l, 5)[i]
  return(list(Interval=c(l,u), Coverage=coverage[i]))
}
#
# Example: test coverage via simulation.
#
n <- 100      # Sample size
q <- 0.90     # Percentile
#
# You only have to compute the order statistics once for any given (n,q).
#
lu <- quantile.CI(n, q)$Interval
#
# Generate many random samples from a known distribution and compute 
# CIs from those samples.
#
set.seed(17)
n.sim <- 1e4
index <- function(x, i) ifelse(i==Inf, Inf, ifelse(i==-Inf, -Inf, x[i]))
sim <- replicate(n.sim, index(sort(rnorm(n)), lu))
#
# Compute the proportion of those intervals that cover the percentile.
#
F.q <- qnorm(q)
covers <- sim[1, ] <= F.q & F.q <= sim[2, ]
#
# Report the result.
#
message("Simulation mean coverage was ", signif(mean(covers), 4), 
        "; expected coverage is ", signif(quantile.CI(n,q)$Coverage, 4))

— whuber
quelle

Ableitung

$\tau$ $q_\tau$ $X$ $F_X^{-1}(\tau)$ $\hat{q}_\tau = \hat{F}^{-1}(\tau)$

$\sqrt{n}(\hat{q}_\tau - q_\tau)$

Erstens brauchen wir die asymptotische Verteilung des empirischen cdf.

$\hat{F}(x) = \frac{1}{n} \sum 1\{X_i < x\}$ $1\{X_i < x\}$ $P(X_i < x) = F(x)$ $F(x)(1-F(x))$

$\sqrt{n}(\hat{F}(x) - F(x)) \rightarrow N(0, F(x)(1-F(x))) \qquad (1)$

Da Inverse eine stetige Funktion ist, können wir die Delta-Methode verwenden.

$\sqrt{n}(\overline{y} - \mu_y) \rightarrow N(0,\sigma^2)$ $g(\cdot)$ $\sqrt{n}(g(\overline{y}) - g(\mu_y)) \rightarrow N(0, \sigma^2 (g'(\mu_y))^2)$

$x=q_\tau$ $g(\cdot) = F^{-1}(\cdot)$

$\sqrt{n}(F^{-1}(\hat{F}(q_\tau)) - F^{-1}(F(q_\tau))) = \sqrt{n}(\hat{q}_\tau - q_\tau)$

$F^{-1}(\hat{F}(q_\tau)) \neq \hat{F}^{-1}(\hat{F}(q_\tau)) = \hat{q}_\tau$

Wenden Sie nun die oben erwähnte Delta-Methode an.

$\frac{\textrm{d}}{\textrm{d}x} F^{-1}(x) = \frac{1}{f(F^{-1}(x))}$

$\sqrt{n}(\hat{q}_\tau - q_\tau) \rightarrow N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(F^{-1}(F(q_\tau)))^2}\right) = N\left(0, \frac{F(q_\tau)(1-F(q_\tau))}{f(q_\tau)^2}\right)$

Um das Konfidenzintervall zu konstruieren, müssen wir dann den Standardfehler berechnen, indem wir Beispielgegenstücke für jeden der Begriffe in der obigen Varianz einfügen:

Ergebnis

$se(\hat{q}_\tau) = \sqrt{\frac{\hat{F}(\hat{q}_\tau)(1-\hat{F}(\hat{q}_\tau))}{n \hat{f}(\hat{q}_\tau)^2}} =$ $\sqrt{\frac{\tau (1 - \tau)}{n \hat{f}(\hat{q}_\tau)^2}}$

$CI_{0.95}(\hat{q}_\tau) = \hat{q}_\tau \pm 1.96 se(\hat{q}_\tau)$

$X$

— bmciv
quelle

Könnten Sie Ihre Antwort mit Inhalten aus dem verlinkten Artikel erweitern? Links funktionieren möglicherweise nicht für immer und dann wird diese Antwort weniger nützlich

— Andy

Was ist der Vorteil dieses asymptotischen Ergebnisses auf der Grundlage von Dichteschätzungen im Vergleich zu der Verteilung, die auf der Binomialverteilung basiert?

— Michael M

Basiert dies immer noch auf dem Artikel, den Sie ursprünglich verlinkt haben ?

— Nick Stauner

Ja, sollte ich diesen Link wieder hinzufügen? Ich denke, das ist ein bekanntes Ergebnis. Ich habe es schon im Unterricht gesehen und es ist nicht schwer mit Google zu finden. Ist es in einem solchen Fall besser, eine Verknüpfung herzustellen oder sie einzugeben oder beides?

— Bmciv

Ich würde beides sagen, und dass Sie es wieder bearbeiten sollten, wenn dies aus Gründen der korrekten Zuordnung vollständig daraus zitiert / abgeleitet wird. Andernfalls spielt es möglicherweise keine Rolle, ob Sie es bearbeiten, aber im Allgemeinen besteht die Stack Exchange-Richtlinie darin, nur Link-Antworten zu unterbinden, um Link-Rot zu vermeiden, und zwar aus Prinzip (die Idee ist, ein unabhängiges Repository zu sein, kein Link-Index - aber Ich bin mir nicht sicher, wie viel von diesem Szenario mehr ist als ein imaginärer "rutschiger Hang".

— Nick Stauner