Zusammenfassung
Wenn Sie wenig oder gar nichts über das wahre Wahrscheinlichkeitsgesetz annehmen und wenig daraus schließen können - was bei kleinen Stichproben von Beobachtungen der Fall ist -, bildet ein geeignet ausgewähltes Paar von Ordnungsstatistiken ein Konfidenzintervall für den Median. Welche Ordnungsstatistik zu wählen ist, kann mit einer schnellen Analyse der Binomialverteilung leicht gefunden werden . In der Praxis müssen einige Entscheidungen getroffen werden: Diese werden am Ende dieses Beitrags erörtert und veranschaulicht.( n , 1 / 2 )n(n,1/2)
Im Übrigen kann dieselbe Analyse verwendet werden, um Konfidenzintervalle für jedes Quantil zu konstruieren (von denen der Median, der , ein Beispiel ist). Die Binomialverteilung in diesem Fall die Lösung.q = 50 % ( n , q )qq=50%(n,q)
Einführung
Denken Sie daran, was ein Konfidenzintervall (CI) bedeutet. Die Einstellung ist eine unabhängige Zufallsstichprobe wobei jedes von derselben Verteilung . Es wird nur angenommen, dass ein Element einer Menge möglicher Verteilungen ist. Jeder von ihnen hat einen Median . Für jedes feste zwischen und ist ein CI der Stufe ein Funktionspaar (auch "Statistik" genannt), und , so dassX i F F Ω F 1 / 2 α 0 1 α L UX=(X1,X2,…,Xn)XiFFΩF1/2α01αLU
PrF(L(X)≤F1/2≤U(X))≥1−α.
Die rechte Seite ist die Abdeckung des CI für die Verteilung .F
Abgesehen davon: Damit dies nützlich ist, bevorzugen wir auch, dass (1) das Infimum der Bedeckungen über so klein wie möglich ist und (2) die erwartete Länge des Intervalls sollte dazu neigen, für alle oder "die meisten" .F∈ΩEF(U(X)−L(X))F∈Ω
Analyse
Angenommen, wir nehmen nichts über . Ω In dieser Situation können wir die Auftragsstatistik weiterhin nutzen . Dies sind die spezifischen Werte in der sortierten Stichprobe. Um die Notation zu vereinfachen, sortieren wir das Sample ein für alle Mal, damit
X1≤X2≤⋯≤Xn.
Der Wert ist die Ordnungsstatistik der Stichprobe. Da wir nichts über annehmen , wissen wir zunächst nichts über , so dass wir nicht viel über die wahrscheinlichen Intervalle zwischen jedem und seinem Nachbarn . Wir können jedoch immer noch quantitativ über die einzelnen Werte nachdenken: Wie ist die Wahrscheinlichkeit, dass den Median von nicht überschreitet ? Um dies herauszufinden, sei eine Zufallsvariable, die von regiert wird , und seiXiithΩFXiXi+1XiFYF
πF=PrF(Y≤F1/2)
sei die Chance, dass den Median von nicht überschreitet . Wenn dann , wissen wir (seit ), dass unsere ursprüngliche ungeordnete Stichprobe von Werten mindestens Werte enthalten muss, die nicht überschreiten. .YFXi≤F1/2X1≤⋯≤Xi≤F1/2niF1/2
Dies ist ein Binomialproblem. Wenn wir die Zufallsvariable so definieren , dass sie gleich wenn und andernfalls , zeigt das Vorstehende, dass eine Bernoulli-Verteilung mit dem Parameter . Ein "Erfolg" besteht darin, einen Wert am oder unter dem Median zu beobachten. Daher ist durch die Binomialwahrscheinlichkeit gegeben, die mit weniger als Erfolgen verbunden ist:Z1Y≤F1/20ZπFPr(Xi>F1/2)i
Pr(Xi>F1/2)=∑j=0i−1(nj)πjF(1−πF)n−j.
Sie haben wahrscheinlich bemerkt, dass . Tatsächlich sind für viele Verteilungen die beiden Werte gleich: Sie unterscheiden sich nur, wenn dem Median eine positive Wahrscheinlichkeit zuweist . Um den Unterschied zu analysieren, schreiben Sie für . Für impliziert diesπF≥1/2FF1/2πF=1/2+εε≥02(j−1)≤n
πjF(1−πF)n−j=(1/2+ε)j(1/2−ε)n−j=(1/2+ε)j[(1/2−ε)j(1/2−ε)n−2j]=(1/4−ε2)j(1/2−ε)n−2j≤(1/4)j(1/2)n−2j=2−n.
Wenn also , können wir die Abhängigkeit der Summe von auf Kosten des Ersetzens der Gleichheit durch eine Ungleichung beseitigen:2(i−1)≤nF
Pr(Xi>F1/2)≤2−n∑j=0i−1(nj).
Genau das gleiche Argument (angewendet durch Umkehren der Ordnungsstatistik) zeigt, dass wenn ,2(i+1)≥n
Pr(Xi<F1/2)≤2−n∑j=i+1n(nj).
Die rechten Seiten werden immer dann auf Null reduziert, wenn (im ersten Fall) oder (im zweiten Fall ). Daher ist es immer möglich , Indizes zu finden , für diei≤0i≥nl≤u
Pr(Xl>F1/2 or Xu<F1/2)=Pr(Xl>F1/2)+Pr(Xu<F1/2)≤2−n(∑j=0l−1(nj)+∑j=u+1n(nj)).
Lösung
Dies ist die Ergänzung der definierenden Bedingung für ein Konfidenzintervall und daher äquivalent dazu:
Pr(Xl≤F1/2≤Xu)≥2−n∑j=lu(nj).
Durch Auswahl von , um die rechte Seite auf mindestens , haben wir ein Konfidenzintervallverfahren gefunden, dessen Pegel mindestens beträgt .l≤u1−α 1−α
Mit anderen Worten, bei Auswahl solcher Indizes und durch Setzen von und ist das Intervall ein CI für den Median mit einer Abdeckung von mindestens . Sie können die tatsächliche Abdeckung anhand der Binomialwahrscheinlichkeiten berechnen. Diese Abdeckung wird für jede Verteilung die (die alle kontinuierlichen Verteilungen enthält) eine Wahrscheinlichkeit von Null zuweist . Es wird von jedem überschritten , das Wahrscheinlichkeit ungleich Null zuweist .luL(X)=XlU(X)=Xu[L(X),U(X)]F1/21−αFF1/2FF1/2
Diskussion
An diesem Punkt haben wir einige Möglichkeiten. Am gebräuchlichsten ist es, die Grenzen symmetrisch zu machen, indem relativ nahe an . Tatsächlich können durch Festlegen von die Konfidenzgrenzen für jedes mit einer schnellen Suche oder durch Anwenden der Binomialquantilfunktion gefunden werden.un+1−lu=n+1−ln
Zum Beispiel sei und (um eine CI-Prozedur zu veranschaulichen ). Lassen Sie uns den unteren Teil der kumulativen Binomialverteilung mit den Parametern und :n=10α=10%1−α=90%101/2
> i <- 0:5; names(i) <- i; print(pbinom(i, 10, 1/2), digits=1)
0 1 2 3 4 5
0.001 0.011 0.055 0.172 0.377 0.623
(Dies ist ein R
Befehl und seine Antwort.) Da der Wert bei , der , nahe bei , ist es verlockend, und , z dann beträgt die Abdeckung was nahe am Ziel von . Wenn Sie die gewünschte Abdeckung erreichen müssen , müssen Sie und oder und , beide mit einer Abdeckung von .25.5%α/2l=3u=10+1−3=81−0.055−0.055=0.8990%l=2u=8l=3u=91−0.011−.055=0.935
Lassen Sie uns zur Überprüfung viele Datensätze aus jeder Verteilung simulieren, diese CIs für die Datensätze berechnen und den Anteil der CIs berechnen, die den wahren Median abdecken. In diesem R
Beispiel wird eine Normalverteilung verwendet:
n <- 10
n.sim <- 1e4
x <- apply(matrix(rnorm(n*n.sim), nrow=n), 2, sort)
covers <- function(x, l, u) mean(x[l, ] <= 0 & x[u, ] >= 0)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
Die Ausgabe ist
l3.u8 l2.u8 l3.u9
0.8904 0.9357 0.9319
Die Deckungen stimmen eng mit den theoretischen Werten überein.
Als weiteres Beispiel ziehen wir Stichproben aus einer diskreten Verteilung, z. B. einem Poisson:
lambda <- 2
x <- apply(matrix(rpois(n*n.sim, 2), nrow=n), 2, sort)
med <- round(lambda + 1/3 - 0.02/lambda)
c(l3.u8=covers(x,3,8), l2.u8=covers(x,2,8), l3.u9=covers(x,3,9))
l3.u8 l2.u8 l3.u9
0.9830 0.9845 0.9964
Diesmal sind die Deckungen viel höher als erwartet. Der Grund dafür ist , dass es eine Chance , dass ein Zufallswert ist gleich dem Median. Dies erhöht die Wahrscheinlichkeit, dass der CI den Median abdeckt, erheblich. Dies ist kein Problem oder Paradoxon. Per Definition muss die Abdeckung mindestens betragen, unabhängig von der Verteilung - aber es ist möglich (wie in diesem Fall), dass die Abdeckung für bestimmte Verteilungen wesentlich größer als .27%1−αF1−α
Darin liegt der Kompromiss: Wenn Sie nichts über annehmen , ist das auf Auftragsstatistiken basierende CI das einzige, das Sie erstellen können. Die Abdeckung für Ihr wahres (aber unbekanntes) möglicherweise etwas höher als erwartet. Das bedeutet, dass Ihr CI breiter ist, als wenn Sie einige stärkere Annahmen über indem Sie die Möglichkeiten für .FFΩF