Eine unvoreingenommene Schätzung des Medians

Angenommen, wir haben eine Zufallsvariable $X$ die von $[0,1]$ aus der wir Stichproben ziehen können. Wie können wir eine unvoreingenommene Schätzung des Medians von $X$ erstellen?

Wir können natürlich einige Stichproben generieren und den Stichprobenmedian nehmen, aber ich verstehe, dass dies im Allgemeinen nicht unvoreingenommen sein wird.

Hinweis: Diese Frage ist mit meiner letzten Frage verwandt, aber nicht identisch. In diesem Fall konnte $X$ nur ungefähr abgetastet werden.

sampling

— Robinson
quelle

Antworten:

Einen solchen Schätzer gibt es nicht.

Die Intuition ist, dass der Median fest bleiben kann, während wir die Wahrscheinlichkeitsdichte auf beiden Seiten frei verschieben, sodass jeder Schätzer, dessen Durchschnittswert der Median für eine Verteilung ist, einen anderen Durchschnitt für die geänderte Verteilung hat, wodurch er verzerrt wird. Die folgende Darstellung verleiht dieser Intuition etwas mehr Genauigkeit.

Wir konzentrieren uns auf Verteilungen mit einzigartigen Mediane , so dass per Definition und $F$ $m$ $F(m) \ge 1/2$ für alle . Legen Sie eine Stichprobengröße und nehmen Sie an, dass $F(x) \lt 1/2$ $x \lt m$ $n \ge 1$ schätzt. (Es wird ausreichen, dass $t: [0,1]^n \to [0,1]$ $m$ $t$ nur begrenzt sein, aber normalerweise werden Schätzer, die offensichtlich unmögliche Werte liefern, nicht ernsthaft in Betracht gezogen.) Wir machen keine Annahmen über ; es muss nicht einmal überall durchgehend sein. $t$

Die Bedeutung von als unverzerrt (für diese feste Stichprobengröße) ist die folgende $t$

E_{F} [t (X_{1}, \dots, X_{n})] = m

$E_F[t(X_1, \ldots, X_n)] = m$

für jede iid Probe mit . Ein „unverzerrter Schätzer“ ist ein mit dieser Eigenschaft für alle solche . $X_i \sim F$ $t$ $F$

Angenommen, ein unvoreingenommener Schätzer existiert. Wir werden einen Widerspruch herleiten, indem wir ihn auf eine besonders einfache Menge von Distributionen anwenden. Betrachten Sie Verteilungen mit folgenden Eigenschaften: $F = F_{x,y,m, \varepsilon}$

; $0 \le x \lt y \le 1$
; $0 \lt \varepsilon \lt (y-x)/4$
; ;; $x + \varepsilon \lt m \lt y - \varepsilon$
; ; $\Pr(X = x) = \Pr(X = y) = (1-\varepsilon)/2$
; ;und $\Pr(m-\varepsilon \le X \le m+\varepsilon) = \varepsilon$
ist einheitlich auf $F$ . $[m-\varepsilon, m+\varepsilon]$

Diese Verteilungen platzieren die Wahrscheinlichkeit bei jedem von und und einen winzigen Betrag der Wahrscheinlichkeit, der symmetrisch um zwischen und . Dies macht zum einzigartigen Median von $(1-\varepsilon)/2$ $x$ $y$ $m$ $x$ $y$ $m$ . (Wenn Sie befürchten, dass dies keine kontinuierliche Verteilung ist, falten Sie sie mit einem sehr engen Gaußschen Wert zusammen und kürzen Sie das Ergebnis auf : Das Argument ändert sich nicht.) $F$ $[0,1]$

Für jeden vermuteten Medianschätzer zeigt eine einfache Schätzung, dass genau innerhalb von des Durchschnitts der Werte $t$ $E[t(X_1, X_2, \ldots, X_n)]$ $\varepsilon$ $2^n$ wobei über alle möglichen Kombinationen von und variiert. Wir können jedoch variieren $t(x_1, x_2, \ldots, x_n)$ $x_i$ $x$ $y$ $m$ zwischen ; und ; eine Änderung von mindestens , für die diese Erwartung nicht gleich dem Median QED ist. $x + \varepsilon$ $y - \varepsilon$ (aufgrund der Bedingungen 2 und 3). Es existiert also ein und daher eine entsprechende Verteilung $\varepsilon$ $m$ $F_{x,y,m,\varepsilon}$

— whuber
quelle

(+1) Netter Beweis. Hast du es dir ausgedacht oder ist es etwas, an das du dich von der Graduiertenschule erinnert hast?

— StasK

Hier ist ein weiterer Beweis: Die meisten Bernoulli-Zufallsvariablen haben den Median

oder

. Die Schätzung aus

Versuchen hängt nur von den Durchschnittswerten des Schätzers für die Eckpunkte von

mit

, und die Gewichtung dieser Durchschnittswerte ist ein Polynom in

des Grades

. Wenn dies ein unverzerrter Schätzer ist, muß es Mittelwert hat

für jeden

, und es gibt mehr als

solche Werte von

0

$0$

1

$1$

n

$n$

[0, 1]^{n}

$[0,1]^n$

k

$k$

p

$p$

n

$n$

1

$1$

p > 1 / 2

$p \gt 1/2$

n + 1

$n+1$

p

$p$ , also muss dieses Polynom konstant sein ... aber es muss bei niedrigeren Werten von

, damit es auch dort nicht vorurteilsfrei sein kann.

0

$0$

p

$p$

— Douglas Zare

@Douglas Das ist ein toller Beweis. Ich vermute, dass einige Leute sich über den Umfang der Anwendbarkeit ein wenig unwohl fühlen, da der Median für eine Bernoulli-Variable etwas Besonderes ist und mit einem ihrer beiden Stützpunkte zusammenfällt (außer wenn

). Die Leser könnten versucht sein, dies als "pathologisch" zu bezeichnen und zu versuchen, solche Monster zu blockieren, indem sie nur kontinuierliche Verteilungen mit überall positiven Dichten in ihren Domänen betrachten. Deshalb habe ich darauf geachtet zu zeigen, dass solche Bemühungen scheitern werden.

p = 1 / 2

$p=1/2$

— Whuber

Es wäre schwierig, einen unvoreingenommenen Schätzer ohne ein parametrisches Modell zu finden! Sie können jedoch Bootstrapping verwenden und damit den empirischen Median korrigieren, um einen ungefähr unvoreingenommenen Schätzer zu erhalten.

— kjetil b halvorsen
quelle

Wenn dies unmöglich ist, ist es möglich, es zu beweisen? Wenn zum Beispiel

unabhängige Abtastwerte von

kann man dann beweisen, dass

für keine Wahl von

X_{1}, X_{2}, \dots, X_{n}

$X_1, X_2, \ldots, X_n$

X

$X$

f (X_{1}, \dots, X_{n})

$f(X_1, \ldots, X_n)$

f

$f$

— Robinson

Ich denke, kjetil sagt, dass es in einem nichtparametrischen Framework keine Methode gibt, die eine unvoreingenommene Schätzung für jede mögliche Verteilung liefert. Aber im parametrischen Rahmen könnten Sie wahrscheinlich. Durch Bootstrapping einer verzerrten Beispielschätzung können Sie die Verzerrung abschätzen und anpassen, um eine nahezu unbefangene Bootstrap-Schätzung zu erhalten. Das war sein Vorschlag, um das Problem im nichtparametrischen Rahmen zu behandeln. Es wäre auch schwierig zu beweisen, dass eine unvoreingenommene Schätzung nicht möglich ist.

— Michael R. Chernick

Wenn Sie wirklich versuchen wollen, zu beweisen, dass es keinen unvoreingenommenen Schätzer gibt, dann gibt es ein Buch, Ferguson: "Mathematische Statistik - Ein entscheidungstheoretischer Ansatz", in dem es einige Beispiele dafür gibt!

— kjetil b halvorsen

Ich stelle mir vor, dass die Regelmäßigkeitsbedingungen für den Bootstrap mit den Verteilungsfunktionen verletzt werden, die Whuber in seiner Antwort berücksichtigt. Michael, kannst du einen Kommentar abgeben?

— StasK

@Stas Wie ich bereits erwähnt habe, können meine Funktionen durch Besänftigen sehr "schön" aussehen. Sie können auch auf Mollifikationen großer endlicher Atommischungen verallgemeinert werden. Die Klasse solcher Verteilungen ist in allen Verteilungen im Einheitsintervall dicht, daher glaube ich nicht, dass die Regelmäßigkeit des Bootstraps hier eine Rolle spielt.

— whuber

$Y = \alpha + u$ $\text{med}(y) = \text{med}(\alpha + u) = \alpha + \text{med}(u)$ $\alpha$ $\text{med}(u) = 0$ was wahr sein sollte, solange Sie unabhängige Draws haben. Was die Unparteilichkeit angeht, weiß ich es nicht. Mediane sind schwierig.

— Francis
quelle

Siehe @ Whubers Antwort

— Peter Flom - Reinstate Monica