Erwarteter Wert des Stichprobenmedians bei gegebenem Stichprobenmittelwert


16

Lassen den Median bezeichnen und lassen das Mittel bezeichnet, eine Stichprobe der Größe aus einer Verteilung , das ist . Wie kann ich berechnen ?YX¯n=2k+1N(μ,σ2)E(Y|X¯=x¯)

Aufgrund der Normalitätsannahme ist es intuitiv sinnvoll zu behaupten, dass und dies ist in der Tat die richtige Antwort. Kann das konsequent gezeigt werden?E(Y|X¯=x¯)=x¯

Mein erster Gedanke war, dieses Problem unter Verwendung der bedingten Normalverteilung anzugehen, die im Allgemeinen ein bekanntes Ergebnis ist. Das Problem besteht darin, dass ich, da ich den erwarteten Wert und folglich die Varianz des Medians nicht kenne, diese unter Verwendung der Statistik Ordnung berechnen müsste. Aber das ist sehr kompliziert und ich würde lieber nicht dorthin gehen, wenn ich nicht unbedingt muss. k+1


2
Ich glaube, dies ist eine unmittelbare Folge der Verallgemeinerung, die ich gerade unter stats.stackexchange.com/a/83887 gepostet habe . Die Verteilung der Residuen eindeutig symmetrisch um , weshalb ihr Median eine symmetrische Verteilung hat, also der Mittelwert Null ist. Daher ist die Erwartung des Medians selbst (nicht nur der Residuen) gleich , QED. xix¯00+E(X¯ | X¯=x¯)=x¯
whuber

@whuber Sorry, Reste?
JohnK

Ich habe sie in meinem Kommentar definiert: Sie sind die Unterschiede zwischen jedem und ihrem Mittelwert. xi
Whuber

@whuber Nein, ich verstehe, aber ich arbeite immer noch daran zu verstehen, wie sich Ihre andere Antwort auf meine Frage bezieht und wie genau die Erwartung funktioniert, die Sie verwendet haben.
JohnK

2
@whuber Okay, dann korrigiere mich bitte. Wenn ich falsch liege, ist Und jetzt ist der zweite Term Null, weil der Median ist symmetrisch um ˉ x . Daher reduziert sich die Erwartung auf ˉ xE(Y|X¯)=E(X¯|X¯)+E(YX¯|X¯)x¯x¯
JohnK 30.01.14

Antworten:


7

Lassen bezeichnet die Originalprobe und Z den Zufallsvektor mit Einträgen Z k = X k - ˉ X . Dann ist Z normal zentriert (aber seine Einträge sind nicht unabhängig, wie aus der Tatsache ersichtlich ist, dass ihre Summe mit voller Wahrscheinlichkeit Null ist). Als lineare Funktion von X ist der Vektor ( Z , ˉ X ) normal, daher reicht die Berechnung seiner Kovarianzmatrix aus, um zu zeigen, dass Z unabhängig von ˉ X ist .XZZk=XkX¯ZX(Z,X¯)ZX¯

Mit Bezug auf , sieht man , dass Y = ˉ X + T , wo T der Median ist Z . Insbesondere hängt T nur von Z ab , daher ist T unabhängig von ˉ X , und die Verteilung von Z ist symmetrisch, daher ist T zentriert.YY=X¯+TTZTZTX¯ZT

Schließlich

E(YX¯)=X¯+E(TX¯)=X¯+E(T)=X¯.

Danke, das wurde vor fast einem Jahr gefragt und ich bin sehr froh, dass es endlich jemand geklärt hat.
JohnK

7

Der Stichprobenmedian ist eine Ordnungsstatistik und weist eine nicht normale Verteilung auf, sodass die gemeinsame Verteilung von Stichprobenmedian und Stichprobenmittelwert (die eine normale Verteilung aufweist) nicht bivariant normal wäre. Unter asymptotischer Berücksichtigung von Annäherungen gilt Folgendes (siehe meine Antwort hier ):

n[(X¯nYn)(μv)]LN[(00),Σ]

mit

Σ=(σ2E(|Xv|)[2f(v)]1E(|Xv|)[2f(v)]1[2f(v)]2)

Dabei ist der Stichprobenmittelwert und μ der Populationsmittelwert, Y n der Stichprobenmedian und v der Populationsmedian, f ( ) die Wahrscheinlichkeitsdichte der beteiligten Zufallsvariablen und σ 2 die Varianz. X¯nμYnvf()σ2

Ungefähr für große Proben ist ihre gemeinsame Verteilung also bivariat normal, also haben wir das

E(YnX¯n=x¯)=v+ρσvσX¯(x¯μ)

wobei der Korrelationskoeffizient ist.ρ

Manipuliert man die asymptotische Verteilung, um die ungefähre gemeinsame Verteilung von Stichprobenmittelwert und Stichprobenmedian (und nicht der standardisierten Größen) für große Stichproben zu erhalten, so ergibt sich

ρ=1nE(|Xv|)[2f(v)]11nσ[2f(v)]1=E(|Xv|)σ

So

E(YnX¯n=x¯)=v+E(|Xv|)σ[2f(v)]1σ(x¯μ)

We have that 2f(v)=2/σ2π due to the symmetry of the normal density so we arrive at

E(YnX¯n=x¯)=v+π2E(|Xμσ|)(x¯μ)

where we have used v=μ. Now the standardized variable is a standard normal, so its absolute value is a half-normal distribution with expected value equal to 2/π (since the underlying variance is unity). So

E(YnX¯n=x¯)=v+π22π(x¯μ)=v+x¯μ=x¯

2
As always, nice answer +1. However, since we have no information about the sample size, the asymptotic distribution might not hold. If there is no way to obtain the exact distribution though, I suppose I'll have to make do. Thank you very much.
JohnK

6

The answer is x¯.

Let x=(x1,x2,,xn) have a multivariate distribution F for which all the marginals are symmetric about a common value μ. (It does not matter whether they are independent or even are identically distributed.) Define x¯ to be the arithmetic mean of the xi, x¯=(x1+x2++xn)/n and write xx¯=(x1x¯,x2x¯,,xnx¯) for the vector of residuals. The symmetry assumption on F implies the distribution of xx¯ is symmetric about 0; that is, when ERn is any event,

PrF(xx¯E)=PrF(xx¯E).

Applying the generalized result at /stats//a/83887 shows that the median of xx¯ has a symmetric distribution about 0. Assuming its expectation exists (which is certainly the case when the marginal distributions of the xi are Normal), that expectation has to be 0 (because the symmetry implies it equals its own negative).

Now since subtracting the same value x¯ from each of a set of values does not change their order, Y (the median of the xi) equals x¯ plus the median of xx¯. Consequently its expectation conditional on x¯ equals the expectation of xx¯ conditional on x¯, plus E(x¯ | x¯). The latter obviously is x¯ whereas the former is 0 because the unconditional expectation is 0. Their sum is x¯, QED.


Thank you for posting it as a full answer. I now understand the essence of your argument but I might ping you if something is still unclear.
JohnK

5
JohnK, I need to alert you to be cautious. A counterexample to this argument has been brought to my attention. I have encouraged its originator to post it here for further discussion, but briefly it concerns a discrete bivariate distribution with symmetric marginals but asymmetric conditional marginals. Its existence points to a flawed deduction early in my argument. I currently hope that the argument might be rescued by imposing stronger conditions on the xi, but my attention is presently focused elsewhere and I might not get to think about this for awhile.
whuber

4
In the meantime I would encourage you to unaccept this answer. I would ordinarily delete any answer of mine known to be incorrect, but (as you might be able to tell) I like solutions based on first principles rather than detailed calculations, so I hope this argument can be rescued. I therefore intend to leave it open for criticism and improvement (and therefore made it CW); let the votes fall as they may.
whuber

Of course, thanks for letting me know. We will discuss it further when you have time. In the meantime I will settle for the asymptotic argument proposed by @Alecos Papadopoulos.
JohnK

6

This is simpler than the above answers make it. The sample mean is a complete and sufficient statistic (when the variance is known, but our results do not depend on the variance, hence will be valid also in the situation when the variance is unknown). Then the Rao-Blackwell together with the Lehmann-Scheffe theorems (see wikipedia ...) will imply that the conditional expectation of the median, given the arithmetic mean, is the unique minimum variance unbiased estimator of the expectation μ. But we know that is the arithmetic mean, hence the result follows.

We did also use that the median is an unbiased estimator, which follows from symmetry.


1
By symmetry E[Y]=μ, indeed. Then from these two theorems we know that E[Y|X¯] is the Unique Minimum Variance Unbiased Estimator for μ which we already know to be equal to X¯. This is a brilliant answer, thank you very much. I would have marked it as the correct one, had I not done that already for another answer.
JohnK
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.