Die Schlüsselidee ist, dass die Stichprobenverteilung des Medians einfach als Verteilungsfunktion auszudrücken ist, aber komplizierter als der Medianwert. Sobald wir verstanden haben, wie die Verteilungsfunktion Werte als Wahrscheinlichkeiten wiedergeben kann, ist es einfach, die genaue Stichprobenverteilung des Medians abzuleiten . Eine kleine Analyse des Verhaltens der Verteilungsfunktion in der Nähe ihres Medians ist erforderlich, um zu zeigen, dass dies asymptotisch normal ist.
(Dieselbe Analyse gilt für die Stichprobenverteilung eines beliebigen Quantils, nicht nur für den Median.)
Ich werde nicht versuchen, bei dieser Darstellung streng zu sein, aber ich führe sie in Schritten durch, die ohne weiteres streng gerechtfertigt sind, wenn Sie die Absicht haben, dies zu tun.
Intuition
Dies sind Schnappschüsse einer Box mit 70 Atomen eines heißen Atomgases:
In jedem Bild habe ich einen Ort gefunden, der als rote vertikale Linie dargestellt ist und die Atome in zwei gleiche Gruppen zwischen den linken (als schwarze Punkte gezeichneten) und rechten (weißen Punkten) aufteilt. Dies ist ein Median der Positionen: 35 der Atome liegen zu seiner Linken und 35 zu seiner Rechten. Die Mediane ändern sich, weil sich die Atome zufällig um die Box bewegen.
Wir sind an der Verteilung dieser Mittelstellung interessiert. Eine solche Frage wird durch Umkehren meines Verfahrens beantwortet: Zeichnen wir zunächst eine vertikale Linie, beispielsweise an Position . Wie groß ist die Chance, dass sich die Hälfte der Atome links von x und die Hälfte rechts davon befindet? Die Atome links hatten einzeln die Chance, dass x links ist. Die Atome rechts hatten einzeln die Chance 1 - x rechts zu sein. Unter der Annahme, dass ihre Positionen statistisch unabhängig sind, multiplizieren sich die Chancen und ergeben x 35 ( 1 - x ) 35xxx1−xx35(1−x)35für die Chance dieser besonderen Konfiguration. Eine äquivalente Konfiguration könnte für eine unterschiedliche Aufteilung der Atome in zwei Teile mit 35 Elementen erreicht werden. Das Addieren dieser Zahlen für alle möglichen derartigen Teilungen ergibt eine Chance von7035
Pr(x is a median)=Cxn/2(1−x)n/2
Dabei ist die Gesamtzahl der Atome und ist proportional zur Anzahl der Teilungen von Atomen in zwei gleiche Untergruppen.C nnCn
Diese Formel gibt die Verteilung des Medians als Beta Verteilung(n/2+1,n/2+1) .
Betrachten Sie nun eine Box mit einer komplizierteren Form:
Auch hier variieren die Mediane. Da die Box in der Nähe des Zentrums niedrig ist, gibt es dort nicht viel von ihrem Volumen: eine kleine Änderung des Volumens, das die linke Hälfte der Atome einnimmt (die schwarzen noch einmal) - oder, wir könnten genauso gut zugeben, Der in diesen Abbildungen gezeigte linke Bereich entspricht einer relativ großen Änderung der horizontalen Position des Medians. Tatsächlich werden die Änderungen in den Medianen durch die Höhe der Box dividiert , da die Fläche, die von einem kleinen horizontalen Abschnitt der Box begrenzt wird, proportional zur Höhe dort ist . Dies bewirkt, dass der Median für dieses Feld variabler ist als für das quadratische Feld, da dieses Feld in der Mitte so viel niedriger ist.
Kurz gesagt, wenn wir die Position des Medians in Bezug auf die Fläche (links und rechts) messen , bleibt die ursprüngliche Analyse (für ein quadratisches Kästchen) unverändert. Die Form des Kastens erschwert die Verteilung nur, wenn wir darauf bestehen, den Median in Bezug auf seine horizontale Position zu messen. Wenn wir dies tun, ist die Beziehung zwischen der Flächen- und der Positionsdarstellung umgekehrt proportional zur Höhe des Kastens.
Aus diesen Bildern kann man noch mehr lernen. Es ist klar, dass, wenn sich nur wenige Atome in (beiden) Kisten befinden, die Wahrscheinlichkeit größer ist, dass sich die Hälfte von ihnen versehentlich zu beiden Seiten gruppiert. Mit zunehmender Anzahl der Atome nimmt das Potenzial für ein derart extremes Ungleichgewicht ab. Um dies zu verfolgen, nahm ich "Filme" - eine lange Serie von 5000 Bildern - für die gebogene Box, die mit , dann mit , dann mit und schließlich mit Atomen gefüllt war , und notierte die Mediane. Hier sind Histogramme der Medianpositionen:15 75 37531575375
Es ist klar, dass bei einer ausreichend großen Anzahl von Atomen die Verteilung ihrer Medianposition glockenförmig erscheint und enger wird: Das sieht nach einem Ergebnis des zentralen Grenzwertsatzes aus, nicht wahr?
Quantitative Ergebnisse
Die "Box" zeigt natürlich die Wahrscheinlichkeitsdichte einiger Verteilungen: Oben ist der Graph der Dichtefunktion (PDF). Somit repräsentieren Bereiche Wahrscheinlichkeiten. Das zufällige und unabhängige Platzieren von Punkten in einer Box und das Beobachten ihrer horizontalen Positionen ist eine Möglichkeit, eine Stichprobe aus der Verteilung zu ziehen. (Dies ist die Idee, die hinter der Ablehnungsabtastung steht. )n
Die nächste Abbildung verbindet diese Ideen.
Das sieht kompliziert aus, ist aber recht einfach. Es gibt hier vier verwandte Grundstücke:
Das obere Diagramm zeigt das PDF einer Verteilung zusammen mit einer Zufallsstichprobe der Größe . Werte, die größer als der Median sind, werden als weiße Punkte angezeigt. Werte kleiner als der Median als schwarze Punkte. Es braucht keine vertikale Skala, da wir wissen, dass die Gesamtfläche Einheit ist.n
Das mittlere Diagramm ist die kumulative Verteilungsfunktion für dieselbe Verteilung: Es verwendet die Höhe , um die Wahrscheinlichkeit zu bezeichnen. Es teilt seine horizontale Achse mit dem ersten Plot. Die vertikale Achse muss von nach da sie Wahrscheinlichkeiten darstellt.101
Der linke Plot soll seitwärts gelesen werden: Es ist das PDF der Beta- Distribution . Es wird gezeigt, wie sich der Median in der Box ändert, wenn der Median in Bezug auf die Bereiche links und rechts von der Mitte gemessen wird (anstatt anhand der horizontalen Position gemessen zu werden). Ich habe aus dieser PDF-Datei wie gezeigt zufällige Punkte gezogen und diese mit horizontalen gestrichelten Linien mit den entsprechenden Stellen auf der Original-CDF verbunden: So werden Volumina (links gemessen) in Positionen (oben, in der Mitte gemessen) konvertiert und untere Grafik). Einer dieser Punkte entspricht tatsächlich dem im oberen Diagramm gezeigten Median; Ich habe eine durchgezogene vertikale Linie gezeichnet, um das zu zeigen.16(n/2+1,n/2+1)16
Das untere Diagramm ist die Abtastdichte des Medians, gemessen an seiner horizontalen Position. Sie wird erhalten, indem der Bereich (im linken Diagramm) in die Position konvertiert wird. Die Umrechnungsformel ergibt sich aus der Inversen der ursprünglichen CDF: Dies ist einfach die Definition der inversen CDF! (Mit anderen Worten, die CDF wandelt die Position in einen Bereich nach links um; die inverse CDF wandelt die Position von Bereich zu Bereich zurück.) Ich habe vertikale gestrichelte Linien gezeichnet, die zeigen, wie die zufälligen Punkte aus dem linken Diagramm in zufällige Punkte innerhalb des unteren Diagramms umgewandelt werden . Dieser Prozess des Hin- und Herlesens zeigt uns, wie wir von einem Bereich zu einer anderen Position gelangen.
Sei die CDF der Originalverteilung (mittlerer Plot) und die CDF der Beta-Verteilung. Um die Wahrscheinlichkeit zu ermitteln, dass der Median links von einer Position , verwenden Sie zuerst , um den Bereich links von im Feld zu erhalten: Dies ist selbst. Die Beta - Verteilung auf der linken Seite sagt uns die Chance , dass die Hälfte der Atome innerhalb dieses Volumens liegen wird, so dass : Dies ist die CDF der mittleren Position . Um das PDF zu finden (wie im unteren Diagramm gezeigt), nehmen Sie die Ableitung:FGxFxF(x)G(F(x))
ddxG(F(x))=G′(F(x))F′(x)=g(F(x))f(x)
Dabei ist die PDF-Datei (oberes Diagramm) und die Beta-PDF-Datei (linkes Diagramm).fg
Dies ist eine genaue Formel für die Verteilung des Medians für jede kontinuierliche Verteilung. (Mit etwas Sorgfalt bei der Interpretation kann es auf jede beliebige Verteilung angewendet werden, ob kontinuierlich oder nicht.)
Asymptotische Ergebnisse
Wenn sehr groß ist und keinen Sprung im Median hat, muss der Stichprobenmedian eng um den wahren Median der Verteilung variieren . Unter der Annahme, dass das PDF in der Nähe von ; stetig ist , ändert sich in der vorhergehenden Formel nicht wesentlich von seinem Wert bei , der durch Darüber hinaus ändert sich auch dort nicht wesentlich von seinem Wert: auf erste Ordnung,nFμfμ f(x)μ,f(μ).F
F(x)=F(μ+(x−μ))≈F(μ)+F′(μ)(x−μ)=1/2+f(μ)(x−μ).
Mit einer sich ständig verbessernden Näherung, wenn groß wird,n
g(F(x))f(x)≈g(1/2+f(μ)(x−μ))f(μ).
Dies ist lediglich eine Verschiebung der Position und des Umfangs der Beta-Distribution. Die Neuskalierung durch dividiert die Varianz durch (die besser ungleich Null sein sollte!). Übrigens ist die Varianz von Beta sehr nahe an .f(μ)f(μ)2(n/2+1,n/2+1)n/4
Diese Analyse kann als Anwendung der Delta-Methode angesehen werden .
Schließlich ist Beta für großes ungefähr normal . Es gibt viele Möglichkeiten, dies zu sehen. Am einfachsten ist es vielleicht, den Logarithmus der PDF-Datei in der Nähe von :(n/2+1,n/2+1)n1/2
log(C(1/2+x)n/2(1/2−x)n/2)=n2log(1−4x2)+C′=C′−2nx2+O(x4).
(Die Konstanten und normalisieren lediglich die Gesamtfläche auf Eins.) Durch die dritte Ordnung in ist dies dasselbe wie das Protokoll der normalen PDF mit der Varianz (Dieses Argument wird durch die Verwendung charakteristischer oder kumulativer Generierungsfunktionen anstelle des Protokolls der PDF-Datei verschärft.)CC′x,1/(4n).
Wenn wir dies zusammenfassen, schließen wir daraus
Die Verteilung des Stichprobenmedians hat eine Varianz von ungefähr .1/(4nf(μ)2)
und es ist ungefähr normal für große ,n
alles vorausgesetzt die PDF ist stetig und ungleich Null im Medianfμ.