Kann eine CDF aus Daten mit einer anderen CDF gekreuzt werden?


8

Bei zwei Datensätzen positiver reeller Zahlen X und Y, beide gleich groß, und 0 <= Y <= X für jede Zeile; Kann die empirische CDF von X jemals die empirische CDF von Y kreuzen?

Antworten:


4

Das empirische cdf ist der Anteil der Stichprobe bei oder unter .tF^(t)t

Ordnen Sie Ihre Zeilen durch Erhöhen von (und bei einem festen Wert von durch Erhöhen von ).y xyyx

Dann ist für jede solche Zeile ( . B. Zeile ) die Höhe jedes cdf *, und die entsprechende Abszisse für die x-Probe befindet sich immer rechts von der Abszisse für die y-Probe. Die Schrittfunktionen können zusammenfallen, aber das X-Sample-Ecdf wird niemals über / links vom Y-Sample-Ecdf liegen.i / nii/n

Geben Sie hier die Bildbeschreibung ein

Stellen Sie sich vor, wir "zeichnen auf die Handlung" alle vertikalen Sprünge im ecdf. Dann trifft eine horizontale Linie, die mit einem bestimmten Wert von über das Diagramm gezogen wird, auf die ecdf-Schritte bei einem bestimmten Wert von und , der in unserer Tabelle aufgeführt ist und die Beispielwerte in der angegebenen Reihenfolge auflistet (für einen bestimmten Wert von ist dies in der Tat einfach Berechnen Sie, welche Zeile es sein wird ), die immer .y x F y ix iFyxFyixi

* (Es ist etwas komplizierter, wenn es doppelte Werte gibt, aber nicht in einer Weise, die das Argument wesentlich ändert.)

F 0,481 t y = 194,4503 t x = 200,0431 Für die graue horizontale Linie im Diagramm ( ) trifft sie auf die vertikalen Sprünge des ecdf bei und die in der 73. Zeile der Datentabelle auftreten, wenn sie wie zuvor angegeben sortiert werden.F0.481ty=194.4503tx=200.0431


2

Die Antwort von Glen_b ist richtig, aber ich denke, es gibt einen noch einfacheren Weg, dies zu demonstrieren.

Das eCDF ist ein Diagramm von ( , Anteil der Werte bei oder unter ). Wir beginnen mit der Sortierung der Werte in aufsteigender Reihenfolge: Nennen Sie sie und . Darüber hinaus wissen wir aus Ihrer Frage, dass die beiden Vektoren für jeden Index die gleiche Länge und .x x 1 , x 2 , , x n y 1 , y 2 , , y n y ix i ixxx1,x2,,xny1,y2,,ynyixii

Da größer oder gleich , muss sich rechts oder rechts von . Da es sich um die kleinsten Punkte in der Liste handelt, haben beide eine Höhe / y-Koordinate von . Beide Kurven bewegen sich mit der gleichen Geschwindigkeit ( pro Schritt) und nach rechts nach oben. Da jedoch , bewegt sich die Kurve bei jedem Schritt mindestens so weit nach rechts wie die Kurve.x 1 y 1 x 1 1y1x1y1x1 11n yi>xiYX.1nyi>xiYX

Da die Kurve rechts oder rechts von der Kurve begann und jede nachfolgende Aktualisierung mindestens so weit nach rechts wie drückt , kreuzen sich die Kurven nie.X Y X.YXYX


0

Formalisieren Sie einfach, was oben geschrieben wurde:

Wenn die Kaiser-CDFs als bzw. sind, dannF Y.FXFY

FY(x)=1FX(x)=1nxiI(xix) und ebenso .FY(x)=1nyiI(yix)

Nun können wir für jedes zeigen, dass . Beweisen Sie dies durch Widerspruch - Angenommen, es gab ein für das dies nicht zutraf, und zeigen Sie, dass es ein Paar geben muss, für das .I ( x ix ) I ( y ix ) x ( x i , y i ) y i > x ixI(xix)I(yix)x(xi,yi)yi>xi

Somit ist für alle .xFX(x)FY(x)x

Hinweis: In dieser Demonstration gibt es einige implizite Annahmen, dass die Anzahl der Datenpunkte endlich ist. Ich denke, es ist möglich, unendlich viele Datensätze derselben Größe (dh Kardinalität) zu haben. Ich bin mir ziemlich sicher, dass das Ergebnis zutrifft, aber weit weniger sicher über den Beweis eines solchen Ergebnisses.


Wie würden Sie bei unendlich vielen Datenpunkten genau eine empirische CDF definieren?
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.