Empirische CDF vs CDF


20

Ich lerne etwas über die empirische kumulative Verteilungsfunktion. Aber ich verstehe immer noch nicht

  1. Warum heißt es "empirisch"?

  2. Gibt es einen Unterschied zwischen Empirical CDF und CDF?



Es gibt eine einfache, unkomplizierte und elegante Erklärung in Bezug auf Tickets in Box-Modellen : Die CDF beschreibt, was sich in der Originalverpackung befindet. Das ECDF erhalten Sie, wenn Sie Ihr Muster (eine Reihe von Tickets aus der Originalverpackung: sogenannte "empirische" Daten) in eine leere Box legen.
Whuber

Beachten Sie, dass Ihre empirische Verteilung in der Regel an die Art und Weise der Konstruktion gebunden ist, während dies bei der CDF möglicherweise nicht der Fall ist. Wenn Sie zum Beispiel eine empirische CDF aus Beobachtungen der Poisson-Variablen erstellen, wird die erhaltene ECDF durch die höchste beobachtete Frequenz begrenzt, während die wahre CDF unbegrenzt ist.
Aksakal

Antworten:


26

Sei eine Zufallsvariable.X

  • Die kumulative Verteilungsfunktion ergibt das .F(x)P(Xx)
  • Eine empirische kumulative Verteilungsfunktion ergibt basierend auf den Beobachtungen in Ihrer Stichprobe.G(x)P(Xx)

Die Unterscheidung besteht darin, welches Wahrscheinlichkeitsmaß verwendet wird. Für die empirische CDF verwenden Sie das Wahrscheinlichkeitsmaß, das durch die Häufigkeitszählungen in einer empirischen Stichprobe definiert ist.

Einfaches Beispiel (Münzwurf):

Sei eine Zufallsvariable, die das Ergebnis eines einzelnen Münzwurfs bezeichnet, wobei Köpfe und Schwänze bezeichnet.XX=1X=0

Der CDF für eine faire Münze ist gegeben durch:

F(x)={0zum x<012zum 0x<11zum 1x

Wenn Sie 2 Köpfe und 1 Schwanz umgedreht hätten, wäre die empirische CDF:

G(x)={0zum x<023zum 0x<11zum 1x

Die empirische CDF würde widerspiegeln, dass in Ihrer Stichprobe Ihrer Flips Köpfe waren.2/3

Ein weiteres Beispiel ( ist CDF für die Normalverteilung):F

Sei eine normalverteilte Zufallsvariable mit Mittelwert und Standardabweichung .X01

Der CDF wird vergeben von:

F(x)=-x12πe-x22

Nehmen wir an, Sie hatten 3 IID-Draws und haben die Werte . Die empirische CDF wäre: x1<x2<x3

G(y)={0zum y<x113zum x1y<x223zum x2y<x31zum x3y

Wenn genügend IID-Draws vorliegen (und bestimmte Regularitätsbedingungen erfüllt sind), würde die empirische CDF gegen die zugrunde liegende CDF der Population konvergieren.


12

Gibt es einen Unterschied zwischen Empirical CDF und CDF?

Ja, sie sind anders. Eine empirische cdf ist eine richtige cdf, aber empirische cdfs sind immer diskret, auch wenn sie nicht aus einer diskreten Distribution stammen, während die cdf einer Distribution andere Dinge als diskret sein können.

Wenn Sie eine Stichprobe so behandeln, als ob es sich um eine Population von Werten handelt, von denen jeder gleich wahrscheinlich ist (dh die Wahrscheinlichkeit 1 / n für jede Beobachtung), ist der cdf dieser Verteilung der ECDF der Daten.

Warum heißt es "empirisch"?

Es handelt sich um eine Schätzung der Bevölkerungszahl basierend auf der Stichprobe. Insbesondere wenn Sie die Anteile der Stichprobe an jedem einzelnen Datenwert behandeln und so behandeln, als ob es sich um eine Wahrscheinlichkeit in der Grundgesamtheit handelte, erhalten Sie den ECDF.

Empirisch hat eine Bedeutung wie "durch Beobachtung statt Theorie", und genau das bedeutet es in diesem Fall ... mithilfe der Beobachtungen die Verteilungsfunktion zu bestimmen.


10

Die empirische CDF wird aus einem tatsächlichen Datensatz erstellt (im folgenden Diagramm habe ich 100 Stichproben aus einer Standardnormalverteilung verwendet). Die CDF ist ein theoretisches Konstrukt - es ist das, was Sie sehen würden, wenn Sie unendlich viele Proben entnehmen könnten.

Die empirische CDF nähert sich in der Regel der CDF ziemlich gut an, insbesondere bei großen Stichproben (tatsächlich gibt es Theoreme darüber, wie schnell sie mit zunehmender Stichprobengröße zur CDF konvergiert).

Empirische CDF vs CDF


10

Empirisch bauen Sie auf Daten und Beobachtungen auf. Angenommen, Sie möchten etwas über die Verteilung der Körpergröße von Menschen in einem Land erfahren. Sie beginnen mit der Messung von Personen und erstellen ein Histogramm, das einer Verteilung angenähert werden kann. Dann berechnen Sie den empirischen CDF.

Wenn Sie eine statistische Verteilung verwenden (eine deterministische Formel, die mit denselben Parametern genau dieselbe Ausgabe liefert), können Sie auch deren CDF berechnen.

N(μ=1,75 m,σ=0,1 m)


Gibt es eine Konfidenzmessung, die die Wahrscheinlichkeit ausdrückt, dass CDF und Emperical CDF im Grenzbereich aller experimentellen Stichproben weltweit dieselbe Population beschreiben? Dies scheint zum Beispiel auf Wahlumfragen Anwendung zu finden. (obwohl vielleicht nicht, da die Ausgabe als Funktion nicht genau beschreibbar ist ...)
BenPen

3

Laut Dictionary.com umfassen die Definitionen von "empirisch":

abgeleitet von oder geleitet von Erfahrung oder Experiment.

Daher ist die empirische CDF die CDF, die Sie aus Ihren Daten erhalten. Dies steht im Gegensatz zu der theoretischen CDF (oft nur "CDF" genannt), die aus einem statistischen oder probabilistischen Modell wie der Normalverteilung erhalten wird.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.