Ich lerne etwas über die empirische kumulative Verteilungsfunktion. Aber ich verstehe immer noch nicht
Warum heißt es "empirisch"?
Gibt es einen Unterschied zwischen Empirical CDF und CDF?
Ich lerne etwas über die empirische kumulative Verteilungsfunktion. Aber ich verstehe immer noch nicht
Warum heißt es "empirisch"?
Gibt es einen Unterschied zwischen Empirical CDF und CDF?
Antworten:
Sei eine Zufallsvariable.
Die Unterscheidung besteht darin, welches Wahrscheinlichkeitsmaß verwendet wird. Für die empirische CDF verwenden Sie das Wahrscheinlichkeitsmaß, das durch die Häufigkeitszählungen in einer empirischen Stichprobe definiert ist.
Sei eine Zufallsvariable, die das Ergebnis eines einzelnen Münzwurfs bezeichnet, wobei Köpfe und Schwänze bezeichnet.
Der CDF für eine faire Münze ist gegeben durch:
Wenn Sie 2 Köpfe und 1 Schwanz umgedreht hätten, wäre die empirische CDF:
Die empirische CDF würde widerspiegeln, dass in Ihrer Stichprobe Ihrer Flips Köpfe waren.
Sei eine normalverteilte Zufallsvariable mit Mittelwert und Standardabweichung .
Der CDF wird vergeben von:
Nehmen wir an, Sie hatten 3 IID-Draws und haben die Werte . Die empirische CDF wäre:
Wenn genügend IID-Draws vorliegen (und bestimmte Regularitätsbedingungen erfüllt sind), würde die empirische CDF gegen die zugrunde liegende CDF der Population konvergieren.
Gibt es einen Unterschied zwischen Empirical CDF und CDF?
Ja, sie sind anders. Eine empirische cdf ist eine richtige cdf, aber empirische cdfs sind immer diskret, auch wenn sie nicht aus einer diskreten Distribution stammen, während die cdf einer Distribution andere Dinge als diskret sein können.
Wenn Sie eine Stichprobe so behandeln, als ob es sich um eine Population von Werten handelt, von denen jeder gleich wahrscheinlich ist (dh die Wahrscheinlichkeit 1 / n für jede Beobachtung), ist der cdf dieser Verteilung der ECDF der Daten.
Warum heißt es "empirisch"?
Es handelt sich um eine Schätzung der Bevölkerungszahl basierend auf der Stichprobe. Insbesondere wenn Sie die Anteile der Stichprobe an jedem einzelnen Datenwert behandeln und so behandeln, als ob es sich um eine Wahrscheinlichkeit in der Grundgesamtheit handelte, erhalten Sie den ECDF.
Empirisch hat eine Bedeutung wie "durch Beobachtung statt Theorie", und genau das bedeutet es in diesem Fall ... mithilfe der Beobachtungen die Verteilungsfunktion zu bestimmen.
Die empirische CDF wird aus einem tatsächlichen Datensatz erstellt (im folgenden Diagramm habe ich 100 Stichproben aus einer Standardnormalverteilung verwendet). Die CDF ist ein theoretisches Konstrukt - es ist das, was Sie sehen würden, wenn Sie unendlich viele Proben entnehmen könnten.
Die empirische CDF nähert sich in der Regel der CDF ziemlich gut an, insbesondere bei großen Stichproben (tatsächlich gibt es Theoreme darüber, wie schnell sie mit zunehmender Stichprobengröße zur CDF konvergiert).
Empirisch bauen Sie auf Daten und Beobachtungen auf. Angenommen, Sie möchten etwas über die Verteilung der Körpergröße von Menschen in einem Land erfahren. Sie beginnen mit der Messung von Personen und erstellen ein Histogramm, das einer Verteilung angenähert werden kann. Dann berechnen Sie den empirischen CDF.
Wenn Sie eine statistische Verteilung verwenden (eine deterministische Formel, die mit denselben Parametern genau dieselbe Ausgabe liefert), können Sie auch deren CDF berechnen.
Laut Dictionary.com umfassen die Definitionen von "empirisch":
abgeleitet von oder geleitet von Erfahrung oder Experiment.
Daher ist die empirische CDF die CDF, die Sie aus Ihren Daten erhalten. Dies steht im Gegensatz zu der theoretischen CDF (oft nur "CDF" genannt), die aus einem statistischen oder probabilistischen Modell wie der Normalverteilung erhalten wird.