Konfidenzintervalle für ECDF


8

Die Dvoretzky-Kiefer-Wolfowitz-Ungleichung ist folgende:

Pr(sup|F^n(x)F(x)|>ϵ)2exp(2nϵ2) ,

und es sagt voraus, wie nahe eine empirisch bestimmte Verteilungsfunktion an der Verteilungsfunktion sein wird, aus der die empirischen Proben gezogen werden. Mit dieser Ungleichung können wir Konfidenzintervalle (CIs) um (ECDF) zeichnen. Diese CIs sind jedoch in der Entfernung um jeden Punkt des ECDF gleich.F^n(x)

Was ich mich frage, gibt es eine andere Möglichkeit, ein CI um das ECDF herum aufzubauen?

Wenn wir über geordnete Statistiken lesen, stellen wir fest, dass die asymptotische Verteilung der geordneten Statistik wie folgt ist:

Formel vom Hyperlink

Was bedeutet nun zunächst der Index mit diesen Symbolen?np

Hauptfrage: Können wir dieses Ergebnis zusammen mit der Delta-Methode (siehe unten) verwenden, um CIs für das ECDF bereitzustellen? Ich meine, der ECDF ist eine Funktion der geordneten Statistik, oder? Gleichzeitig ist das ECDF eine nicht parametrische Funktion. Ist dies also eine Sackgasse?

Wir wissen, dass und Var ( F n ( x ) ) = F ( x ) ( 1 - F ( x ) )E(F^n(x))=F(x)Var(F^n(x))=F(x)(1F(x))n

Ich hoffe, mir ist klar, was ich hier vorhabe, und ich freue mich über jede Hilfe.

BEARBEITEN :

Delta-Methode: Wenn Sie eine Folge von Zufallsvariablen erfülltXn

Geben Sie hier die Bildbeschreibung ein,

und und sind endlich, dann ist folgendes erfüllt:σ 2θσ2

Geben Sie hier die Bildbeschreibung ein,

für jede Funktion g, die die Eigenschaft erfüllt, dass existiert, einen Wert ungleich Null hat und polynomiell mit der Zufallsvariablen begrenzt ist (Zitat Wikipedia)g(θ)


1
n p X ( i ) i i i = n p X ( n p )np bedeutet, dass auf die nächste Ganzzahl aufgerundet wird. wäre die te größte Beobachtung (die Statistik ter Ordnung ); Wenn Sie diese beiden Notationsbits zusammenfügen ( ), erhalten Sie . npX(i)iii=npX(np)
Glen_b -State Monica

OK! Und p ist gerade gleich , so dass np gleich i ist ? F^n(x)
Erosennin


Ihre Methode zur Berechnung der CIs basiert also auf der Kolmogorov-Smirnov-Statistik, wenn ich die Dinge richtig verstehe? Das kann ich mir auch ansehen! Vielen Dank!
Erosennin

1
Wenn ich mich richtig erinnere, würde Ihnen die Verwendung der KS-Statistik das Dvoretzky-Kiefer-Wolfowitz-Band geben. Die Aussage, die Sie haben, sagt nicht, dass Sie wählen , um zu machen . Wenn Sie etwas , haben Sie ein asymptotisches Ergebnis, das Sie zitiert haben; Dies beinhaltet die Begrenzung einer Folge von Werten, und Sie müssen für keinen von ihnen ganzzahlig sein. n p = i p n n ppnp=ipnnp
Glen_b -Reinstate Monica

Antworten:


4

Ich sehe keine Möglichkeit, die Delta-Methode zu verwenden, aber ...

Wenn wir über die Konvergenz der empirischen Verteilungsfunktion lesen, lesen wir, dass der zentrale Grenzwertsatz uns gibt:

n(F^n(x)F(x))N(0,F(x)(1F(x)))

Wir können dies verwenden, um verschiedene CIs um jedes zu erstellen :F^n(x)

F^n(x)±1.96F^n(x)(1F^n(x))n ,

da , ist unsere beste Schätzung von .F n ( x ) F ( x )E(F^n(x))=F(x)F^n(x)F(x)

Verwenden Sie den folgenden R-Code:

#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
     xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


  epsilon_i = sqrt(log(2/0.05)/(2*n))

  L=pmax(1:n/n-epsilon_i, 0)
  U=pmin(1:n/n+epsilon_i, 1)
  lines(sim_norm_sort, U, col="blue")
  lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")

Wir bekommen:

Blau = KWD-Bänder, Rot = CLT-Bänder

Wir sehen, dass die roten Bänder (nach der CLT-Methode) uns engere Konfidenzbänder geben.

EDIT : Wie @Kjetil B Halvorsen betonte - diese beiden Arten von Bands sind verschiedene Arten. Ich ließ @Glen_b genau erklären, was er meinte:

Sehr unterschiedliche Arten von Vertrauensbändern. Mit einem punktweisen Konfidenzband würden Sie eine Anzahl von Punkten außerhalb des Bandes erwarten, selbst wenn es die Verteilung wäre, aus der die Daten gezogen wurden. Mit simultanen Bands würdest du nicht. Wenn Sie ein 95% iges punktweises Band haben, liegen durchschnittlich 5% der Punkte für die korrekte Verteilung außerhalb der Bänder. Bei gleichzeitigen Bändern besteht eine Wahrscheinlichkeit von 5%, dass der Punkt mit der größten Abweichung außerhalb liegt.

Vielen Dank an beide!


Warum wird dieser Weg nicht der Verwendung der DKW-Ungleichung - oder der KS-Statistik - vorgezogen? Ich habe noch nie jemanden gesehen, der die Vertrauensbänder auf diese Weise aufgebaut hat ...
Erosennin

1
Es gibt nur Konfidenzbänder einzeln für jedes , nicht gleichzeitigx
kjetil b halvorsen

Mit "es" meine ich wohl den "CLT-Weg". Und zum Beispiel gibt DKW auch nicht wirklich gleichzeitig etwas an, sondern gibt nur die "maximale" Entfernung und verwendet diese als Konfidenzband für jeden Punkt x. Und ähnlich für KS. ϵ
Erosennin

Ja, und wenn Sie auf diese Weise ein Maximum verwenden, erhalten Sie ein gleichzeitig gültiges Konfidenzband.
kjetil b halvorsen

2
Interessante Diskussion hier. Ich habe Wikipedia die punktweisen CDF-Intervalle hinzugefügt und einige Diskussionen über die Unterschiede zwischen diesen Methoden geführt. Ich habe auch die DKW-Seite aktualisiert, um die Intervalle genauer zu besprechen. Schauen Sie rein und frei fühlen , die Seiten oder PM mich auf jeder Website zu aktualisieren en.wikipedia.org/wiki/... en.wikipedia.org/wiki/...
BSCAN
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.