Warum brauchen wir einen Schätzer, um konsistent zu sein?

14

Ich denke, ich habe die mathematische Definition eines konsistenten Schätzers bereits verstanden. Korrigiere mich, wenn ich falsch liege:

$W_n$ ist ein konsistenter Schätzer für wenn $\theta$ $\forall \epsilon>0$

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\theta \in \Theta$

Wo ist $\Theta$ der parametrische Raum. Aber ich möchte verstehen, dass ein Schätzer konsistent sein muss. Warum ist ein Schätzer, der nicht konsistent ist, schlecht? Können Sie mir einige Beispiele nennen?

Ich akzeptiere Simulationen in R oder Python.

estimation consistency

— Fam
quelle

3

Ein Schätzer, der nicht konsistent ist, ist nicht immer schlecht. Nehmen Sie zum Beispiel einen inkonsistenten, aber unvoreingenommenen Schätzer. Siehe den Wikipedia-Artikel zum Consistent Estimator en.wikipedia.org/wiki/Consistent_estimator , insbesondere den Abschnitt zum Thema "Bias versus Consistency

— compbiostats" vom

Konsistenz ist grob gesagt ein optimales asymptotisches Verhalten eines Schätzers. Wir wählen einen Schätzer, der sich langfristig dem wahren Wert von

nähert

θ

$\theta$ . Da dies nur eine Konvergenz der Wahrscheinlichkeit ist, könnte dieser Thread hilfreich sein: stats.stackexchange.com/questions/134701/… .

— StubbornAtom

21

Wenn der Schätzer nicht konsistent ist, konvergiert er nicht zum wahren Wahrscheinlichkeitswert . Mit anderen Worten, es besteht immer eine Wahrscheinlichkeit, dass Ihr Schätzer und Ihr wahrer Wert einen Unterschied aufweisen, unabhängig davon, wie viele Datenpunkte Sie haben. Das ist eigentlich schlecht, denn selbst wenn Sie eine immense Datenmenge erfassen, wird Ihre Schätzung immer eine positive Wahrscheinlichkeit haben, dass sich ein Wert von vom wahren Wert unterscheidet. In der Praxis können Sie diese Situation so betrachten, als würden Sie einen Schätzer für eine Menge verwenden, bei der nicht einmal die gesamte Bevölkerung befragt wird, sondern nur eine kleine Stichprobe. $\epsilon>0$

— Hast du Monica noch nicht wieder aufgenommen?
quelle

21

Betrachten Sie Beobachtungen aus der Standard-Cauchy-Verteilung, die mit der Student-t-Verteilung mit 1 Freiheitsgrad identisch ist. Die Schwänze dieser Verteilung sind so schwer, dass sie keinen Mittelwert haben; Die Verteilung ist auf den Median zentriert $n = 10\,000$ $\eta = 0.$

Eine Folge von ist für das Zentrum der Cauchy-Verteilung nicht konsistent. Grob gesagt, ist die Schwierigkeit , dass es sehr extreme Beobachtungen (positiv oder negativ) mit ausreichender Regelmäßigkeit auftritt , dass es keine Chance für ist zu Converge (Die sind nicht nur langsam zu konvergieren, sie nicht immer konvergieren. Die Verteilung von ist wieder Standard Cauchy [ Beweis ].) $A_j = \frac 1j \sum_{i=1}^j X_i$ $X_i$ $A_j$ $\eta = 0.$ $A_j$ $A_j$

Im Gegensatz dazu wird bei jedem Schritt in einem fortgesetzten Abtastprozess ungefähr die Hälfte der Beobachtungen auf beiden Seiten von liegen so dass die Sequenz von konvergiert $X_i$ $\eta,$ $H_j$ $\eta.$

Dieser Mangel an Konvergenz von und Konvergenz von wird durch die folgende Simulation veranschaulicht. $A_j$ $H_j$

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

Hier ist eine Liste von Schritten, bei denen Sie können die Auswirkung einiger dieser extremen Beobachtungen auf die laufenden Durchschnitte im Diagramm links (an den vertikalen roten gepunkteten Linien) sehen. $|X_i| > 1000.$

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

Konsistenz in wichtig bei der Schätzung: In Probennahme aus einer Cauchy - Population, die Probe Mittelwert einer Probe von Beobachtungen ist nicht besser zum Abschätzen der Mitte als nur eine Beobachtung. Im Gegensatz dazu konvergiert der konsistente Stichprobenmedian gegen sodass größere Stichproben bessere Schätzungen liefern. $n = 10\,000$ $\eta$ $\eta,$

— BruceET
quelle

1

Ein bisschen Nitpicking, aber Ihre Simulation zeigt, dass der Mittelwert der Stichprobe nicht mit hoher Wahrscheinlichkeit zum Cauchy-Zentrum konvergiert (starke vs. schwache Konsistenz).

— Aleshing

9

Ein wirklich einfaches Beispiel dafür, warum es wichtig ist, an Konsistenz zu denken, die meines Erachtens nicht genügend Beachtung findet, ist das eines übermäßig vereinfachten Modells.

Nehmen wir als theoretisches Beispiel an, Sie möchten ein lineares Regressionsmodell auf einige Daten anwenden, bei denen die tatsächlichen Effekte nicht linear waren. Dann können Ihre Vorhersagen nicht für alle Kombinationen von Kovariaten für den wahren Mittelwert konsistent sein, während dies für einen flexibleren möglich ist. Mit anderen Worten, das vereinfachte Modell weist Mängel auf, die durch die Verwendung weiterer Daten nicht behoben werden können.

— Cliff AB
quelle

y_{i} = {\hat{y}}_{i} + {\hat{e}}_{i}

$y_i=\hat{y}_i+\hat{e}_i$

8

@BruceET hat bereits eine hervorragende technische Antwort gegeben, aber ich möchte noch einen Punkt zur Interpretation hinzufügen.

Ein grundlegendes Konzept in der Statistik ist, dass wir mit zunehmender Stichprobengröße genauere Schlussfolgerungen über unsere zugrunde liegende Verteilung ziehen können. Sie können sich das so vorstellen, dass durch das Entnehmen vieler Samples der zufällige Jitter in den Daten beseitigt wird, sodass wir eine bessere Vorstellung von der zugrunde liegenden Struktur erhalten.

$(X_i)_{i\in\mathbb{N}} \$ $\mathbb{E}[X_1] < \infty$

\frac{1}{n} \sum_{k = 1}^{n} X_{k} \to E [X] a.s.

$\frac{1}{n} \sum_{k = 1}^n X_k \rightarrow \mathbb{E}[X] \ \ \ \text{a.s.}$

Damit ein Schätzer konsistent ist, muss er auch diese Regel einhalten: Da es seine Aufgabe ist, einen unbekannten Parameter zu schätzen, möchten wir, dass er zu diesem Parameter als Stichprobe konvergiert (lesen: diesen Parameter willkürlich gut schätzen ) Größe neigt zur Unendlichkeit.

Die gleichung

lim_{n \to \infty} P (| W_{n} - θ | > ϵ) = 0, \forall ϵ > 0 \forall θ \in Θ

$\lim_{n\to\infty} P(|W_n - \theta|> \epsilon) = 0, \quad \forall\epsilon > 0\ \forall\theta \ \in \Theta$

$W_n$ $\theta$

$[\theta - \varepsilon, \theta + \varepsilon]$ $\theta$

— Marc Vaisband
quelle