Warum ist die Definition eines konsistenten Schätzers so wie sie ist? Was ist mit alternativen Definitionen von Konsistenz?

Zitat aus Wikipedia:

In der Statistik ist ein konsistenter Schätzer oder ein asymptotisch konsistenter Schätzer ein Schätzer - eine Regel zum Berechnen von Schätzungen eines Parameters - mit der Eigenschaft, dass die resultierende Folge von Schätzungen mit zunehmender Anzahl verwendeter Datenpunkte mit einer Wahrscheinlichkeit gegen konvergiert . $θ^*$ $θ^*$

Um diese Aussage genau zu machen, sei $\theta^*$ der Wert des wahren Parameters, den Sie schätzen möchten, und sei $\hat\theta(S_n)$ die Regel für die Schätzung dieses Parameters als Funktion der Daten. Dann kann die Definition der Konsistenz eines Schätzers folgendermaßen ausgedrückt werden:

lim_{n \to \infty} P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] = 0

$\lim_{n \to \infty} Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ]=0$

Meine Frage scheint auf den ersten Blick oberflächlich zu sein, aber sie lautet: Warum wurde das Wort "Konsistenz / Konsistenz" verwendet, um dieses Verhalten eines Schätzers zu beschreiben?

Der Grund, warum mir das wichtig ist, ist, dass für mich das Wort „konsistent“ intuitiv etwas anderes bedeutet (oder zumindest scheint es mir etwas anderes zu sein, vielleicht kann gezeigt werden, dass sie gleich sind). Lassen Sie mich anhand eines Beispiels erklären, was es bedeutet. Sagen Sie "Sie" sind durchweg "gut" (für eine Definition von "gut"), dann bedeutet "konsequent", dass Sie jedes Mal, wenn Sie die Chance haben, mir zu beweisen, dass Sie gut sind, tatsächlich beweisen, dass Sie gut sind (oder zumindest die meiste Zeit).

Wenden wir meine Intuition an, um die Konsistenz eines Schätzers zu definieren. Sei "Sie" die Funktion, die berechnet, $\hat{\theta}$ und "gut" bedeutet, wie weit Sie von der wahren Schätzung $\theta^*$ (gut, im Sinne der Norm $l_1$ , warum nicht). Dann wäre eine bessere Definition der Konsistenz:

\forall n, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\forall n,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

Auch wenn dies eine weniger nützliche Definition der Konsistenz ist, ist es für mich sinnvoller, die Konsistenz zu definieren, da ich für alle Trainings- / Beispielsätze, die Sie in meinen Estimator werfen $\hat\theta$ , in der Lage sein werde, Folgendes zu tun: gute Arbeit, dh ich werde durchweg gut abschneiden. Mir ist bewusst, dass es ein wenig unrealistisch ist, es für alle n zu tun (wahrscheinlich unmöglich), aber wir können diese Definition beheben, indem wir sagen:

\exists n_{0}, \forall n \geq n_{0}, \forall S_{n}, P r [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] < δ

$\exists n_0, \forall n \geq n_0,\forall S_n, Pr[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon ] < \delta$

dh für ausreichend großes n wird unser Schätzer nicht schlechter sein als (dh nicht mehr als von der "Wahrheit" entfernt) vom wahren (das versucht, die Intuition zu erfassen, die Sie mindestens benötigen eine Anzahl von Beispielen, um etwas zu lernen / zu schätzen, und sobald Sie diese Anzahl erreicht haben, wird Ihr Schätzer die meiste Zeit gut abschneiden, wenn es in der Art und Weise konsistent ist, wie wir versuchen, es zu definieren). $\epsilon$ $\epsilon$ $\theta^*$ $n_0$

Die vorige Definition ist jedoch zu stark, vielleicht könnten wir zulassen, dass wir für die meisten Trainingsmengen der Größe eine geringe Wahrscheinlichkeit haben, weit von zu sein (dh dies ist nicht für alle erforderlich , sondern für alle über die Verteilung von oder so ähnlich). Daher haben wir nur sehr selten einen hohen Fehler für die meisten der von uns zur Verfügung gestellten Beispiel- / Trainingssätze. $\theta^*$ $n \geq n_0$ $S_n$ $S_n$

Wie auch immer, meine Frage ist, sind diese vorgeschlagenen Definitionen von "Konsistenz" tatsächlich die gleichen wie die "offizielle" Definition von Konsistenz, aber die Gleichwertigkeit ist schwer zu beweisen? Wenn Sie den Beweis kennen, teilen Sie ihn bitte mit! Oder ist meine Intuition völlig veraltet und gibt es einen tieferen Grund, die Definitionskonsistenz so zu wählen, wie sie normalerweise definiert wird? Warum ist ("offizielle") Konsistenz so definiert, wie sie ist?

Einige meiner Gedanken eines Kandidat Beweis für irgendeine Art von Gleichwertigkeit, oder vielleicht Ähnlichkeit zwischen meinem Begriff der Konsistenz und dem akzeptierten Begriff der Konsistenz könnte die Definition einer Grenze in der offiziellen Definition von Konsistenz zu entwirren, die unter Verwendung Definition eines Limits. Ich war mir jedoch nicht hundertprozentig sicher, wie ich das machen sollte, und selbst wenn ich es versuchte, scheint die offizielle Definition der Konsistenz nicht zu berücksichtigen, dass über alle möglichen Trainings- / Beispielsätze gesprochen wird. Da ich glaube, dass sie gleichwertig sind, ist die offizielle Definition, die ich angegeben habe, unvollständig (dh, warum geht es nicht um die Datensätze, die wir könnten, oder alle verschiedenen Datensätze, die unsere Stichprobensätze erzeugen könnten)? $(\epsilon, \delta)-$

Einer meiner letzten Gedanken ist, dass jede Definition, die wir liefern, auch genau sein sollte, um wessen Wahrscheinlichkeitsverteilung es sich handelt, ist es oder ist es . Ich denke, ein Kandidat sollte auch präzise sein, wenn er garantiert, ob er es auf eine feste Verteilung oder auf alle möglichen Verteilungen auf die Trainingssätze garantiert ... richtig? $P_x$ $P_{S_n}$

machine-learning mathematical-statistics consistency

— Charlie Parker
quelle

(+1) Kreatives Denken. Vielen Dank, dass Sie dies mit uns teilen. Ich glaube, ich kann hier einige Gedanken als Antwort geben.

— Alecos Papadopoulos

Die erste Definition nützt wenig, da alle Schätzer sehr genau sein müssen. Das zweite macht keinen Sinn, da es versucht, eine einzelne logische Variable mit mehreren Quantifizierern zu steuern .

n

$n$

— whuber

Betrachten Sie die zweite vorläufige Erklärung des OP, leicht modifiziert,

\begin{matrix} (1) & \forall θ \in Θ, ϵ > 0, δ > 0, S_{n}, \exists n_{0} (θ, ϵ, δ) : \forall n \geq n_{0}, P_{n} [| \hat{θ} (S_{n}) - θ^{*} | \geq ϵ] < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n, \exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\P_n\big[|{\hat \theta(S_{n}}) - \theta^*|\geq \epsilon \big] < \delta \tag{1}$

Wir untersuchen die in Folge von reellen Zahlen $[0,1]$

{P_{n} [| \hat{θ} (S_{n}) - θ^{*} | \geq ϵ]}

$\big\{ P_n\big[|{\hat\theta(S_{n}}) - \theta^*|\geq \epsilon \big]\big\}$

indiziert von . Wenn diese Sequenz ein Limit wie , nennen Sie es einfach , wir werden das haben $n$ $n\rightarrow \infty$ $p$

\begin{matrix} (2) & \forall θ \in Θ, ϵ > 0, δ > 0, S_{n}, \exists n_{0} (θ, ϵ, δ) : \forall n \geq n_{0}, | P_{n} [| \hat{θ (S_{n}}) - θ^{*} | \geq ϵ] - p | < δ \end{matrix}

$\forall \theta\in \Theta, \epsilon>0, \delta>0, S_n,\,\exists n_0(\theta, \epsilon, \delta): \forall n \geq n_0,\;\\\Big| P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon \big] -p\Big|< \delta \tag{2}$

Wenn wir also annehmen (oder fordern), nehmen wir im Wesentlichen an (oder fordern), dass die Grenze als existiert und gleich Null ist, . $(1)$ $n\rightarrow \infty$ $p=0$

So liest "die Grenze von als ist ". Welches ist genau die aktuelle Definition der Konsistenz (und ja, es umfasst "alle möglichen Proben") $(1)$ $P_n\big[|\hat{\theta(S_{n}}) - \theta^*|\geq \epsilon\big]$ $n\rightarrow \infty$ $0$

Es scheint also, dass das OP im Wesentlichen einen alternativen Ausdruck für genau dieselbe Eigenschaft und nicht für eine andere Eigenschaft des Schätzers vorgeschlagen hat.

ADDENDUM (habe den Geschichtsteil vergessen)

In seinen "Grundlagen der Wahrscheinlichkeitstheorie" (1933) erwähnt Kolmogorov in einer Fußnote, dass (das Konzept der Wahrscheinlichkeitskonvergenz)

"... ist Bernoulli zu verdanken; seine ganz allgemeine Behandlung wurde von EESlutsky eingeführt".

(1925). Die Arbeit von Slutsky ist auf Deutsch - es kann sogar eine Frage geben, wie das deutsche Wort auf Englisch übersetzt wurde (oder der von Bernoulli verwendete Begriff). Aber versuchen Sie nicht, zu viel in ein Wort zu lesen.

— Alecos Papadopoulos
quelle