Was ist, wenn die Wahrscheinlichkeiten in der „.632-Regel“ nicht gleich sind?

Diese Frage leitet sich aus dieser Frage nach der ".632-Regel" ab. Ich schreibe unter besonderer Bezugnahme auf die Antwort / Notation von user603, soweit dies die Sache vereinfacht.

Die Antwort beginnt mit einer Probe der Größe $n,$ mit dem Ersatz von $n$ verschiedenen Elementen in der Sammlung (Call) es N. Die Wahrscheinlichkeit , dass die $i^{th}$ Probe $s_i$ von einem bestimmten Elemente unterscheidet $m$ von N ist dann $(1 - 1/n).$

In dieser Antwort haben alle Elemente von N die gleiche Chance, zufällig gezogen zu werden.

Meine Frage lautet: Nehmen wir stattdessen an, dass in der obigen Frage die zu zeichnenden Elemente so sind, dass sie normal verteilt sind. Das heißt, wir unterteilen die Standardnormalkurve von $Z = -4$ bis $Z = 4$ in (sagen wir) 100 gleich lange Teilintervalle. Jedes der 100 Elemente in N hat eine Wahrscheinlichkeit, gezeichnet zu werden, die der Fläche entspricht, die von der Kurve in ihrem jeweiligen Intervall begrenzt wird.

Mein Denken war wie folgt:

Die Argumentation ähnelt der in der verknüpften Antwort, denke ich. Die Wahrscheinlichkeit, dass $s_i \ne m$ mit $m$ ein Element von N ist, ist $P(s_i \neq m) = (1 - F_i)$ wobei $F_i$ die Wahrscheinlichkeit ist, zeichnen $s_i.$

Die Wahrscheinlichkeit, dass sich ein bestimmtes Element m in der Stichprobe S der Größe n befindet, beträgt

P (m \in S) = 1 - P (m \notin S) = 1 - \prod_{1}^{n} P (s_{i} \neq m)

$P(m \in S) = 1 - P(m \notin S) = 1 - \prod_1^n P(s_i \neq m)$

= 1 - \prod_{1}^{n} (1 - F_{i}) .

$= 1 - \prod_1^n(1 - F_i).$

Eine Berechnung scheint zu zeigen, dass die Antwort mit zunehmender Länge der Teilintervalle gegen dieselbe Zahl wie im ersten Fall konvergiert (Wahrscheinlichkeiten von alle gleich). $s_i$

Dies scheint (für mich) nicht intuitiv zu sein, da die Konstruktion Elemente von N zu werfen scheint, die selten sind, so dass ich eine Zahl kleiner als 0,632 erwarten würde.

Auch wenn dies richtig ist, hätten wir es wohl getan

lim_{n \to \infty} \prod_{1}^{n} (1 - F_{i}) = lim (1 - 1 / n)^{n} = 1 / e,

$\lim_{n \to \infty} \prod_1^n(1 - F_i) =\lim (1- 1/n)^n = 1/e,$

was ich noch nicht als wahr oder falsch kenne.

Bearbeiten: Wenn es wahr ist, würde es wahrscheinlich einige verallgemeinern.

Vielen Dank für alle Einblicke.

probability sampling

— Daniel
quelle

Ich habe gerade nach der letzten Gleichung zu Mathematics SE (Frage 791114) gefragt, weil mich auch interessiert, wie sie sich verallgemeinert, wenn überhaupt.

— Daniel

... und die kurze Antwort lautet, dass die letzte Gleichheit für gut erzogene PDFs korrekt ist. Die Antwort auf die Frage lautet also, dass die .632-Regel für eine Vielzahl von zugrunde liegenden Distributionen gilt.

— Daniel

Kann ich die Antwort eines anderen von einer anderen Site abrufen und hier als meine posten? Deshalb habe ich den kurzen Kommentar gepostet. Vielleicht gibt es einen akzeptierten Weg, dies zu tun, wenn ja, bin ich zugänglich.

— Daniel

Natürlich können Sie, erwähnen Sie einfach die Quelle irgendwann :)

— Firebug

@Firebug: Können Sie auf eine Instanz verweisen, in der dies getan wird, damit ich sehen kann, was Sie meinen? Vielen Dank.

— Daniel

Die Frage fragt nach dem einschränkenden Verhalten von

\begin{matrix} (1) & = 1 - \prod_{i = 1}^{n} (1 - F_{i}) \end{matrix}

$= 1 - \prod_{i=1}^n(1 - F_i)\tag{1}$

wenn wächst und das gleichmäßig schrumpft, so dass (a) alle nicht negativ sind und (b) sie sich zu einer Einheit summieren. (Diese ergeben sich aus dem Bau des $n$ $F_i$ $F_i$ und die Axiome der Wahrscheinlichkeit.)

Per Definition ist dieses Produkt das Exponential seines Logarithmus:

\prod_{i = 1}^{n} (1 - F_{i}) = \exp (\sum_{i = 1}^{n} \log (1 - F_{i})) .

$\prod_{i=1}^n(1 - F_i) = \exp\left(\sum_{i=1}^n\log\left(1-F_i\right)\right).$

$\log$ , legt dies fest

\log (1 - F_{i}) = - F_{i} - \frac{1}{2} ϕ_{i}^{2} \geq - F_{i} - \frac{1}{2} F_{i}^{2}

$\log\left(1-F_i\right) = -F_i - \frac{1}{2}\phi_i^2 \ge -F_i - \frac{1}{2}F_i^2$

$\phi_i$ $[0, F_i]$ $-F_i$ $1/2$ $F_i^2$ $n$ $F_i$ $\epsilon\gt 0$ $F_i$ $n\epsilon \gt \sum F_i = 1$

\sum_{i = 1}^{n} F_{i}^{2} \leq \sum_{i = 1}^{n} ϵ^{2} < \sum_{i = 1}^{n} {(\frac{1}{n})}^{2} = \frac{1}{n} .

$\sum_{i=1}^n F_i^2 \le \sum_{i=1}^n \epsilon^2 \lt \sum_{i=1}^n \left(\frac{1}{n}\right)^2 =\frac{1}{n}.$

Folglich

- 1 = - \sum_{i = 1}^{n} F_{i} \geq \sum_{i = 1}^{n} \log (1 - F_{i}) \geq - \sum_{i = 1}^{n} F_{i} - \frac{1}{2} \frac{1}{n} = - 1 - \frac{1}{2 n}

$-1 = -\sum_{i=1}^n F_i \ge \sum_{i=1}^n\log\left(1-F_i\right) \ge -\sum_{i=1}^n F_i - \frac{1}{2}\frac{1}{n} = -1 - \frac{1}{2n}$

$-1$ $\exp$ $\prod_{i=1}^n(1 - F_i)$ $\exp(-1)$

lim_{n \to \infty} (1 - \prod_{i = 1}^{n} (1 - F_{i})) = 1 - \exp (- 1) \approx 0.632,

$\lim_{n\to\infty} \left(1 - \prod_{i=1}^n(1 - F_i)\right) = 1 - \exp(-1) \approx 0.632,$

QED.

A closer look at this analysis establishes that the error in this approximation (which will always be a lower bound) is no greater in size than

(\exp ((n / 2) max (F_{i}^{2})) - 1) \exp (- 1) .

$\left(\exp\left((n/2)\max(F_i^2)\right) - 1\right)\exp(-1).$ For instance, the division of a standard Normal distribution into

n = 400

$n=400$ slices between

- 4

$-4$ and

4

$4$ produces a maximum

F_{i}

$F_i$ near the mode

0

$0$ , where it will approximately equal the area of a rectangle there,

\exp (- 1 / 2) / 50 \approx 0.012

$\exp(-1/2)/50 \approx 0.012$ . The foregoing bound establishes the value of formula

(1)

$(1)$ will be within

0.011

$0.011$ of its limiting value. The actual error is an order of magnitude less,

0.001041

$0.001041$ . Here's the calculation in R (which we can trust because none of the

f_{i}

$f_i$ is truly small relative to

1

$1$ ):

f <- diff(pnorm(seq(-4, 4, length.out=401))) # The normal "slices".
f <- f / sum(f)                              # Make them sum to unity.
exp(-1) - prod(1 - f)                        # Compute the error.

Indeed, 1 - prod(1-f) is $0.6331615\ldots$ whereas $1-\exp(-1)$ is $0.6321206\ldots$ .

— whuber
quelle

The error analysis is a very helpful aspect of this answer.

— daniel