Gleicher Mittelwert, unterschiedliche Varianz

Angenommen, Sie haben acht Läufer, die ein Rennen laufen. Die Verteilung der einzelnen Laufzeiten ist normal und hat beispielsweise jeweils einen Mittelwert von $11$ Sekunden. Die Standardabweichung von Läufer eins ist die kleinste, zwei die zweitkleinste, die drittkleinste usw. und acht die größte. Zwei Fragen verwirren mich: (1) Mit welcher Wahrscheinlichkeit schlägt der Erste den Letzten und (2) mit welcher Wahrscheinlichkeit gewinnt ich das Rennen?

Meine Antworten sind $1/2$ und $8$ dargestellt. Da sie teilen sich den gleichen Mittelwert, die Wahrscheinlichkeit , dass $\bar x_1-\bar x_8\lt 0$ ist nur $1/2$ , nicht wahr? Wie kann ich den zweiten Teil konsequent demonstrieren und kann eine genaue Gewinnwahrscheinlichkeit berechnet werden? Danke im Voraus.

— George Tedder
quelle

@Silverfish Beim Vergleich von first (modelliert als Zufallsvariable

) mit last (

, angenommen unabhängig von

) müssen wir nur

berücksichtigen . Dies hat eine symmetrische kontinuierliche Verteilung mit einem Mittelwert von Null. Die Chance , dass erste Schläge zuletzt die Möglichkeit, dass

, die (durch die Symmetrie und die Kontinuität) gleich

, wie beansprucht. Obwohl letzterer eine größere Chance hat, das Rennen zu gewinnen, gibt es kein Paradoxon: Meistens gewinnt jemand anderes das Rennen, wenn der erste Schlag der letzte ist .

X_{1}

$X_1$

X_{n}

$X_n$

X_{1}

$X_1$

Z = X_{1} - X_{n}

$Z=X_1-X_n$

Z < 0

$Z\lt 0$

1 / 2

$1/2$

— whuber

@whuber Danke, ich habe es geschafft, zu verwirren, was ich meinte - entfernen, um Verwirrung zu vermeiden. Die Zahl 1/2 ist richtig, aber die Antwort zum Vergleichen ihrer Durchschnittszeiten

ist falsch und scheint zu Verwirrung mit den Bevölkerungsmitteln zu führen. Wie Sie schreiben, sollte es der Unterschied in der

\bar{x_{i}}

$\bar{x_i}$

X_{i}

$X_i$

— Silverfish

@Silver Dies unterstreicht die Gefahr, dass wir immer wissen, was die Notation eines Menschen bedeutet, nur weil sie vertraut aussieht. Ich beschönigte diese Frage über (mit overlines , die auf „

“ und „

“) , weil die beabsichtigte Bedeutung war klar genug und deutete an, dass keiner von ihnen möglicherweise den Mittelwert von etwas darstellen könnte: in diesem Zusammenhang sie haben für das stehen Zufallsvariablen selbst (die ich

und

x_{1}

$x_1$

x_{8}

$x_8$

X_{1}

$X_1$

X_{n}

$X_n$

— whuber

Obwohl eine genaue Wahrscheinlichkeit nicht berechnet werden kann (außer unter besonderen Umständen mit ), kann sie schnell und mit hoher Genauigkeit numerisch berechnet werden. Trotz dieser Einschränkung kann konsequent nachgewiesen werden, dass der Läufer mit der größten Standardabweichung die größten Gewinnchancen hat. Die Abbildung zeigt die Situation und zeigt, warum dieses Ergebnis intuitiv ersichtlich ist: $n \le 2$

Die Wahrscheinlichkeitsdichten für die Zeiten von fünf Läufern sind gezeigt. Alle sind stetig und symmetrisch um einen gemeinsamen Mittelwert . (Es wurden skalierte Beta-Dichten verwendet, um sicherzustellen, dass alle Zeiten positiv sind.) Eine in dunklerem Blau gezeichnete Dichte hat eine viel größere Streuung. Der sichtbare Teil in seinem linken Schwanz repräsentiert Zeiten, mit denen normalerweise kein anderer Läufer mithalten kann. Da dieses linke Heck mit seiner relativ großen Fläche eine nennenswerte Wahrscheinlichkeit darstellt, hat der Läufer mit dieser Dichte die größte Chance, das Rennen zu gewinnen. (Sie haben auch die größte Chance, zuletzt zu kommen!) $\mu$

Diese Ergebnisse gelten nicht nur für Normalverteilungen: Die hier vorgestellten Methoden gelten auch für Verteilungen, die symmetrisch und stetig sind. (Dies ist für alle von Interesse, die gegen die Verwendung von Normalverteilungen zur Modellierung der Laufzeiten Einwände erheben.) Wenn diese Annahmen verletzt werden, hat der Läufer mit der größten Standardabweichung möglicherweise nicht die größte Gewinnchance Interessierte Leser), aber wir können immer noch unter milderen Voraussetzungen nachweisen, dass der Läufer mit der größten SD die besten Gewinnchancen hat, vorausgesetzt, die SD ist ausreichend groß.

Die Abbildung legt auch nahe, dass die gleichen Ergebnisse erzielt werden könnten, wenn einseitige Analoga der Standardabweichung (die sogenannte "Semivarianz") betrachtet werden, die die Streuung einer Verteilung nur auf einer Seite messen. Ein Läufer mit einer großen Streuung nach links (zu besseren Zeiten) sollte eine größere Gewinnchance haben, unabhängig davon, was im Rest der Verteilung passiert. Diese Überlegungen helfen uns zu verstehen, wie sich die Eigenschaft , der Beste (in einer Gruppe) zu sein, von anderen Eigenschaften wie Durchschnittswerten unterscheidet.

Sei eine Zufallsvariable, die die Laufzeiten der Läufer darstellt. Die Frage geht davon aus, dass sie unabhängig und normalverteilt mit dem gemeinsamen Mittelwert . (Obwohl dies buchstäblich ein unmögliches Modell ist, da es positive Wahrscheinlichkeiten für negative Zeiten enthält, kann es dennoch eine vernünftige Annäherung an die Realität sein, vorausgesetzt, die Standardabweichungen sind wesentlich kleiner als .) $X_1, \ldots, X_n$ $\mu$ $\mu$

Um das folgende Argument auszuführen, behalte die Annahme der Unabhängigkeit bei, gehe aber ansonsten von den Verteilungen des $X_i$ durch und dass diese Verteilungsgesetze alles sein können. Der Einfachheit halber sei auch angenommen, dass die Verteilung mit der Dichte stetig ist . Bei Bedarf können wir später weitere Annahmen treffen, sofern diese den Fall von Normalverteilungen einschließen. $F_i$ $F_n$ $f_n$

Für jedes und infinitesimales wird die Chance, dass der letzte Läufer eine Zeit in dem Intervall hat und der schnellste Läufer ist, durch Multiplizieren aller relevanten Wahrscheinlichkeiten erhalten (da alle Zeiten unabhängig sind): $y$ $dy$ $(y-dy, y]$

Pr (X_{n} \in (y - d y, y], X_{1} > y, \dots, X_{n - 1} > y) = f_{n} (y) d y (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) .

$\Pr(X_n \in (y-dy, y], X_1 \gt y, \ldots, X_{n-1} \gt y) = f_n(y)dy(1-F_{1}(y))\cdots(1-F_{n-1}(y)).$

Die Integration all dieser sich gegenseitig ausschließenden Möglichkeiten ergibt

Pr (X_{n} \leq min (X_{1}, X_{2}, \dots, X_{n - 1})) = \int_{R} f_{n} (y) (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) d y .

$\Pr(X_n \le \min(X_1, X_2, \ldots, X_{n-1})) = \int_{\mathbb R} f_n(y)(1-F_1(y))\cdots(1-F_{n-1}(y)) dy.$

Für Normalverteilungen kann dieses Integral nicht in geschlossener Form ausgewertet werden, wenn . Es muss numerisch ausgewertet werden. $n\gt 2$

Diese Figur zeigt den Integranden für jeden von fünf Läufern mit Standardabweichungen im Verhältnis 1: 2: 3: 4: 5. Je größer die SD, desto mehr wird die Funktion nach links verschoben - und desto größer wird ihre Fläche. Die Flächen sind ungefähr 8: 14: 21: 26: 31%. Insbesondere der Läufer mit dem größten SD hat eine Gewinnchance von 31%.

Obwohl keine geschlossene Form gefunden werden kann, können wir dennoch solide Schlussfolgerungen ziehen und beweisen, dass der Läufer mit der größten SD am wahrscheinlichsten gewinnt. Wir müssen untersuchen, was passiert, wenn sich die Standardabweichung einer der Verteilungen, beispielsweise , ändert. Wenn die Zufallsvariable um ihren Mittelwert mit skaliert wird , wird ihre SD mit multipliziert, und ändert sich zu $F_n$ $X_n$ $\sigma \gt 0$ $\sigma$ $f_n(y)dy$ $f_n(y/\sigma)dy/\sigma$ . Änderung der Variablen im Integral ergibt einen Ausdruck für die Gewinnchance von Läufer Abhängigkeit von : $y=x\sigma$ $n$ $\sigma$

ϕ (σ) = \int_{R} f_{n} (y) (1 - F_{1} (y σ)) \dots (1 - F_{n - 1} (y σ)) d y .

$\phi(\sigma) = \int_{\mathbb R} f_n(y)(1-F_1(y\sigma))\cdots(1-F_{n-1}(y\sigma)) dy.$

$n$ $f_i$ $0$ $f_n(y) = f_n(-y)$ $1 - F_j(-y) = F_j(y)$ for all $y$ . These relationships enable us to combine the integral over $(-\infty, 0]$ with the integral over $(0,\infty)$ to give

ϕ (σ) = \int_{0}^{\infty} f_{n} (y) (\prod_{j = 1}^{n - 1} (1 - F_{j} (y σ)) + \prod_{j = 1}^{n - 1} F_{j} (y σ)) d y .

$\phi(\sigma) = \int_0^{\infty} f_n(y)\left(\prod_{j=1}^{n-1}\left(1-F_j(y\sigma)\right)+\prod_{j=1}^{n-1}F_j(y\sigma)\right) dy.$

The function $\phi$ is differentiable. Its derivative, obtained by differentiating the integrand, is a sum of integrals where each term is of the form

y f_{n} (y) f_{i} (y σ) (\prod_{j \neq i}^{n - 1} F_{j} (y σ) - \prod_{j \neq i}^{n - 1} (1 - F_{j} (y σ)))

$y f_n(y) f_i(y\sigma)\left(\prod_{j\ne i}^{n-1}F_j(y\sigma) - \prod_{j\ne i}^{n-1}(1-F_j(y\sigma))\right)$

for $i=1, 2, \ldots, n-1$ .

The assumptions we made about the distributions were designed to assure that $F_j(x) \ge 1-F_j(x)$ for $x\ge 0$ . Thus, since $x=y\sigma\ge 0$ , each term in the left product exceeds its corresponding term in the right product, implying the difference of products is nonnegative. The other factors $y f_n(y) f_i(y\sigma)$ are clearly nonnegative because densities cannot be negative and $y\ge 0$ . We may conclude that $\phi^\prime(\sigma) \ge 0$ for $\sigma \ge 0$ , proving that the chance that player $n$ wins increases with the standard deviation of $X_n$ .

This is enough to prove that runner $n$ will win provided the standard deviation of $X_n$ is sufficiently large. This is not quite satisfactory, because a large SD could result in a physically unrealistic model (where negative winning times have appreciable chances). But suppose all the distributions have identical shapes apart from their standard deviations. In this case, when they all have the same SD, the $X_i$ are independent and identically distributed: nobody can have a greater or lesser chance of winning than anyone else, so all chances are equal (to $1/n$ ). Start by setting all distributions to that of runner $n$ . Now gradually decrease the SDs of all other runners, one at a time. As this occurs, the chance that $n$ wins cannot decrease, while the chances of all the other runners have decreased. Consequently, $n$ has the greatest chances of winning, QED.

— whuber
quelle

@Phonon That's correct. (But please do not confuse the distributions with estimates derived from samples. The distribution is a mathematical model, not a set of data.) Increasing the SD by a factor of

λ

$\lambda$ , say, uniformly stretches the horizontal axis. Because (by the Law of Total Probability) the density function will cover a unit area, that stretch must be compensated by a stretch of the vertical axis by

1 / λ

$1/\lambda$ , thereby preserving all areas. Thus, smaller SDs correspond to taller peaks and larger SDs to shorter peaks.

— whuber

Many thanks for your reply, makes perfect sense. So knowledge of peak values alone in this sense is rather important.

— Phonon