Intuitive Erklärung von Verteilungskonvergenz und Wahrscheinlichkeitskonvergenz

26

Was ist der intuitive Unterschied zwischen einer zufälligen Variablen, deren Wahrscheinlichkeit konvergiert, und einer zufälligen Variablen, deren Verteilung konvergiert?

Ich habe zahlreiche Definitionen und mathematische Gleichungen gelesen, aber das hilft nicht wirklich. (Bitte denken Sie daran, dass ich Student im Grundstudium der Ökonometrie bin.)

Wie kann eine Zufallsvariable zu einer einzelnen Zahl, aber auch zu einer Verteilung konvergieren?

— nicefella
quelle

1

"Wie kann eine Zufallsvariable zu einer einzelnen Zahl, aber auch zu einer Verteilung konvergieren ?" - Ich denke, Sie sollten klären, ob Ihre Verwirrung darin besteht, dass Wohnmobile im Allgemeinen entweder zu einzelnen Zahlen oder zu einer ganzen Verteilung konvergieren können (weniger rätselhaft, wenn Sie erkennen, dass die "einzelne Zahl" im Wesentlichen eine spezielle Art von Verteilung ist). oder ist Ihre Verwirrung, wie ein einzelnes RV zu einer Konstante gemäß einer Konvergenzart, aber zu einer Verteilung gemäß einer anderen Konvergenzart konvergieren könnte?

— Silverfish

1

Wie @CloseToC ich frage mich , ob Sie schon über Regressionen kommen , wo auf der einen Seite man euch erzählt

ist „asymptotisch normal“ , aber auf der anderen Seite sind Sie gewesen gesagt , dass es zum wahren konvergiert

.

\hat{β}

$\hat \beta$

β

$\beta$

— Silberfischchen

@Silverfish habe ich eigentlich nicht!

— Nicole

25

Wie kann eine Zufallszahl zu einer Konstanten konvergieren?

Nehmen wir an, Sie haben Bälle in der Schachtel. Sie können sie einzeln auswählen. Nachdem Sie Bälle ausgewählt haben, frage ich Sie: Was ist das Durchschnittsgewicht der Bälle in der Schachtel? Ihre beste Antwort wäre $N$ $k$ . Sie erkennen, dassselbst der Zufallswert ist? Es kommt darauf an, welcheBälle du zuerst ausgesucht hast. $\bar x_k=\frac{1}{k}\sum_{i=1}^kx_i$ $\bar x_k$ $k$

Wenn Sie nun weiter an den Bällen ziehen, sind irgendwann keine Bälle mehr in der Schachtel und Sie erhalten . $\bar x_N\equiv\mu$

Wir haben also die Zufallsfolge die konvergent auf die konstante. Der Schlüssel zum Verständnis Ihres Problems mit Konvergenz der Wahrscheinlichkeit liegt also in der Erkenntnis, dass es sich umeine Folge von Zufallsvariablen handelt, die auf eine bestimmte Weise konstruiert sind.

{\bar{x}}_{1}, \dots, {\bar{x}}_{k}, \dots, {\bar{x}}_{N}, {\bar{x}}_{N}, {\bar{x}}_{N}, \dots

$\bar x_1,\dots,\bar x_k, \dots, \bar x_N ,\bar x_N, \bar x_N, \dots$

{\bar{x}}_{N} = μ

$\bar x_N = \mu$

Als nächstes erhalten wir einheitliche Zufallszahlen , wobei . Schauen wir uns die Zufallsfolge , wobei $e_1,e_2,\dots$ $e_i\in [0,1]$ $\xi_1,\xi_2,\dots$ . Das ist ein Zufallswert, da alle seine Terme Zufallswerte sind. Wir können nicht vorhersagenwas zu gehen. Es stellt sich jedoch heraus, dass wir behaupten können, dass die Wahrscheinlichkeitsverteilungen vonimmer mehr der normalenwerden. So laufen die Verteilungen zusammen. $\xi_k=\frac{1}{\sqrt{\frac{k}{12}}}\sum_{i=1}^k \left(e_i- \frac{1}{2} \right)$ $\xi_k$ $\xi_k$ $\xi_k$ $\mathcal{N}(0,1)$

— Aksakal
quelle

1

Wie lautet die Reihenfolge der Zufallsvariablen in Ihrem ersten Beispiel, nachdem Sie N erreicht haben? Wie wird das Limit bewertet?

— Freitag,

Es ist nur eine Intuition. Stellen Sie sich die unendliche Schachtel vor, also Ihren Schätzer

konvergiert

gegen das Populationsmittel

.

{\bar{x}}_{\infty}

$\bar x_\infty$

μ

$\mu$

— Aksakal

21

Es ist nicht klar, wie viel Intuition ein Leser dieser Frage über die Konvergenz von irgendetwas haben könnte, geschweige denn über zufällige Variablen. Ich werde also schreiben, als ob die Antwort "sehr wenig" wäre. Etwas, das helfen könnte: anstatt zu überlegen, wie eine Zufallsvariable konvergieren kann, fragen Sie, wie eine Folge von Zufallsvariablen konvergieren kann. Mit anderen Worten, es ist nicht nur eine einzelne Variable, sondern eine (unendlich lange!) Liste von Variablen, und diejenigen, die später in der Liste stehen, nähern sich immer mehr ... etwas an. Vielleicht eine einzelne Nummer, vielleicht eine ganze Verteilung. Um eine Intuition zu entwickeln, müssen wir herausfinden, was "näher und näher" bedeutet. Der Grund, warum es so viele Konvergenzmodi für Zufallsvariablen gibt, ist, dass es verschiedene Arten von "

Lassen Sie uns zunächst die Konvergenz von Folgen reeller Zahlen zusammenfassen. In wir die euklidische Distanz $\mathbb{R}$ $|x-y|$ um zu messen, wie nah an . Betrachte $x$ $y$ . Dann ist die Folge $x_n = \frac{n+1}{n} = 1 + \frac{1}{n}$ startet $x_1, \, x_2, \, x_3, \dots$ und ich behaupte, dassgegenkonvergiert. Offensichtlichwird immernäherzu, aber es ist auch wahrdassrückt näher zu. Beispielsweise haben die Terme in der Sequenz ab dem dritten Term einen Abstand vonoder weniger von. Was zählt ist, dass siewillkürlichnahe an, aber nicht an. Keine Terme in der Sequenz liegen jemals innerhalb vonvon $2, \frac{3}{2}, \frac{4}{3}, \frac{5}{4}, \frac{6}{5}, \dots$ $x_n$ $1$ $x_n$ $1$ $x_n$ $0.9$ $0.5$ $0.9$ $1$ $0.9$ $0.05$ $0.9$ , geschweige denn, dass für nachfolgende Begriffe in der Nähe bleiben. Im Gegensatz dazu ist also von , und alle nachfolgenden Terme liegen innerhalb von von , wie unten gezeigt. $x_{20}=1.05$ $0.05$ $1$ $0.05$ $1$

Konvergenz von (n + 1) / n zu 1

Ich könnte strenger sein und Ausdrücke fordern und innerhalb von von bleiben , und in diesem Beispiel finde ich, dass dies für die Ausdrücke und weiter gilt. Außerdem konnte ich jede feste Schwelle der Nähe wählen , egal wie streng (mit Ausnahme von , dh der Term ist tatsächlich ) und schließlich die Bedingung wird für alle Terme nach einem bestimmten Term erfüllt (symbolisch: für , wobei der Wert von $0.001$ $1$ $N=1000$ $\epsilon$ $\epsilon = 0$ $1$ $|x_n - x| \lt \epsilon$ $n \gt N$ $N$ hängt davon ab, wie streng ein $\epsilon$ ich gewählt haben). Bei komplexeren Beispielen ist zu beachten, dass ich nicht unbedingt daran interessiert bin, dass die Bedingung zum ersten Mal erfüllt wird - der nächste Begriff entspricht möglicherweise nicht der Bedingung, und das ist in Ordnung, solange ich in der Sequenz einen weiteren Begriff finde, für den Die Bedingung ist erfüllt und bleibt für alle späteren Bedingungen erfüllt. Ich illustriere dies für , das ebenfalls gegenkonvergiert, mitwieder schattiert. $x_n = 1 + \frac{\sin(n)}{n}$ $1$ $\epsilon=0.05$

Konvergenz von 1 + sin (n) / n zu 1

Betrachten Sie nun und die Folge von Zufallsvariablen $X \sim U(0,1)$ . Dies ist eine Folge von Wohnmobilen mit $X_n = \left(1 + \frac{1}{n}\right) X$ , $X_1 = 2X$ , $X_2 = \frac{3}{2} X$ und so weiter. Inwiefern können wir sagen, dass dies näher anselbstrückt? $X_3 = \frac{4}{3} X$ $X$

Da und Verteilungen sind, nicht nur einzelne Zahlen, ist die Bedingung ist jetzt ein Ereignis : Auch für ein festes und dies vorkommen oder nicht . Wenn man bedenkt, wie wahrscheinlich es ist, führt es zu einer Konvergenz der Wahrscheinlichkeit . Für wollen wir die komplementäre Wahrscheinlichkeit $X_n$ $X$ $|X_n - X| \lt \epsilon$ $n$ $\epsilon$ $X_n \overset{p}{\to} X$ $P(|X_n - X| \ge \epsilon)$ - intuitiv die Wahrscheinlichkeit, dass etwas anders ist (um mindestens ) als - willkürlich klein zu werden, für ausreichend großes . Für ein festes ergibt sich eine ganze Folge von Wahrscheinlichkeiten , , , $X_n$ $\epsilon$ $X$ $n$ $\epsilon$ $P(|X_1 - X| \ge \epsilon)$ $P(|X_2 - X| \ge \epsilon)$ , und wenn diese Folge von Wahrscheinlichkeiten konvergiert gegen Null (wie in unserem Beispiel geschieht)dann sagen wir konvergiert in Wahrscheinlichkeit . Beachtendass Wahrscheinlichkeitsgrenzen sind oft Konstanten: zum Beispiel in Regressionen in Ökonometrie, sehen wir , wie wir die Probengröße erhöhen . Aber hier ist . Konvergenz der Wahrscheinlichkeit bedeutet effektiv, dass es unwahrscheinlich ist, dass $P(|X_3 - X| \ge \epsilon)$ $\dots$ $X_n$ $X$ $\text{plim}(\hat \beta) = \beta$ $n$ $\text{plim}(X_n) = X \sim U(0,1)$ und werden sich bei einer bestimmten Erkenntnis stark unterscheiden - und ich kann die Wahrscheinlichkeit, dass und weiter als auseinander liegen, so klein machen, wie ich möchte, solange ich ein ausreichend großes wähle. $X_n$ $X$ $X_n$ $X$ $\epsilon$ $n$

Ein anderer Sinn, in dem näher an kommt, besteht darin, dass ihre Verteilungen sich immer ähnlicher werden. Ich kann dies messen, indem ich ihre CDFs vergleiche. Insbesondere Pick einig , an dem kontinuierlich (in unserem Beispiel , so dass ihr CDF kontinuierlichen überall und jeder tun wird) und bewerten die CDFs der Folge von s gibt. Dies erzeugt eine andere Folge von Wahrscheinlichkeiten, $X_n$ $X$ $x$ $F_X(x) = P(X \leq x)$ $X \sim U(0,1)$ $x$ $X_n$ , , , und diese Sequenz konvergiert gegen . Die CDFs bei ausgewertet für jedes der werden willkürlich nahe der CDF von bei ausgewertet . Wenn dieses Ergebnis unabhängig von dem ausgewählten zutrifft,konvergiert gegen $P(X_1 \leq x)$ $P(X_2 \leq x)$ $P(X_3 \leq x)$ $\dots$ $P(X \leq x)$ $x$ $X_n$ $X$ $x$ $x$ $X_n$ im Vertrieb. Es stellt sich heraus, dass dies hier passiert, und wir sollten nicht überrascht sein, da die Konvergenz der Wahrscheinlichkeit zu die Konvergenz der Verteilung zu impliziert. Es ist zu beachten, dasses nicht der Fall sein kann, dass in der Wahrscheinlichkeit zu einer bestimmten nicht entarteten Verteilung konvergiert, sondern in der Verteilung zu einer Konstanten. (Was war möglicherweise der Grund für Verwirrung in der ursprünglichen Frage? Beachten Sie jedoch eine spätere Klarstellung.) $X$ $X$ $X$ $X_n$

Für ein anderes Beispiel sei . Wir haben jetzt eine Folge von RVs,, $Y_n \sim U(1, \frac{n+1}{n})$ $Y_1 \sim U(1,2)$ , $Y_2 \sim U(1,\frac{3}{2})$ ,und es ist klar, dass die Wahrscheinlichkeitsverteilung zu einer Spitze beidegeneriert. Betrachten wir nun die entartete Verteilung, womit ichmeine. Es ist leicht zu erkennen, dass für jedesdie Sequenzwahrscheinlicher ist. Folglichmuss auchgegenkonvergieren $Y_3 \sim U(1,\frac{4}{3})$ $\dots$ $y=1$ $Y=1$ $P(Y=1)=1$ $\epsilon \gt 0$ $P(|Y_n - Y| \ge \epsilon)$ gegen Null konvergiert, so dass gegen konvergiert $Y_n$ $Y$ $Y_n$ $Y$ in der Verteilung , was wir anhand der CDFs bestätigen können. Da die CDF von bei diskontinuierlich ist brauchen wir nicht die CDFs auf diesem Wert ausgewertet betrachten, sondern auch für die an jedem anderen ausgewertet CDFs können wir , dass die Sequenz siehe , , $F_Y(y)$ $Y$ $y=1$ $y$ $P(Y_1 \leq y)$ $P(Y_2 \leq y)$ , konvergiert gegen das für und für Null ist. Diesmal konvergierte die Verteilung der RVs ebenfalls zu einer Konstanten, da die Wahrscheinlichkeit der Konvergenz der Sequenz gegen eine Konstante bestand. $P(Y_3 \leq y)$ $\dots$ $P(Y \leq y)$ $y \lt 1$ $y \gt 1$

Einige abschließende Klarstellungen:

Obwohl Konvergenz der Wahrscheinlichkeit Konvergenz der Verteilung impliziert, ist die Umkehrung im Allgemeinen falsch. Nur weil zwei Variablen die gleiche Verteilung haben, heißt das nicht, dass sie wahrscheinlich nahe beieinander liegen müssen. Für ein einfaches Beispiel, nehmen und . Dann haben und beide genau die gleiche Verteilung (mit einer Wahrscheinlichkeit von jeweils 50% von Null oder Eins) und die Folge dh die Folge nach $X\sim\text{Bernouilli}(0.5)$ $Y=1-X$ $X$ $Y$ $X_n=X$ $X,X,X,X,\dots$ Konvergiert trivial in der Verteilung zu konvergiert nicht auf in Wahrscheinlichkeit. Wenn es jedoch eine Konvergenz der Verteilung zu einer Konstanten gibt, impliziert dies eine Konvergenz der Wahrscheinlichkeit zu dieser Konstanten (intuitiv wird es im weiteren Verlauf unwahrscheinlich, dass sie von dieser Konstante weit entfernt ist). $Y$ (Die CDF an einer beliebigen Position in der Sequenz ist dieselbe wie die CDF von ). Aber und ist immer ein auseinander, so , so neigt nicht auf Null, so $Y$ $Y$ $X$ $P(|X_n - Y| \ge 0.5)=1$ $X_n$ $Y$
Wie meine Beispiele verdeutlichen, kann die Wahrscheinlichkeitskonvergenz konstant sein, muss es aber nicht sein. Konvergenz in der Verteilung könnte auch eine Konstante sein. Es ist nicht möglich, die Wahrscheinlichkeit zu einer Konstanten zu konvergieren, sondern die Verteilung zu einer bestimmten nicht entarteten Verteilung zu konvergieren oder umgekehrt.
Ist es möglich, dass Sie ein Beispiel gesehen haben, in dem Ihnen beispielsweise mitgeteilt wurde, dass eine Sequenz andere Sequenz konvergiert hat $X_n$ $Y_n$ ? Sie haben vielleicht nicht bemerkt, dass es sich um eine Sequenz handelt, aber das Give-away wäre, wenn es eine Distribution wäre, die auch von abhängt . Möglicherweise konvergieren beide Sequenzen zu einer Konstanten (degenerierte Verteilung). Ihre Frage lässt vermuten, dass Sie sich fragen, wie eine bestimmte Sequenz von Wohnmobilen sowohl zu einer Konstanten als auch zu einer Verteilung konvergieren könnte. Ich frage mich, ob dies das Szenario ist, das Sie beschreiben. $n$
Meine derzeitige Erklärung ist nicht sehr "intuitiv" - ich wollte die Intuition grafisch darstellen, hatte aber noch keine Zeit, die Grafiken für die Wohnmobile hinzuzufügen.

— Silberfisch
quelle

16

Meiner Meinung nach vermitteln die vorhandenen Antworten alle nützliche Punkte, aber sie machen keinen wichtigen Unterschied zwischen den beiden Konvergenzarten deutlich.

Sei , und Zufallsvariablen. Stellen Sie sich für die Intuition vor, dass ihre Werte durch ein Zufallsexperiment zugewiesen bekommen , das sich für jedes ein wenig ändert , was eine unendliche Folge von Zufallsvariablen ergibt, und nehmen Sie an, dass $X_n$ $n=1,2,\dots$ $Y$ $X_n$ $n$ $Y$ ergibt. bekommt seinen Wert durch ein anderes Zufallsexperiment zugewiesen.

Wenn , die wir haben, per definitionem, dass die Wahrscheinlichkeit von und durch eine beliebig kleine Menge voneinander unterscheiden gegen Null als , für so wenig , wie Sie möchten. Wir sind uns sicher, dass und weit außerhalb der Folge von sehr nahe beieinander liegen werden. $X_n\overset{p}{\to}Y$ $Y$ $X_n$ $n\to\infty$ $X_n$ $X_n$ $Y$

Auf der anderen Seite, wenn wir nur die Konvergenz in Verteilung haben und nicht die Konvergenz in Wahrscheinlichkeit, dann wissen wir , dass für große , fast die gleiche wie , für fast jeden . Beachten Sie, dass dies nichts darüber aussagt, wie nahe die Werte von und beieinander liegen. Zum Beispiel, wenn und damit $n$ $P(X_n\leq x)$ $P(Y\leq x)$ $x$ $X_n$ $Y$ $Y\sim N(0, 10^{10})$ $X_n$ für großes ziemlich genau so verteilt -Variablen sein. , dann scheint es intuitiv wahrscheinlich, dass sich die Werte von und bei jeder gegebenen Beobachtung ziemlich stark unterscheiden. Denn wenn es keine anderen Beschränkungen als die Konvergenz der Verteilung gibt, können sie aus praktischen Gründen unabhängig sein. $n$ $X_n$ $Y$ $N(0,10^{10})$

(In einigen Fällen ist es möglicherweise nicht sinnvoll, und zu vergleichen. Vielleicht sind sie nicht einmal im gleichen Wahrscheinlichkeitsraum definiert. Dies ist jedoch eine eher technische Anmerkung.) $X_n$ $Y$

— ekvall
quelle

1

(+1) Sie brauchen nicht einmal das

zu variieren - ich wollte meiner Antwort einige Details hinzufügen, entschied mich jedoch aus Gründen der Länge dagegen. Aber ich denke, es ist einen Punkt wert, darauf hinzuweisen.

X_{n}

$X_n$

— Silverfish

12

Was ich nicht verstehe, ist, wie eine Zufallsvariable zu einer einzelnen Zahl, aber auch zu einer Verteilung konvergieren kann?

Wenn Sie Ökonometrie lernen, fragen Sie sich dies wahrscheinlich im Kontext eines Regressionsmodells. Es konvergiert zu einer entarteten Verteilung, zu einer Konstanten. Aber etwas anderes hat eine nicht entartete begrenzende Verteilung.

konvergiert in Wahrscheinlichkeitwenn die notwendigen Voraussetzungen erfüllt sind. Dies bedeutet, dass durch Auswahl einer ausreichend großen Stichprobengrößeder Schätzer dem wahren Parameter so nahe kommt, wie wir möchten, wobei die Wahrscheinlichkeit, dass er weiter entfernt ist, so gering ist, wie wir möchten. Wenn Sie von der grafischen Darstellung des Histogramms denkenfür verschiedene, wird es schließlich seinnur eine Spitze auf zentriert. $\hat{\beta}_n$ $\beta$ $N$ $\hat{\beta}_n$ $n$ $\beta$

In welchem Sinn macht Converge im Vertrieb? Es konvergiert auch zu einer Konstanten. Nicht auf eine normalverteilte Zufallsvariable. Wenn Sie die Varianz berechnen Sie sehen , dass es schrumpft mit . So wird es schließlich in groß genug auf Null gehen, weshalb der Schätzer auf eine Konstante geht. Was zu einer normalverteilten Zufallsvariablen konvergiert, ist $\hat{\beta}_n$ $\hat{\beta}_n$ $n$ $n$

. Wenn Sie die Varianz davon nehmen, werden Sie sehen, dass es mitnicht schrumpft (oder wächst). Bei sehr großen Stichproben ist diesunter Standardannahmenungefähr. Wir können dann diese Annäherung verwendendie Verteilung der zur Annäherung $\sqrt{n}(\hat{\beta}_n - \beta)$ $n$ $N(0, \sigma^2)$ $\hat{\beta}_n$ in dieser großen Probe.

Aber Sie haben Recht , dass die Grenzverteilung von ist auch eine Konstante. $\hat{\beta}_n$

— CloseToC
quelle

1

Betrachten Sie dies als "Betrachten von

mit einer Lupe", wobei die Vergrößerung mit

mit der Rate

zunimmt

\hat{β_{n}}

$\hat{\beta_n}$

n

$n$

.

\sqrt{n}

$\sqrt{n}$

— kjetil b halvorsen

7

Lassen Sie mich versuchen, anhand einiger sehr einfacher Beispiele eine sehr kurze Antwort zu geben.

Konvergenz in der Verteilung

Sei , für alle n, dannkonvergent zuinVerteilung. Die Zufälligkeit bei der Realisierung vonändert sich jedoch nicht mit der Zeit. Wenn wir den Wert vonvorhersagen müssen,ändert sich die Erwartung unseres Fehlers mit der Zeit nicht. $X_n \sim N\left(\frac{1}{n}, 1 \right)$ $X_n$ $X \sim N(0, 1)$ $X_n$ $X_n$

Konvergenz der Wahrscheinlichkeit

Betrachten Sie nun die Zufallsvariable , die mit einer Wahrscheinlichkeit von Wert annimmt $Y_n$ $0$ undsonst. Wenngegen unendlich geht, sind wir uns immer sicherer, dassgleich. Daher sagen wir, dassmit der Wahrscheinlichkeit gegenkonvergiert. Beachten Sie, dass dies auch impliziert, dassin der Verteilung aufkonvergiert. $1-\frac{1}{n}$ $1$ $n$ $Y_n$ $0$ $Y_n$ $0$ $Y_n$ $0$

— Sven
quelle