Das Paradox von iid-Daten (zumindest für mich)

Soweit meine gesammelten (und knappen) statistischen Kenntnisse dies zulassen , habe ich verstanden, dass, wenn Zufallsvariablen sind, sie, wie der Begriff impliziert, unabhängig und identisch verteilt sind. $X_1, X_2,..., X_n$

Mein Anliegen ist hier die frühere Eigenschaft von iid samples, die lautet:

p (X_{n} | X_{i_{1}}, X_{i_{2}}, . . ., X_{i_{k}}) = p (X_{n}),

$p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}),$

für jede Sammlung von verschiedenen 's st . $i_j$ $1 \leq i_j < n$

Es ist jedoch bekannt, dass das Aggregat unabhängiger Stichproben identischer Verteilungen Informationen über die Verteilungsstruktur und im obigen Fall über liefert. Daher sollte es in der Tat nicht so sein, dass: $X_n$

p (X_{n} | X_{i_{1}}, X_{i_{2}}, . . ., X_{i_{k}}) = p (X_{n}) .

$p(X_{n}|X_{i_1},X_{i_2},...,X_{i_k}) = p(X_{n}).$

Ich weiß, dass ich Opfer eines Irrtums bin, aber ich weiß nicht warum. Bitte helfen Sie mir dabei.

sampling conditional-probability independence

— Cupitor
quelle

Kennst du die Bayes-Regel? Von Klassikern gehört. vs Bayes'sche Statistik? Priors?

— Matthew Gunn

Ich folge dem Argument am Ende Ihrer Frage nicht. Können Sie präziser sein?

— Glen_b

@ Glen_b Was genau ist es, dem du nicht folgst? Was meinst du damit? Ich versuche mit verschiedenen Logiken zu sagen, dass sowohl Gleichheit als auch Ungleichheit plausibel erscheinen, was paradox ist.

— Cupitor

Hier gibt es kein Paradoxon - nur die Nichtanwendung der entsprechenden Definitionen. Sie können nicht behaupten, ein Paradoxon zu haben, wenn Sie die Bedeutung der von Ihnen verwendeten Wörter ignorieren! In diesem Fall zeigt der Vergleich der Definition von unabhängig mit der von Wahrscheinlichkeit den Fehler.

— whuber

@whuber, ich nehme an, du hast das explizite "(zumindest für mich)" im Titel meiner Frage bemerkt und auch die Tatsache, dass ich um Hilfe bitte, um den "Trugschluss" meiner Argumentation zu finden, was auf die Tatsache hinweist, dass dies der Fall ist ist in der Tat kein echtes Paradoxon.

— Cupitor

Antworten:

Ich denke, Sie verwechseln ein geschätztes Modell einer Verteilung mit einer Zufallsvariablen . Lassen Sie uns die Unabhängigkeitsannahme wie folgt umschreiben: was besagt, dass, wenn Sie die zugrunde liegende Verteilung von ( und kann es zum Beispiel durch einen Satz von Parametern ; identifizieren

\begin{matrix} (1) & P (X_{n} | θ, X_{i_{1}}, X_{i_{2}}, \dots, X_{i_{k}}) = P (X_{n} | θ) \end{matrix}

$P(X_n | \theta, X_{i_1}, X_{i_2}, \dots, X_{i_k}) = P(X_n | \theta) \tag{1}$ $X_n$

θ

$\theta$ ) dann ändert sich die Verteilung nicht, da Sie einige Proben davon beobachtet haben.

Stellen Sie sich beispielsweise als die Zufallsvariable vor, die das Ergebnis des ten Münzwurfs darstellt. Die Kenntnis der Wahrscheinlichkeit von Kopf und Schwanz für die Münze (die übrigens in thgr; codiert ist) reicht aus, um die Verteilung von . Insbesondere ändert das Ergebnis der vorhergehenden Würfe nicht die Wahrscheinlichkeit von Kopf oder Schwanz für den ten Wurf, und gilt. $X_n$ $n$ $\theta$ $X_n$ $n$ $(1)$

Es ist jedoch zu beachten, dass . $P(\theta | X_n) \neq P(\theta | X_{i_1}, X_{i_2}, \dots, X_{i_k})$

— Sobi
quelle

Vielen Dank. Auf den Punkt gebracht. Sehr witzig, dass ich vor einiger Zeit eine solche Antwort erraten habe, diese aber vergessen habe ... Soweit ich weiß, geht der Irrtum mit der impliziten Annahme eines "Modells" einher, das die Verteilung von Zufallsvariablen parametrisieren kann. Habe ich es richtig gesagt?

— Cupitor

@Cupitor: Ich bin froh, dass es nützlich war. Ja, abhängig vom Modell beeinflussen sich die unabhängigen Zufallsvariablen nicht gegenseitig. Wie wahrscheinlich es ist, dass eine bestimmte Verteilung eine Folge von Ergebnisänderungen erzeugt hat, wenn Sie mehr Stichproben aus der zugrunde liegenden (wahren) Verteilung sehen (unabhängig von der Annahme der Unabhängigkeit).

— Sobi

Wenn Sie einen Bayes'schen Ansatz wählen und Parameter behandeln, die die Verteilung von als zufällige Variable / Vektor beschreiben, sind die Beobachtungen zwar nicht unabhängig, aber bei Kenntnis von wären sie bedingt unabhängig , daher würde gelten. $X$ $\theta$ $P(X_n \mid X_{n-1}, \ldots X_1, \theta) = P(X_n \mid \theta)$

In einem klassischen statistischen Ansatz, ist nicht eine Zufallsvariable. Berechnungen werden so durchgeführt, als ob wir wissen, was ist. In gewissem Sinne konditionieren Sie immer auf (auch wenn Sie den Wert nicht kennen). $\theta$ $\theta$ $\theta$

Als Sie geschrieben haben, "... geben Sie Informationen über die Verteilungsstruktur und als Ergebnis über ", haben Sie implizit einen Bayes'schen Ansatz gewählt, dies jedoch nicht genau getan. Sie schreiben eine Eigenschaft von IID-Samples, die ein Frequentist schreiben würde, aber die entsprechende Aussage in einem Bayes'schen Setup würde die Konditionierung von . $X_n$ $\theta$

Bayesian vs. Klassische Statistiker

Sei das Ergebnis des Umwerfens einer einseitigen, unfairen Münze. Wir wissen nicht, mit welcher Wahrscheinlichkeit die Münze landet. $x_i$

Für den klassischen Statistiker ist der Frequentist ein Parameter, nennen wir ihn . Beachten Sie, dass hier ein Skalar ist, wie die Zahl 1/3. Wir wissen vielleicht nicht, was die Nummer ist, aber es ist eine Nummer! Es ist nicht zufällig! $P(x_i = H)$ $\theta$ $\theta$
Für den Bayes'schen Statistiker ist selbst eine Zufallsvariable! Das ist extrem anders! $\theta$

Die Schlüsselidee dabei ist, dass der Bayes-Statistiker die Wahrscheinlichkeitswerkzeuge auf Situationen ausdehnt, in denen der klassische Statistiker dies nicht tut . Für den Frequentisten ist keine Zufallsvariable, da es nur einen möglichen Wert hat ! Mehrfachnennungen sind nicht möglich! In der Vorstellung des Bayesian sind jedoch mehrere Werte von möglich, und der Bayesianer ist bereit, diese Unsicherheit (in seinem eigenen Verstand) unter Verwendung der Wahrscheinlichkeitswerkzeuge zu modellieren. $\theta$ $\theta$

Wohin geht das?

$n$

P (x_{n} = H ∣ x_{n - 1}, x_{n - 2}, \dots, x_{1}) = P (x_{n} = H) = θ

$P(x_n=H \mid x_{n-1}, x_{n-2}, \ldots,x_{1}) = P(x_n=H) = \theta$

θ

$\theta$

Eine Bayesianerin mit einer tiefen subjektiven Wahrscheinlichkeit würde sagen, dass die Wahrscheinlichkeit aus ihrer Perspektive wichtig ist ! . Wenn sie 10 Köpfe in einer Reihe sieht, ist ein 11. Kopf wahrscheinlicher, weil 10 Köpfe in einer Reihe einen dazu veranlassen, zu glauben, dass die Münze zugunsten der Köpfe schief steht.

P (x_{11} = H ∣ x_{10} = H, x_{9} = H, \dots, x_{1} = H) > P (x_{1} = H)

$P(x_{11} = H \mid x_{10}=H, x_{9}=H, \ldots,x_{1}=H) > P(x_1 = H)$

$\theta$ $\theta$ $\theta$

P (x_{11} = H ∣ x_{10} = H, x_{9} = H, \dots, x_{1} = H, θ) = P (x_{1} = H ∣ θ) = θ

$P(x_{11} = H \mid x_{10}=H, x_{9}=H, \ldots,x_{1}=H, \theta) = P(x_1 = H \mid \theta) = \theta$

$\theta$ $\theta$

Weitere Hinweise

Ich habe mein Bestes gegeben, um hier ein kurzes Intro zu geben, aber was ich getan habe, ist bestenfalls recht oberflächlich und die Konzepte sind in gewissem Sinne ziemlich tief. Wenn Sie in die Philosophie der Wahrscheinlichkeit eintauchen möchten, ist Savages 1954 erschienenes Buch Foundation of Statistics ein Klassiker. Google für Bayesian vs. Frequentist und jede Menge Sachen werden auftauchen.

Eine andere Möglichkeit, über IID-Zeichnungen nachzudenken, ist der Satz von de Finetti und der Begriff der Austauschbarkeit . In einem Bayes'schen Rahmen entspricht die Austauschbarkeit der Unabhängigkeit, die von einer latenten Zufallsvariablen (in diesem Fall der Einseitigkeit der Münze) abhängig ist.

— Matthew Gunn
quelle

Im Wesentlichen würde der Bayes'sche Ansatz eine Aussage "iid random variables" nicht als ein Axiom behandeln, dass sie IID sein müssen , sondern nur als eine sehr starke vorherige Annahme, dass dies so ist - und wenn noch stärkere Beweise darauf hindeuten, dass es äußerst unwahrscheinlich ist, dass das gegeben ist Wenn die Annahmen stimmen, wird sich dieser "Unglaube an die gegebenen Bedingungen" in den Ergebnissen niederschlagen.

— Peteris

Vielen Dank für Ihre ausführliche Antwort. Ich habe es positiv bewertet, aber ich denke, Sobis Antwort zeigt expliziter auf, wo das Problem liegt, dh implizit die Modellstruktur

— vorauszusetzen

@ Matthew Gunn: ordentlich, gründlich und sehr gut erklärt! Ich habe ein paar Dinge aus Ihrer Antwort gelernt, danke!

— Sobi