Was ist so cool an de Finettis Repräsentationssatz?

Aus der Theorie der Statistik von Mark J. Schervish (Seite 12):

DeFinettis Repräsentationssatz 1.49 ist zwar von zentraler Bedeutung für die Motivierung parametrischer Modelle, wird jedoch in ihrer Implementierung nicht verwendet.

Wie ist der Satz von zentraler Bedeutung für parametrische Modelle?

— gui11aume
quelle

Ich denke, dass es für Bayesianische Modelle von zentraler Bedeutung ist. Ich habe gerade mit Singleton darüber gesprochen. Es ist wichtig, dass in der Bayes'schen Statistik nichts außer den Bayes'schen übersehen wird, die Anhänger von deFinetti waren. Siehe diese Referenz von Diaconis und Freedman aus dem Jahr 1980

— Michael Chernick

@ Kardinal: Seite 12 (Ich habe die Frage aktualisiert).

— gui11aume

Beachten Sie, dass Schervish sagte "... zentral für parametrische Modelle ...".

motivating

$\textbf{motivating}$

— Zen

Ich habe mich oft gefragt, wie viel von der Darstellung "real" ist und wie viel auf bestimmten Interpretationen des Theorems basiert. Es kann zur Beschreibung einer früheren Verteilung genauso einfach verwendet werden wie zur Beschreibung eines Modells.

— Wahrscheinlichkeitslogik

Antworten:

De Finettis Repräsentationssatz gibt in einer einzigen Darstellung innerhalb der subjektivistischen Interpretation von Wahrscheinlichkeiten die Existenzberechtigung statistischer Modelle und die Bedeutung von Parametern und ihrer vorherigen Verteilungen an.

Angenommen, die Zufallsvariablen stellen die Ergebnisse aufeinanderfolgender Münzwürfe dar, wobei die Werte und den Ergebnissen "Heads" bzw. "Tails" entsprechen. De Finetti analysierte im Rahmen einer subjektivistischen Interpretation der Wahrscheinlichkeitsrechnung die Bedeutung des üblichen frequentistischen Modells, nach dem die unabhängig und identisch verteilt sind, und stellte fest, dass die Bedingung der Unabhängigkeit beispielsweise implizieren würde, dass und daher die Ergebnisse des ersten Würfe würden meine Unsicherheit über das Ergebnis von nicht ändern $X_1,\dots,X_n$ $1$ $0$ $X_i$

P {X_{n} = x_{n} ∣ X_{1} = x_{1}, \dots, X_{n - 1} = x_{n - 1}} = P {X_{n} = x_{n}},

$P\{X_n=x_n\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\} = P\{X_n=x_n\} \, ,$

n - 1

$n-1$

n

$n$ -th werfen. Wenn ich zum Beispiel glaube, dass dies eine ausgeglichene Münze ist, dann würde ich , nachdem ich die Information erhalten habe, dass die ersten Würfe sich als "Köpfe" herausgestellt haben, immer noch davon ausgehen, dass die Die Wahrscheinlichkeit, "Heads" bei einem Wurf von 1000 zu bekommen, ist gleich . Tatsächlich würde die Hypothese der Unabhängigkeit des bedeuten, dass es unmöglich ist, etwas über die Münze zu lernen, indem man die Ergebnisse ihres Werfens beobachtet.

a priori

$\textit{a priori}$

999

$999$

1 / 2

$1/2$

X_{i}

$X_i$

Diese Beobachtung führte De Finetti zur Einführung eines Zustands, der schwächer als die Unabhängigkeit ist und diesen offensichtlichen Widerspruch auflöst. Der Schlüssel zu De Finettis Lösung ist eine Art Verteilungssymmetrie, die als Austauschbarkeit bekannt ist.

$\textbf{Definition.}$ Für eine gegebene endliche Menge zufälliger Objekte bezeichnen ihre gemeinsame Verteilung. Diese endliche Menge ist austauschbar, wenn für jede Permutation . Eine Folge von zufälligen Objekten ist austauschbar, wenn jede ihrer endlichen Teilmengen austauschbar ist. $\{X_i\}_{i=1}^n$ $\mu_{X_1,\dots,X_n}$ $\mu_{X_1,\dots,X_n} = \mu_{X_{\pi(1)},\dots,X_{\pi(n)}}$ $\pi:\{1,\dots,n\}\to\{1,\dots,n\}$ $\{X_i\}_{i=1}^\infty$

Angenommen, nur die Folge von Zufallsvariablen ist austauschbar, hat De Finetti einen bemerkenswerten Satz bewiesen, der die Bedeutung häufig verwendeter statistischer Modelle beleuchtet. In dem speziellen Fall, in dem die die Werte und annehmen , besagt De Finettis Repräsentationssatz, dass nur dann austauschbar ist, wenn es eine Zufallsvariable mit der Verteilung , so dass wobei . Darüber hinaus haben wir das $\{X_i\}_{i=1}^\infty$ $X_i$ $0$ $1$ $\{X_i\}_{i=1}^\infty$ $\Theta:\Omega\to[0,1]$ $\mu_\Theta$

P {X_{1} = x_{1}, \dots, X_{n} = x_{n}} = \int_{[0, 1]} θ^{s} (1 - θ)^{n - s} d μ_{Θ} (θ),

$P\{X_1=x_1,\dots,X_n=x_n\} = \int_{[0,1]} \theta^s(1-\theta)^{n-s}\,d\mu_\Theta(\theta) \, ,$

s = \sum_{i = 1}^{n} x_{i}

$s=\sum_{i=1}^n x_i$

{\bar{X}}_{n} = \frac{1}{n} \sum_{i = 1}^{n} X_{i} \to_{n \to \infty}^{} Θ almost surely,

$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow[n\to\infty]{} \Theta \qquad \textrm{almost surely},$ das ist bekannt als De Finettis starkes Gesetz der großen Zahlen.

Dieser Repräsentationssatz zeigt, wie statistische Modelle im Bayes'schen Kontext entstehen: Unter der Hypothese der Austauschbarkeit der Observablen , einen so dass angesichts des Wertes von die Observablen unabhängig und identisch verteilt sind. Darüber hinaus zeigt das Starke Gesetz von De Finetti, dass unsere vorherige Meinung über das nicht beobachtbare , das durch die Verteilung , die Meinung über das Limit von , bevor wir Informationen über die Werte der Realisierungen haben von einem der $\{X_i\}_{i=1}^\infty$ $\textbf{there is}$ $\textit{parameter}$ $\Theta$ $\Theta$ $\textit{conditionally}$ $\Theta$ $\mu_\Theta$ $\bar{X}_n$ $X_i$ 's. Der Parameter spielt die Rolle einer nützlichen Hilfskonstruktion, die es uns ermöglicht, bedingte Wahrscheinlichkeiten zu erhalten, an denen nur Observable beteiligt sind, und zwar durch Beziehungen wie $\Theta$

P {X_{n} = 1 ∣ X_{1} = x_{1}, \dots, X_{n - 1} = x_{n - 1}} = E [Θ ∣ X_{1} = x_{1}, \dots, X_{n - 1} = x_{n - 1}] .

$P\{X_n=1\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\} = \mathrm{E}\left[\Theta\mid X_1=x_1,\dots,X_{n-1}=x_{n-1}\right] \, .$

— Zen
quelle

Vielen Dank für diese aufschlussreiche Antwort! Ihr Punkt über Unabhängigkeit ist ein sehr wichtiger Punkt, den ich zum ersten Mal erkenne.

— gui11aume

("ein nützlicher" war besser :))

— Neil G

Es fällt mir schwer, die Aussage zu verstehen, dass der Parameter so dass (gegeben ) iid ist. Aus dem Repräsentationssatz scheint alles, was wir ableiten können, zu sein, dass . Das heißt, der erwartete Wert der wahren Dichte ist der gleiche wie der erwartete Wert der iid-Bernoulli-Dichte mit dem Parameter thgr ; . Können Sie mir erklären, wie wir den erwarteten Wert senken können, damit wir einen Anspruch auf die wahre Dichte selbst erheben?

Θ

$\Theta$

Θ

$\Theta$

X_{i}

$X_i$

E [θ^{s} (1 - θ)^{s}] = E [P (X_{i} = x_{i} \forall i | θ)]

$E [\theta^s (1-\theta)^s] = E[P(X_i = x_i \, \forall \, i | \theta) ]$

θ

$\theta$

— user795305

Der Integrand ist . Da es als , die sind ‚s IId angegeben bedingt .

Pr {X_{1} = x_{1}, \dots, X_{n} = x_{n} ∣ Θ = θ}

$\Pr\{X_1=x_1,\dots,X_n=x_n\mid\Theta=\theta\}$

\prod_{i = 1}^{n} Pr {X_{i} = x_{i} ∣ Θ = θ} = \prod_{i = 1}^{n} θ^{x_{i}} (1 - θ)^{1 - x_{i}}

$\prod_{i=1}^n \Pr\{X_i=x_i\mid\Theta=\theta\}=\prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}$

X_{i}

$X_i$

Θ = θ

$\Theta=\theta$

— Zen

@ Zen Danke! Ich verstehe den ersten Satz, jedoch den Teil "da er als "ist mir noch unklar. Woher weißt du, dass es so wirkt? Es scheint, als würden Sie den erwarteten Wert aus der Identität streichen, die ich in meinem vorherigen Kommentar geschrieben habe, aber ich bin mir nicht sicher, wie das gerechtfertigt ist.

\prod_{i = 1}^{n} Pr {X_{i} = x_{i} ∣ Θ = θ} = \prod_{i = 1}^{n} θ^{x_{i}} (1 - θ)^{1 - x_{i}}

$\prod_{i=1}^n \Pr\{X_i=x_i\mid\Theta=\theta\}=\prod_{i=1}^n \theta^{x_i}(1-\theta)^{1-x_i}$

— user795305

In Zens Antwort ist alles mathematisch korrekt. In einigen Punkten bin ich jedoch anderer Meinung. Bitte beachten Sie, dass ich nicht behaupte / glaube, dass mein Standpunkt der gute ist; im Gegenteil, ich bin der Meinung, dass diese Punkte für mich noch nicht ganz klar sind. Dies sind etwas philosophische Fragen, über die ich gerne diskutiere (und eine gute Englischübung für mich), und ich bin auch an Ratschlägen interessiert.

Über das Beispiel mit "Köpfen" kommentiert Zen: "Die Hypothese der Unabhängigkeit der würde implizieren, dass es unmöglich ist, etwas über die Münze zu lernen, indem man die Ergebnisse ihrer Würfe beobachtet." Aus der Sicht des Frequentisten ist dies nicht der Fall: Wenn Sie etwas über die Münze lernen, müssen Sie etwas über lernen , was durch Schätzen (Punktschätzung oder Konfidenzintervall) von aus den vorherigen Ergebnissen möglich ist. Wenn der Frequentist "Köpfe" beobachtet, kommt er / sie zu dem Schluss, dass wahrscheinlich nahe bei , und folglich auch . $999$ $X_i$ $\theta$ $\theta$ $999$ $999$ $\theta$ $1$ $\Pr(X_n=1)$
Übrigens, was ist in diesem Münzwurfbeispiel der Zufall ? Angenommen, jeder von zwei Spielern spielt unendlich oft mit derselben Münze ein Münzwurfspiel. Warum würden sie dann eine andere ? Ich denke daran, dass das Merkmal des Münzwurfs das feste ist, das der gemeinsame Wert von für jeden Spieler ist ("fast jeder Spieler" aus mathematisch technischen Gründen). Ein konkreteres Beispiel, für das es kein interpretierbares zufälliges ist der Fall einer Zufallsstichprobe mit Ersetzung in einer endlichen Population von und . $\Theta$ $\theta = \bar X_\infty$ $\theta$ $\bar X_\infty$ $\Theta$ $0$ $1$
Über Schervishs Buch und die vom OP aufgeworfene Frage denke ich (schnell gesagt), dass Schervish bedeutet, dass Austauschbarkeit eine "coole" Annahme ist, und dann ist der Satz von deFinetti "cool", weil er besagt, dass jedes austauschbare Modell eine parametrische Darstellung hat. Natürlich stimme ich voll und ganz zu. Wenn ich jedoch ein austauschbares Modell wie und dann wäre ich daran interessiert, Rückschlüsse auf und , nicht auf die Verwirklichung von . Wenn ich nur an der Realisierung von interessiert bin, sehe ich kein Interesse daran, Austauschbarkeit anzunehmen. $(X_i\mid\Theta=\theta)\sim_\text{iid} \text{Bernoulli}(\theta)$ $\Theta \sim \text{Beta}(a,b)$ $a$ $b$ $\Theta$ $\Theta$

Es ist spät...

— Stéphane Laurent
quelle

Hallo Stéphane! Vielen Dank für Ihre Kommentare zu meiner Antwort. In Bezug auf Ihren ersten Punkt, dass , wird in meiner Antwort alles in einem Bayes'schen Kontext angegeben. Es gibt keinen wirklichen Versuch, einen Kontrast zu anderen Inferenzparadigmen herzustellen. Kurz gesagt, ich habe versucht auszudrücken, was der Satz von De Finetti für mich als Bayesianer bedeutet.

"this is not true from the frequentist perspective"

$\textbf{"this is not true from the frequentist perspective"}$

— Zen

Zu Ihrer zweiten Kugel: Das zufällige ist (als) die Grenze von , wie in De Finettis LLN angegeben. Also, wenn einige Bayes sagt , dass mein vor für ist , er bedeutet , dass diese Verteilung seiner Unsicherheit über dieser Grenze darstellt, bevor der Zugriff auf die Daten haben. Unterschiedliche Bayesianer haben zwar unterschiedliche Prioritäten, aber bei angemessenen Regelmäßigkeitsbedingungen haben sie eine über (ähnliche Posterioren), da sie immer mehr Informationen über die Ergebnisse der Würfe erhalten.

Θ

$\Theta$

{\bar{X}}_{n}

$\bar{X}_n$

Θ

$\Theta$

μ_{Θ}

$\mu_\Theta$

a posteriori

$\textit{a posteriori}$

Θ

$\Theta$

— Zen

Das feste, aber unbekannte ist kein Bayes'sches Konzept.

θ

$\theta$

— Zen

Zu Ihrer dritten Kugel: 1) Dass Schervish ein Bayes-Statistiker ist; 2) Die Menge an Zeit und Energie, die er für die Erörterung der Austauschbarkeit in seinem Buch verwendet; Ich glaube, für ihn ist die Rolle von De Finettis Theorem sehr tiefgreifend und geht weit über die Kühle hinaus. Aber ich stimme zu, dass es sowieso sehr cool ist!

— Zen

Um meinen Standpunkt zu verdeutlichen: Ich glaube nicht, dass es ein zufälliges in einem "grundlegenden" (nicht hierarchischen) Bayes'schen Modell gibt. Es gibt ein festes unbekanntes , und die vorherige Verteilung beschreibt den Glauben daran. Die Rolle der Zufallsvariablen ist nur die mathematische Behandlung der Bayes'schen Folgerung, sie hat im Experiment keine Interpretation. Wenn Sie wirklich austauschbare, aber nicht unabhängige Beobachtungen wie das Beispiel meiner dritten Kugel annehmen, müssen Sie Hyperprioren auf und .

θ

$\theta$

θ

$\theta$

Θ

$\Theta$

a

$a$

b

$b$

— Stéphane Laurent

Ihr seid möglicherweise an einem Artikel zu diesem Thema interessiert (für den Zugriff ist ein Zeitschriftenabonnement erforderlich - versuchen Sie, von Ihrer Universität aus darauf zuzugreifen):

O'Neill, B. (2011) Austauschbarkeit, Korrelation und Bayes-Effekt. International Statistical Review 77 (2), S. 241-250.

In diesem Artikel wird der Repräsentationssatz als Grundlage sowohl für bayesianische als auch für frequentistische IID-Modelle erörtert und auch auf ein Münzwurfbeispiel angewendet. Es sollte die Diskussion über die Annahmen des frequentistischen Paradigmas aufklären. Tatsächlich wird eine breitere Erweiterung des Repräsentationssatzes verwendet, die über das Binomialmodell hinausgeht, aber dennoch nützlich sein sollte.

— Statistiken
quelle

Gibt es vielleicht eine Arbeitspapierversion davon? Ich habe keinen Zugang atm :-(

— IMA

@Stats Ich habe dieses Papier gelesen, nachdem ich Ihre Antwort gesehen habe. Ich muss sagen, das ist das beste Papier, das Bayesian und Frequentist zu diesem Thema illustriert, das ich je gesehen habe. Ich wünschte, ich hätte dieses Papier viel früher gelesen. (+1)

— KevinKim