Wie ist ?

8

Ich habe kürzlich angefangen, über Maximum Likelihood Estimator und Bayes'sche Statistiken zu lesen. Ich verstehe, dass bei einem statistischen Modell , bei dem zu einem großen Parameterraum , die KL-Divergenz zwischen und ( die Wahrheit ist) Der Parameter, den wir finden möchten) wird für das minimiert, das maximiert . Unter der Annahme, dass die Ereignisse unabhängig und identisch verteilt sind, bedeutet dies eine Maximierung der gemeinsamen Wahrscheinlichkeit $(X, (P_\theta))$ $\theta$ $\Theta$ $P_\theta$ $P_\theta*$ $\theta^*$ $\theta$ $\prod_{i=1}^{n}p_\theta(X_i)$ $P[X_1=x_1, X_2=x_2, ...,X_n=x_n].$ (Die Unabhängigkeitsannahme erlaubt es, dies mit dem Produkt der einzelnen Elemente gleichzusetzen.)

Der Bayes'sche Ansatz erklärt den vorherigen Glauben an die Verteilung von , und maximiert , was nach der Bayes-Regel der Maximierung von . Ich habe die Dinge bis zu diesem Teil verstanden. Danach wird das als "Wahrscheinlichkeit" bezeichnet und durch , das nur das Produkt der einzelnen Wahrscheinlichkeiten des ist X in der Verteilung . Bedeutet dies, dass tatsächlich , dh Wahrscheinlichkeiten gegeben $\theta$ $P(\theta)$ $P(\theta|X)$ $P(X|\theta)P(\theta)/P(X)$ $P(X|\theta)$ $P[X_1=x_1, X_2=x_2, ...,X_n=x_n]$ $P_\theta$ $P[X_1=x_1, X_2=x_2, ...,X_n=x_n]$ $P_\theta[X_1=x_1, X_2=x_2, ...,X_n=x_n]$ $\theta$ , oder etwas ähnliches ?

Ich bin nicht sehr gut in Wahrscheinlichkeit und Verteilung, und ich verstehe, dass das Objekt als bedingte Wahrscheinlichkeit bezeichnet wird und das Objekt (das entspricht durch Unabhängigkeit) wird die gemeinsame Wahrscheinlichkeit genannt und es handelt sich um sehr unterschiedliche Dinge. Ich habe gesehen, dass Autoren in einigen Fällen für die gemeinsame Wahrscheinlichkeit mit maximaler Wahrscheinlichkeit verwenden. Ich bin verwirrt, warum die gemeinsame Wahrscheinlichkeit und die bedingte Wahrscheinlichkeit als gleich angesehen werden. $P(X|\theta)$ $P[X_1=x_1, X_2=x_2, ...,X_n=x_n]$ $\prod_{i=1}^{n}p_\theta(X_i)$ $P(X;\theta)$

probability bayesian maximum-likelihood

— rranjik
quelle

8

Hier gibt es einige Probleme:

In der klassischen Statistik sind alle verwendeten Verteilungen implizit von abhängig , was als "unbekannte Konstante" angesehen wird. In der Bayes'schen Analyse gibt es keine unbekannte Konstante (alles Unbekannte wird als Zufallsvariable behandelt), und wir verwenden stattdessen explizite Konditionierungsanweisungen für alle Wahrscheinlichkeitsanweisungen. $\theta$
Dies bedeutet, dass in der Bayes'schen Analyse die Abtastdichte das Objekt , auf das Sie sich im klassischen Fall bezogen haben. (Die Wahrscheinlichkeitsfunktion ist nur die Abtastdichte, die als Funktion des Parameters wobei als fest angenommen wird.) Dies bedeutet auch, dass die Dichte in der Bayes'schen Analyse nicht von abhängig ist . Es ist die Grenzdichte der Daten, die gegeben ist durch: $P(X|\theta)$ $P_\theta(X)$ $\theta$ $X=x$ $P(X)$ $\theta$
$P (X) = \int_{Θ} P (X | θ) P (θ) d θ .$ $P(X) = \int \limits_{\Theta} P(X|\theta) P(\theta) \ d \theta.$ Es gibt einige Stellen in Ihrer Frage, an denen Sie mit Konditionierungsanweisungen etwas schlampig werden und am Ende die bedingte und marginale Verteilung der Daten nicht eindeutig definieren. Dies ist in der klassischen Statistik kein großes Problem (da alle Wahrscheinlichkeitsaussagen implizit vom Parameter abhängig sind), aber es wird Ihnen bei der Bayes'schen Analyse Probleme bereiten.
Die Notation wird normalerweise nur in der klassischen Statistik verwendet und wird verwendet, um dasselbe wie - dh es ist implizit die bedingte Dichte der Daten, die dem Parameter gegeben sind . Es wäre ungewöhnlich (und verwirrend), diese Notation für die Fugendichte zu verwenden. $P(X ; \theta)$ $P_\theta(X)$
Die Bayes'sche Methode, bei der Sie die posteriore Verteilung in Bezug auf den Parameter maximieren, ist eine Punktschätzungsmethode, die als Maximum a-posteriori (MAP) -Schätzung bezeichnet wird . Dies ist eine Punktschätzungsmethode, mit der Sie eine einzelne Punktschätzung erhalten. Sie sollten bedenken, dass es bei Bayesianern normalerweise darum geht, auch die gesamte hintere Dichte beizubehalten, da diese mehr Informationen enthält als der MAP-Schätzer.

— Ben - Monica wieder einsetzen
quelle

Danke, dass du Ben erklärt hast, bedeutet viel! Der zweite Punkt ist etwas, das ich wissen wollte, dass jemand explizit sagt.

— rranjik

Was ist die klassische Statistik? Es ist das erste Mal, dass ich lese, dass alle Wahrscheinlichkeitsverteilungen parametrisiert sind. Wo hast du es gelesen?

— nbro

@nbro: In gewissem Sinne ist diese Aussage trivial wahr, da Sie eine Klasse von Wahrscheinlichkeitsverteilungen immer einem (ausreichend großen) Parameterraum zuordnen können. In der Praxis ist dies nur dann der Fall, wenn Sie nichtparametrische Statistiken erstellen. In anderen Fällen parametrisieren die Modelle in der klassischen Statistik die Verteilungen als Referenz für sie, wobei normalerweise Parameter verwendet werden, die reelle Zahlen sind.

— Ben - Reinstate Monica

4

Ich werde in dieser Antwort eine vereinfachte Notation verwenden. Wenn Sie klassische Statistiken ist keine Zufallsvariable. Daher beschreibt die Notation ein Mitglied einer Familie von Wahrscheinlichkeitsfunktionen oder -dichten , wobei der Parameter ist Platz. In einer Bayes'schen Analyse ist eine Zufallsvariable und ist eine bedingte Wahrscheinlichkeitsfunktion oder -dichte, die Ihre Unsicherheit über für jeden möglichen Wert von modelliert . Nachdem Sie mit Ihrem Experiment fertig sind, besteht keine Unsicherheit mehr über $\theta$ $p(x;\theta)$ $\{p_\theta(x)\}_{\theta\in\Theta}$ $\Theta$ $\theta$ $p(x\mid\theta)$ $x$ $\theta$ $x$ (es werden Daten / Informationen, die Sie kennen), und Sie betrachten als Funktion von für diese "festen" Daten . Diese Wahrscheinlichkeitsfunktion lebt im Schnittpunkt zwischen dem klassischen und dem Bayes'schen Inferenzstil. Meiner Meinung nach wird der Bayes'sche Weg im Hinblick auf die bedingte Unabhängigkeit besser verstanden . Ich schlage vor, dass Sie die Wahrscheinlichkeitsfunktion für das Bernoulli-Modell aufschreiben und untersuchen. grafisch darstellen; Denken Sie vor und nach dem Experiment über die Bedeutung nach. Sie haben erwähnt, dass ein Bayesianer das hintere maximiert. $p(x\mid \theta)=L_x(\theta)$ $\theta$ $x$ $L_x(\theta)$ $\pi(\theta\mid x)$ . Das ist nicht unbedingt der Fall. Es gibt andere Möglichkeiten, die posteriore Verteilung zusammenzufassen. Die gewählte Zusammenfassung hängt im Wesentlichen von der Einführung einer Verlustfunktion ab. Überprüfen Sie Roberts Bayesian Choice , um alle wichtigen Details zu erfahren.

— Zen
quelle

1

Danke Paulo. Ich war nicht klug genug, um die Details selbst zu verstehen! Ich schätze deine Zeit.

— rranjik

1

Bitte. Vorschlag: Schreiben Sie die Wahrscheinlichkeitsdichte und die Wahrscheinlichkeitsfunktion einer Zufallsstichprobe aus einem -Modell auf und zeichnen Sie sie grafisch auf .

x_{1}, \dots, x_{n}

$x_1,\dots,x_n$

U [0, θ]

$\text{U}[0,\theta]$

— Zen