Schonenderer Zugang zur Bayes'schen Statistik

Ich habe kürzlich angefangen, "Introduction to Bayesian Statistics" (Einführung in die Bayes'sche Statistik), 2. Ausgabe von Bolstad, zu lesen. Ich hatte eine Einführungs-Statistik-Klasse, die hauptsächlich statistische Tests abdeckte und fast durch eine Klasse in Regressionsanalyse geht. Welche anderen Bücher kann ich verwenden, um mein Verständnis dieses zu ergänzen?

Ich habe die ersten 100-125 Seiten gut durchgearbeitet. Danach beginnt das Buch über Hypothesentests zu sprechen, worauf ich mich sehr freue, aber da werfen mich ein paar Dinge auf:

Die Verwendung von Wahrscheinlichkeitsdichtefunktionen in Berechnungen. Mit anderen Worten, wie man solche Gleichungen bewertet.
Diesen ganzen Satz: "Nehmen wir an, wir verwenden ein Beta (1,1) vor pi. Dann ist bei y = 8 die hintere Dichte Beta (9,3). Die hintere Wahrscheinlichkeit der Nullhypothese ist ..." Ich glaube Beta (1,1) bezieht sich auf ein PDF, bei dem der Mittelwert 1 und der Standardwert 1 ist. Ich verstehe nicht, wie es sich in eine Beta (9,3) als Funktion der hinteren Dichte ändern würde.

Ich verstehe das Konzept von Priors vs Posteriors und verstehe, wie man sie mithilfe einer Tabelle manuell anwendet. Ich verstehe (glaube ich!), Dass pi den angenommenen Bevölkerungsanteil oder die Wahrscheinlichkeit darstellt.

Ich verstehe nicht, wie ich das mit Daten verknüpfen kann, die mir täglich begegnen und zu Ergebnissen führen.

hypothesis-testing bayesian

— Justin Bozonier
quelle

Der Parameter scheint aus dem Kontext die Populationswahrscheinlichkeit eines Binomialmodells zu sein. In diesem Fall ist eine Beta-Verteilung das Konjugat vor einer Binomialwahrscheinlichkeit mit bekanntem und unbekanntem . Die Parameter der Beta-Verteilung sind jedoch nicht der Mittelwert und die Standardabweichung, wie dies bei der Normalverteilung der Fall ist. Auf der Wikipedia-Seite finden Sie die Formel für den Mittelwert und die Varianz einer Beta-Zufallsvariablen in Bezug auf die Parameter der Beta-Verteilung.

π

$\pi$

n

$n$

π

$\pi$

— Caburke

Vielen Dank! Vorher konjugieren ist ein anderer Begriff, den ich nicht kenne. Wo kann ich einführend mehr darüber erfahren?

— Justin Bozonier

Vielleicht interessieren Sie sich für einen praktischeren Text. Haben Sie Bayes'sche Methoden für Hacker gesehen? (Offenlegung - ich bin ein mitwirkender Autor) Versuchen Sie, danach zu suchen (es ist OpenSource und kostenlos).

— Cam.Davidson.Pilon

@JustinBozonier Dieser Link stats.stackexchange.com/questions/66018/… erläutert die verschiedenen Begriffe, die zur Beschreibung von Priors verwendet werden, einschließlich konjugierter Priors.

— Sycorax sagt Reinstate Monica

@ Cam.Davidson.Pilon Danke dafür! Die Aktualisierung der Ansichten in den Diagrammen auf dieser Seite hilft mir, mehr über die Aussagen der anderen zu erfahren

— Justin Bozonier

Antworten:

Die Verwendung von Wahrscheinlichkeitsdichtefunktionen in Berechnungen. Mit anderen Worten, wie man solche Gleichungen bewertet.

Ich denke, Sie denken immer noch aus einer häufigeren Perspektive darüber nach: Wenn Sie nach einer Punktschätzung suchen, wird sie Ihnen der Posterior nicht geben. Sie legen PDFs ein, Sie erhalten PDFs heraus. Sie können Punktschätzungen ableiten, indem Sie Statistiken aus Ihrer posterioren Verteilung berechnen, aber darauf komme ich gleich zurück.

Ich verstehe das Konzept von Priors vs Posteriors und verstehe, wie man sie mithilfe einer Tabelle manuell anwendet. Ich verstehe (glaube ich!), Dass pi den angenommenen Bevölkerungsanteil oder die Wahrscheinlichkeit darstellt.

ist dasselbe wie : beide PDFs. wird herkömmlicherweise nur verwendet, um anzuzeigen, dass das bestimmte PDF eine frühere Dichte aufweist. $\pi(x)$ $p(x)$ $\pi$

Ich vermute, dass Sie nicht so viele Vor- und Nachzügler haben, wie Sie glauben. Lassen Sie es uns auf die fundamentale Grundlage der Bayes'schen Statistik zurückführen: Subjektive Wahrscheinlichkeit .

Ein Gedankenexperiment zur subjektiven Wahrscheinlichkeit

Nehmen wir an, ich überreiche Ihnen eine Münze und frage Sie, ob Sie diese Münze für eine faire Münze halten oder nicht. Sie haben eine Menge Leute über unfaire Münzen in der Wahrscheinlichkeitsklasse sprechen hören, aber Sie haben noch nie eine im wirklichen Leben gesehen. Deshalb antworten Sie: "Ja, sicher, ich denke, es ist eine faire Münze." Aber die Tatsache, dass ich Ihnen diese Frage stelle, schreckt Sie ein wenig ab. Obwohl Sie davon ausgehen, dass es fair ist, wären Sie nicht wirklich überrascht, wenn es nicht so wäre. Viel weniger überrascht, als wenn Sie diese Münze in Ihrem Kleingeld gefunden hätten (weil Sie annehmen, dass das alles echte Währung ist und Sie mir im Moment nicht wirklich vertrauen, weil ich misstrauisch bin).

Jetzt führen wir einige Experimente durch. Nach 100 Flips gibt die Münze 53 Heads zurück. Sie sind viel sicherer, dass es eine faire Münze ist, aber Sie sind immer noch offen für die Möglichkeit, dass dies nicht der Fall ist. Der Unterschied ist, dass Sie jetzt ziemlich überrascht wären, wenn sich herausstellen würde, dass diese Münze eine gewisse Voreingenommenheit aufweist.

Wie können wir Ihre frühere und spätere Meinung darstellen, insbesondere in Bezug auf die Wahrscheinlichkeit, dass die Münze Köpfe zeigt (die wir mit bezeichnen )? Unter Frequentisten ist Ihre vorherige Annahme - Ihre Nullhypothese -, dass . Nachdem Sie das Experiment ausgeführt haben, können Sie die Null nicht ablehnen, und fahren Sie mit der Annahme fort, dass die Münze wahrscheinlich fair ist. Aber wie können wir die Veränderung in Ihrem Vertrauen, dass die Münze fair ist, zusammenfassen? Nach dem Experiment sind Sie in der Position, dass Sie wetten würden, dass die Münze fair ist, aber vor dem Experiment wären Sie unruhig gewesen. $\theta$ $\theta = 0.5$

$\theta = 0.5$ $\theta \sim N(0.5, \sigma^2)$ $\theta= 0.5$ $\theta=0.5$ $\theta=0.5$

Wie führen wir Berechnungen durch?

Wir beginnen mit PDFs und enden mit PDFs. Wenn Sie eine Punktschätzung melden müssen, können Sie Statistiken wie den Mittelwert, den Median oder den Modus Ihrer posterioren Verteilung berechnen (abhängig von Ihrer Verlustfunktion, auf die ich jetzt nicht näher eingehen werde. Bleiben wir einfach beim Mittelwert). Wenn Sie eine geschlossene Lösung für Ihr PDF haben, ist es wahrscheinlich trivial, diese Werte zu bestimmen. Wenn der hintere Teil kompliziert ist, können Sie Verfahren wie MCMC verwenden, um aus dem hinteren Teil eine Stichprobe zu erstellen und Statistiken aus der von Ihnen gezogenen Stichprobe abzuleiten.

In dem Beispiel, in dem Sie eine Beta-Priorität und eine Binomialwahrscheinlichkeit haben, reduziert sich die Berechnung des Seitenzahns auf eine sehr saubere Berechnung. Gegeben:

$\theta \sim Beta(\alpha, \beta)$
$X|\theta \sim Binomial(\theta)$

Dann reduziert sich der posterior auf:

$\theta|X \sim Beta(\alpha + \sum_{i=1}^n x_i,\, \beta + n - \sum_{i=1}^n x_i)$

Dies geschieht immer dann, wenn Sie eine Betaversion vor und eine Binomialwahrscheinlichkeit haben, und der Grund dafür sollte in den von DJE bereitgestellten Berechnungen ersichtlich sein . Wenn ein bestimmtes Prior-Likelihood-Modell immer einen Posterior liefert, der die gleiche Art von Verteilung wie der Prior aufweist, wird die Beziehung zwischen den für den Prior verwendeten Verteilungstypen und der Wahrscheinlichkeit als Konjugieren bezeichnet . Es gibt viele Verteilungspaare mit konjugierten Beziehungen, und die Konjugation wird sehr häufig von Bayesianern genutzt, um Berechnungen zu vereinfachen. Angesichts einer bestimmten Wahrscheinlichkeit können Sie Ihr Leben erheblich vereinfachen, indem Sie ein Konjugat auswählen (sofern eines vorhanden ist und Sie Ihre Wahl des Priorats rechtfertigen können).

Ich glaube, Beta (1,1) bezieht sich auf ein PDF, bei dem der Mittelwert 1 und der Standardwert 1 ist.

Bei der gemeinsamen Parametrisierung der Normalverteilung bezeichnen die beiden Parameter den Mittelwert und die Standardabweichung der Verteilung. Aber so parametrisieren wir die Normalverteilung. Andere Wahrscheinlichkeitsverteilungen werden sehr unterschiedlich parametrisiert.

$Beta(\alpha, \beta)$ $\alpha$ $\beta$

\begin{aligned} X & \sim B e t ein (α, β) \\ E [X] & = \frac{α}{α + β} \\ var [X] & = \frac{α β}{(α + β)^{2} (α + β + 1)} \end{aligned}

$\begin{equation} \begin{split} X &\sim Beta(\alpha, \beta) \\ \operatorname{E}[X] &= \frac{\alpha}{\alpha + \beta} \\ \operatorname{var}[X] &= \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} \end{split} \end{equation}$

Wie Sie deutlich sehen können, sind der Mittelwert und die Varianz kein Teil der Parametrisierung dieser Verteilung, sondern es handelt sich um geschlossene Lösungen, die einfache Funktionen der Eingabeparameter sind.

$Beta(1,1)$ $Uniform(0,1)$

— David Marx
quelle

Das Wichtigste, was Sie mir geantwortet haben, war die Erkenntnis, dass ich auf der Suche nach einem einzigen Wert aufgehängt wurde. Als ich anfing, über Distributionen nachzudenken, wurde der Kruschke-Text und alles andere viel sinnvoller. Vielen Dank!

— Justin Bozonier

Wenn Sie auf der Suche nach einer sanfteren Herangehensweise sind, kann ich das Buch von Kruschke wärmstens empfehlen, in dem R zur Erläuterung der Kernkonzepte verwendet wird. Es ist ein sehr praktischer und praktischer Ansatz zum Erlernen der Bayes'schen Statistik und auf seiner Website finden Sie alle verwendeten Codes.

Jemand empfahl auch den Text von Cam.Davidson.Pilon mir, noch nicht an sie aussehen , aber es finden sich hier .

— HorseOfTheYear
quelle

Vielen Dank! Eigentlich besitze ich das Kruschke-Buch bereits und habe es gerade noch einmal durchgesehen und festgestellt, dass es genau das ist, was ich gerade brauche. Danke für den Hinweis!

— Justin Bozonier

@ JustinBozonier Ich empfehle auch sehr Einführung in die Theorie der Statistik (Stimmung) . Es bietet ein relativ hohes Maß an Genauigkeit, setzt jedoch nur voraus, dass Sie über grundlegende Kenntnisse verfügen.

— Steve P.

$p(\theta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}$ $(\alpha, \beta)=(1,1)$

Die Beta-Prior mit einer Binomialwahrscheinlichkeit (feste Anzahl von Versuchen mit binären Ergebnissen und festen Erfolgs- / Misserfolgswahrscheinlichkeiten) hat die Eigenschaft der Konjugation, dass der Posterior (das Produkt der Prior und die Wahrscheinlichkeit) in geschlossener Form geschrieben werden kann:

\begin{aligned} p (θ | y) & = \frac{p (y | θ) p (θ)}{p (y)} \\ \propto \frac{Γ (α) Γ (β)}{Γ (α + β)} θ^{α - 1} (1 - θ)^{β - 1} * (\binom{n}{y}) θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α - 1} (1 - θ)^{β - 1} * θ^{y} (1 - θ)^{n - y} \\ \propto θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \\ = \frac{Γ (α + y - 1) Γ (β + n - y - 1)}{Γ (α + β + n - 1)} θ^{α + y - 1} (1 - θ)^{β + n - y - 1} \end{aligned}

$\begin{equation} \begin{split} p(\theta|y) &= \frac{p(y|\theta)p(\theta)}{p(y)} \\ ~\\ ~\\ &\propto\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}\theta^{\alpha-1}(1-\theta)^{\beta-1}*\binom{n}{y}\theta^y(1-\theta)^{n-y} \\ ~\\ ~\\ &\propto\theta^{\alpha-1}(1-\theta)^{\beta-1}*\theta^y(1-\theta)^{n-y} \\ ~\\ &\propto\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \\ ~\\ &=\frac{\Gamma(\alpha+y-1)\Gamma(\beta+n-y-1)}{\Gamma(\alpha+\beta+n-1)}\theta^{\alpha+y-1}(1-\theta)^{\beta+n-y-1} \end{split} \end{equation}$

$\theta$

Dieser Ausdruck in geschlossener Form ist praktisch, aber keinesfalls notwendig. Das Multiplizieren der Wahrscheinlichkeitsdichten kann auf dieselbe Weise erfolgen wie das Multiplizieren anderer mathematischer Ausdrücke. Die Schwierigkeiten treten auf, da viele Produkte mit Dichten nicht so einfach umgeschrieben werden können wie die Beta-Prioritäts- / Binomialwahrscheinlichkeit. Glücklicherweise ist dies der Punkt, an dem Computer die Lücke schließen.

— Sycorax sagt Reinstate Monica
quelle