Bayesianischer Modellvergleich in der High School

Ich unterrichte Gymnasiasten in Physik und möchte, dass meine Schüler einen rudimentären Bayes'schen Modellvergleich für Daten aus ihren Experimenten durchführen. Ich habe einen Weg gefunden, wie sie das tun können (siehe unten), aber ich bin nicht sicher, ob es richtig ist. Ich würde mich über Feedback (insbesondere negatives Feedback!) Und Vorschläge zur besseren Verbesserung sehr freuen.

Ich möchte eine lineare Theorie mit den Parametern Steigung und Achsenabschnitt mit einer Nullhypothese einer Konstanten vergleichen, dh Steigung = 0. In beiden Fällen gehe ich von einem symmetrischen Gaußschen Rauschen aus. $a$ $b$ $a$

Die Schüler können mithilfe von Excel die Schätzungen der maximalen Wahrscheinlichkeit für die Steigung und den Achsenabschnitt ( und ) sowie deren Fehler und . $\hat{a}$ $\hat{b}$ $da$ $db$

Für den Prior auf der Steigung betrachte ich einen breiten Gaußschen Wert, der auf der Maximum-Likelihood-Schätzung ( ) zentriert ist und eine zehnfache Standardabweichung aufweist. Meine Argumentation ist, dass ich realistisch erwarte, dass sie die "richtigen" Linienparameter mindestens innerhalb einer Größenordnung finden, und in der Praxis werden sie diejenigen noch näher finden. Wenn ich also die "richtige" Steigung durch ihre MLE ersetze, werde ich die nicht ändern Zahlen zu viel. $\hat{a}$
Für die Wahrscheinlichkeit der Evidenz bei einer bestimmten linearen Theorie betrachte ich die multivariate Standard-Gauß-Verteilung mit einer Standardabweichung ( ), die sich auf die Summe der quadratischen Residuen bezieht. $\sigma_e$
Die Wahrscheinlichkeit des Beweises für die lineare Theorie im Allgemeinen, dh das Integral des obigen Prior und der Wahrscheinlichkeit, wird daher als der Prior und die Wahrscheinlichkeit am MLE-Punkt multipliziert mit dem Fehler in der Steigung geschätzt . $da$
Die Wahrscheinlichkeit des Beweises bei gegebener Nullhypothese wird als ein weiterer multivariater Gaußscher angenommen, der nun die Gesamtstandardabweichung ( ) verwendet, basierend auf der Differenz zum Durchschnitt-Y. $\sigma_T$
Dies ist der Teil, dessen ich mir am wenigsten sicher bin: Ich schätze den Bayes-Faktor als das Verhältnis der beiden oben genannten Wahrscheinlichkeiten (3 und 4 oben), wodurch ich die folgende Formel finden kann:

$B_{10}=\frac{da}{(10 |\hat{a}| \cdot \sqrt{2 \pi})}(\sigma_T/\sigma_e)^N\cdot \sqrt{e}$

Würde uns dies vernünftige Schätzungen für den Bayes-Faktor geben? Jedes Feedback ist willkommen.

— Physik Lehrer
quelle

Ich habe Ihre Formel mit MathJax bearbeitet, um ein optimierteres Erscheinungsbild zu erzielen, das leichter zu lesen ist. Fühlen Sie sich frei, es zu bearbeiten, wenn ich es falsch übersetzt habe

— Marquis de Carabas

Vielen Dank! Die letzten beiden Terme (das s-Verhältnis und die Quadratwurzel von e) sollten jedoch außerhalb des Bruchs oder im Zähler liegen.

— Physiklehrer

Oh! Es ist genau wie bei LaTex! Ich habe die Formeln korrigiert; Danke noch einmal.

— Physiklehrer

Lassen Sie mich zunächst sagen, dass ein vernünftiges Testen einer scharfen Hypothese wie eine sorgfältige vorherige Verteilung für erfordert , da der Bayes-Faktor entscheidend von diesem Prior abhängt. Viele Bayesianer werden keine scharfe Hypothese prüfen, aber ich werde es tun. $a=0$ $a$

Bevor ich fortfahre, muss ich Ihnen sagen, dass ich nicht wirklich verstehe, was Sie sagen, dass Sie tun, und daher kann ich Ihnen Ratschläge geben, nach denen Sie nicht suchen. Ich hoffe du kannst der Notation folgen.

Die Daten seien Beobachtungen: , wobei (gemäß dem allgemeineren Modell und einschließlich der Steigung) $n$ $y = ((x_1,y_1), \ldots, (x_n,y_n))$ (Ich unterdrücke die unabhängige Variable aus der Liste der Konditionierungsargumente zur Vereinfachung der Notation.) Die Wahrscheinlichkeit ist gegeben durch Gegeben ein Prior für

p (y_{i} | a, b, σ^{2}) = N (y_{i} | b + a x_{i}, σ^{2}) .

$p(y_i|a,b,\sigma^2) = \textsf{N}(y_i|b+a\,x_i,\sigma^2).$

x_{i}

$x_i$

p (y | a, b, σ^{2}) = \prod_{i = 1}^{n} p (y_{i} | a, b, σ^{2}) .

$p(y|a,b,\sigma^2) = \prod_{i=1}^n p(y_i|a,b,\sigma^2).$

(a, b, σ^{2})

$(a,b,\sigma^2)$ ist die hintere Verteilung

wobei die Wahrscheinlichkeit der Daten gemäß dem allgemeineren Modell

p (a, b, σ^{2} | y) = \frac{p (y | a, b, σ^{2}) p (a, b, σ^{2})}{p (y)},

$\begin{equation} p(a,b,\sigma^2|y) = \frac{p(y|a,b,\sigma^2)\,p(a,b,\sigma^2)}{p(y)}, \end{equation}$

wo ich

\begin{aligned} p (y) & = ∭ p (y | a, b, σ^{2}) p (a, b, σ) d σ^{2} d b d a \\ = \int (\iint p (y | a, b, σ^{2}) p (b, σ^{2}) d σ^{2} d b) p (a | b, σ^{2}) d a \\ = \int p (y | a) p (a | b, σ^{2}) d a, \end{aligned}

$\begin{equation} \begin{split} p(y) &= \iiint p(y|a,b,\sigma^2)\,p(a,b,\sigma)\,d\sigma^2\,db\,da \\ &= \int\left(\iint p(y|a,b,\sigma^2)\,p(b,\sigma^2)\,d\sigma^2\,db\right) p(a|b,\sigma^2)\,da \\ &= \int p(y|a)\,p(a|b,\sigma^2)\,da , \end{split} \end{equation}$

. Man beachte, dass

die (marginale) Wahrscheinlichkeit für

und

die bedingte Priorität für

. Wenn der Prior für

unabhängig von

, dann ist

p (a, b, σ^{2}) = p (a | b, σ^{2}) p (b, σ^{2})

$p(a,b,\sigma^2) = p(a|b,\sigma^2)\,p(b,\sigma^2)$

p (y | a)

$p(y|a)$

a

$a$

p (a | b, σ^{2})

$p(a|b,\sigma^2)$

a

$a$

a

$a$

(b, σ^{2})

$(b,\sigma^2)$

p (a | b, σ^{2}) = p (a)

$p(a|b,\sigma^2) = p(a)$ . Ich werde annehmen, dass das wahr ist.

$a$

p (a | y) = \frac{p (y | a) p (a)}{p (y)} .

$\begin{equation} p(a|y) = \frac{p(y|a)\,p(a)}{p(y)}. \end{equation}$

\frac{p (y | a)}{p (y)} = \frac{p (a | y)}{p (a)} .

$\begin{equation} \frac{p(y|a)}{p(y)} = \frac{p(a|y)}{p(a)}. \end{equation}$

a

$a$

a = 0

$a = 0$

\frac{p (y | a = 0)}{p (y)} = \frac{p (a = 0 | y)}{p (a = 0)} .

$\begin{equation} \frac{p(y|a=0)}{p(y)} = \frac{p(a=0|y)}{p(a=0)}. \end{equation}$

a = 0

$a=0$

$a=0$ $a=0$ $a$ $a$ $a =0$ $a=0$

Sie können sich vorstellen, dass Sie diesem Problem nicht ausgesetzt sind, wenn Sie die von mir beschriebenen Schritte nicht befolgen, aber Sie würden sich irren. Die von mir vorgestellte Logik gilt unabhängig von dem von Ihnen angewendeten "Algorithmus".

p (b, σ^{2}) \propto 1 / σ^{2} .

$p(b,\sigma^2) \propto 1/\sigma^2.$

(b, σ^{2})

$(b,\sigma^2)$

a

$a$

p (y | a)

$p(y|a)$

a

$a$

t

$t$

y

$y$

t

$t$

a

$a$

Ich hoffe, Sie finden etwas in dem, was ich gesagt habe, nützlich.

— mef
quelle

p (a) = \frac{1}{10 | \hat{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 (10 | \hat{a} |^{2}}}

$p(a)=\frac{1}{10 |\hat{a}| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 (10 |\hat{a}|^2}}$

p (a | y) = \frac{1}{σ_{a} | \sqrt{2 π}} e^{- \frac{(a - \hat{a})^{2}}{2 σ_{a}^{2}}}

$p(a|y)=\frac{1}{\sigma_a| \sqrt{2 \pi}} e^{-\frac{(a-\hat{a})^2}{2 \sigma_a^2}}$

Ich verstehe Ihren Prior nicht, da er die Daten über die Maximum-Likelihood-Schätzung einzubeziehen scheint.

— Mef

\hat{a}

$\hat{a}$

h a t a

$hat{a}$

Ich verstehe die Gründe für Ihre Annahmen über den Prior nicht. Trotzdem lautet die Antwort auf die Frage in Ihrem ersten Kommentar "Ja". Ich denke, Sie werden feststellen, dass der Bayes-Faktor (BF) sehr empfindlich auf Ihre Wahl der vorherigen Varianz reagiert. Wenn Sie (zum Beispiel) 10 auf 20 ändern, werden Sie vermutlich eine große Änderung im BF erhalten. Und das ist der Punkt, den ich anstrebte.

— Mef

\hat{a}

$\hat{a}$