Anscheinend verwendet der Bayes-Faktor irgendwie Wahrscheinlichkeiten, die die Wahrscheinlichkeit jedes Modells repräsentieren, das über seinen gesamten Parameterraum integriert ist (dh nicht nur bei der MLE). Wie wird diese Integration tatsächlich typischerweise erreicht? Versucht man wirklich nur, die Wahrscheinlichkeit für jede von Tausenden (Millionen?) Zufallsstichproben aus dem Parameterraum zu berechnen, oder gibt es analytische Methoden, um die Wahrscheinlichkeit über den Parameterraum hinweg zu integrieren?
Erstens wird jede Situation, in der Sie einen Begriff wie für Daten und Modell in Betracht ziehen, als Wahrscheinlichkeitsmodell betrachtet . Dies ist häufig die Grundlage jeder statistischen Analyse, ob häufig oder bayesianisch, und dies ist der Teil, den Ihre Analyse entweder für eine gute oder für eine schlechte Übereinstimmung halten soll. Bayes-Faktoren unterscheiden sich also nicht grundlegend von den Wahrscheinlichkeitsverhältnissen.P(D|M)DM
Es ist wichtig, die Bayes-Faktoren richtig einzustellen. Wenn Sie beispielsweise zwei Modelle haben und von Wahrscheinlichkeiten zu Gewinnchancen konvertieren, verhalten sich die Bayes-Faktoren wie ein Operator bei früheren Überzeugungen:
PosteriorOdds=BayesFactor∗PriorOdds
P(M1|D)P(M2|D)=B.F.×P(M1)P(M2)
Der wirkliche Unterschied besteht darin, dass Wahrscheinlichkeitsverhältnisse billiger zu berechnen und im Allgemeinen konzeptionell einfacher zu spezifizieren sind. Die Wahrscheinlichkeit bei der MLE ist nur eine Punktschätzung des Bayes-Faktor-Zählers bzw. Nenners. Wie die meisten häufigeren Konstruktionen kann es als Spezialfall der Bayes'schen Analyse mit einem erfundenen Prior angesehen werden, der schwer zu erreichen ist. Aber meistens ist es entstanden, weil es analytisch nachvollziehbar und einfacher zu berechnen ist (in der Zeit, bevor ungefähre Bayes'sche Berechnungsansätze auftraten).
Was die Berechnung angeht, ja: Sie werden die verschiedenen Wahrscheinlichkeitsintegrale in der Bayes'schen Umgebung mit einem groß angelegten Monte-Carlo-Verfahren in nahezu jedem Fall von praktischem Interesse bewerten. Es gibt einige spezialisierte Simulatoren wie GHK, die funktionieren, wenn Sie bestimmte Verteilungen annehmen, und wenn Sie diese Annahmen treffen, können Sie manchmal analytisch nachvollziehbare Probleme finden, für die vollständig analytische Bayes-Faktoren existieren.
Aber niemand benutzt diese; Es gibt keinen Grund dafür. Mit optimierten Metropolis / Gibbs-Samplern und anderen MCMC-Methoden können diese Probleme vollständig datengesteuert angegangen und die Integrale numerisch berechnet werden. Tatsächlich wird man dies oft hierarchisch tun und die Ergebnisse über Meta-Prioritäten weiter integrieren, die sich auf Datenerfassungsmechanismen, nicht zu ignorierende experimentelle Designs usw. beziehen.
Ich empfehle dazu das Buch Bayesian Data Analysis . Obwohl sich der Autor Andrew Gelman anscheinend nicht allzu sehr für Bayes-Faktoren interessiert . Nebenbei stimme ich Gelman zu. Wenn Sie bayesianisch werden, dann nutzen Sie den vollen posterior aus. Die Modellauswahl mit Bayes'schen Methoden ist wie ein Handicap, da die Modellauswahl eine schwache und meist unbrauchbare Form der Inferenz ist. Ich würde es vorziehen, Verteilungen über Modellauswahl zu kennen, wenn ich kann ... Wer interessiert sich dafür, dass die Quantifizierung auf "Modell A ist besser als Modell B" Arten von Aussagen erfolgt, wenn dies nicht erforderlich ist?
Wendet man bei der Berechnung des Bayes-Faktors zusätzlich eine Korrektur für die Komplexität an (automatisch durch kreuzvalidierte Schätzung der Wahrscheinlichkeit oder analytisch durch AIC), wie dies bei der Wahrscheinlichkeitsrate der Fall ist?
Dies ist eines der schönen Dinge über Bayes'sche Methoden. Bayes-Faktoren erklären automatisch die Komplexität des Modells im technischen Sinne. Sie können ein einfaches Szenario mit zwei Modellen einrichten, und mit angenommenen Modellkomplexitäten bzw. , mit und einer Stichprobengröße . M 2 d 1 d 2 d 1 < d 2 NM1M2d1d2d1<d2N
Dann , wenn ist der Bayes - Faktor mit im Zähler, unter der Annahme , dass wahr ist , dass unter Beweis stellen kann als , nähert sich mit einer Rate, die vom Unterschied in der Modellkomplexität abhängt und bei der der Bayes-Faktor das einfachere Modell bevorzugt. Genauer gesagt können Sie zeigen, dass unter allen obigen Annahmen M 1 M 1 N → ≤ B 1 , 2 ≤ B 1 , 2 = O ( N 1B1,2M1M1N→∞B1,2∞
B1,2=O(N12(d2−d1))
Ich kenne diese Herleitung und die Diskussion aus dem Buch Finite Mischung und Markov Switching Models von Sylvia Frühwirth-Schnatter, aber es gibt wahrscheinlich direktere statistische Berichte, die mehr auf die ihr zugrunde liegende Erkenntnistheorie eingehen.
Ich kenne die Details nicht gut genug, um sie hier zu nennen, aber ich glaube, dass es einige ziemlich tiefe theoretische Zusammenhänge zwischen dieser und der Ableitung von AIC gibt. Das Informationstheorie-Buch von Cover und Thomas deutete zumindest darauf hin.
Und was sind die philosophischen Unterschiede zwischen dem Wahrscheinlichkeitsverhältnis und dem Bayes-Faktor (nb Ich frage nicht nach den philosophischen Unterschieden zwischen dem Wahrscheinlichkeitsverhältnis und den Bayes-Methoden im Allgemeinen, sondern nach dem Bayes-Faktor als Repräsentation der objektiven Beweise im Speziellen). Wie würde man die Bedeutung des Bayes-Faktors im Vergleich zum Wahrscheinlichkeitsverhältnis charakterisieren?
Der Wikipedia-Artikel über "Interpretation" bietet eine gute Diskussionsgrundlage (insbesondere die Grafik, die Jeffreys 'Skala für die Stärke der Evidenz zeigt).
Wie üblich gibt es nicht allzu viel Philosophisches, außer den grundlegenden Unterschieden zwischen Bayes'schen Methoden und frequentistischen Methoden (mit denen Sie bereits vertraut zu sein scheinen).
Die Hauptsache ist, dass die Wahrscheinlichkeitsquote im niederländischen Buchsinn nicht kohärent ist. Sie können Szenarien erstellen, in denen die Modellauswahl anhand der Wahrscheinlichkeitsverhältnisse dazu führt, dass Sie Wetten akzeptieren, die verloren gehen. Die Bayes'sche Methode ist kohärent, arbeitet jedoch mit einem Prior, der extrem schlecht sein könnte und subjektiv gewählt werden muss. Kompromisse .. Kompromisse ...
FWIW, ich denke, diese Art der stark parametrisierten Modellauswahl ist keine sehr gute Schlussfolgerung. Ich bevorzuge Bayes'sche Methoden und ich bevorzuge es, sie hierarchischer zu organisieren, und ich möchte, dass sich die Folgerung auf die vollständige posteriore Verteilung konzentriert, wenn dies rechnerisch überhaupt machbar ist. Ich denke, Bayes-Faktoren haben einige gute mathematische Eigenschaften, aber als Bayesianer bin ich nicht davon beeindruckt. Sie verbergen den wirklich nützlichen Teil der Bayes'schen Analyse, der darin besteht, dass Sie gezwungen sind, mit Ihren Vorgesetzten im Freien umzugehen, anstatt sie unter den Teppich zu kehren, und dass Sie Rückschlüsse auf volle Vorgesetzte ziehen können.