Wie lässt sich das Bayes'sche Gerüst besser interpretieren, wenn wir normalerweise uninformative oder subjektive Prioritäten verwenden?


18

Es wird oft argumentiert, dass das Bayes'sche Gerüst einen großen Vorteil bei der Interpretation hat (gegenüber dem Frequentisten), weil es die Wahrscheinlichkeit eines Parameters berechnet, wenn die Daten gegeben sind - anstelle von wie in frequentistischer Rahmen. So weit, ist es gut.p ( x | θ )p(θ|x)p(x|θ)

Aber die ganze Gleichung, auf der es basiert:

p(θ|x)=p(x|θ).p(θ)p(x)

sieht für mich aus 2 Gründen etwas verdächtig aus:

  1. In vielen Veröffentlichungen werden normalerweise uninformative Prioritäten (Gleichverteilungen) verwendet und dann nur , sodass Bayesianer dasselbe Ergebnis erzielen wie Frequentisten - wie ist dann das Bayesianische Gerüst besser? Interpretation, wenn bayesianische posterior und frequentists Wahrscheinlichkeit die gleichen Verteilungen sind? Es ergibt sich nur das gleiche Ergebnis.p(θ|x)=p(x|θ)

  2. Wenn Sie informative Prioritäten verwenden, erhalten Sie unterschiedliche Ergebnisse, aber der Bayesian wird vom subjektiven Prior beeinflusst, sodass auch das gesamte den subjektiven Farbton hat.p(θ|x)

Mit anderen Worten, das ganze Argument, dass in der Interpretation besser ist als baut auf der Annahme auf, dass eine Art "real" ist, was normalerweise nicht der Fall ist Dies ist nur ein Ausgangspunkt, von dem wir annehmen, dass der MCMC ausgeführt wird. Es handelt sich jedoch nicht um eine Beschreibung der Realität (kann meiner Meinung nach nicht definiert werden).p ( x | θ ) p ( θ )p(θ|x)p(x|θ)p(θ)

Wie können wir also argumentieren, dass Bayesian besser interpretiert werden kann?


4
(1) sieht verdächtig aus, weil seine Schlussfolgerung falsch ist: Bayesianische Ergebnisse mit nicht informativen Prioritäten stimmen nicht notwendigerweise mit den häufigeren Schlussfolgerungen überein. Tatsächlich scheint es in vielen Fällen keine Übereinstimmung darüber zu geben, was ein "uninformativer Prior" überhaupt ist! (2) ist auch umstritten, weil implizit davon ausgegangen wird, dass jede in einer frequentistischen Analyse getroffene Annahme nicht subjektiv ist - aber das ist nicht der Fall. Was genau meinen Sie mit "besser interpretieren"? Ihre Frage ist ohne eine Definition davon mehrdeutig.
Whuber

1
Zusätzlich zu Whubers Kommentar möchte ich sagen, dass es keinen allgemeinen Grund gibt, warum Bayes besser als Frequentist ist, daher das Argument. Manchmal liefert Bayes aussagekräftige Ergebnisse, und manchmal ist der häufigere Weg besser. Im angewandten Bereich sollte es jedoch keinen Grund geben, warum man sehr unterschiedliche Ergebnisse erzielen sollte. Aus philosophischer Sicht ist Bayes definitiv stark, aber wie wir alle wissen, unterscheiden sich Theorie und Praxis manchmal drastisch. Außerdem mache ich mir ein bisschen Sorgen um Ihren ersten Absatz. Mir scheint, Sie sind ein engagierter Bayesianer (daran ist nichts auszusetzen).
Suncoolsu

Sollte der Titel nicht sein uninformative or *objective* priors? Die subjectivePriors sind genau informative Priors.
Javadba

Antworten:


15

Um eine engere Antwort zu geben als die bereits veröffentlichten, und sich auf den Vorteil der Interpretation zu konzentrieren - die Bayes'sche Interpretation eines z Intervall entspricht 95%. Eine der beiden gängigen häufigen Interpretationen eines "95% -Konfidenzintervalls", auch wenn beide numerisch identisch sind, ist auf lange Sicht die Häufigkeit, mit der das Verfahren viele Male durchgeführt wird Intervall würde decken den realen Wert würde zu 95% konvergieren. Ersteres ist intuitiv, Letzteres nicht. Erklären Sie einem Manager einmal, dass Sie nicht sagen können: "Die Wahrscheinlichkeit, dass sich unsere Solarmodule in 25 Jahren um weniger als 20% verschlechtern, liegt bei 95%."

Eine alternative häufige Interpretation wäre: "Bevor die Daten generiert wurden, bestand eine Wahrscheinlichkeit von 5%, dass das Intervall, das ich mit dem von mir festgelegten Verfahren berechnen würde, vollständig unter den wahren Parameterwert fällt. Jetzt jedoch, da wir die Daten gesammelt haben, wir können keine solche Aussage treffen, weil wir keine Subjektivisten sind und die Wahrscheinlichkeit entweder 0 oder 1 ist, abhängig davon, ob sie vollständig unter dem wahren Parameterwert liegt oder nicht. " Das hilft beim Wirtschaftsprüfer und bei der Berechnung der Garantiereserve. (Ich halte diese Definition eigentlich für vernünftig, wenn auch normalerweise nicht nützlich. Sie ist auch nicht leicht intuitiv zu verstehen, und insbesondere nicht, wenn Sie kein Statistiker sind.)

Keine der häufigeren Interpretationen ist intuitiv. Die Bayes'sche Version ist. Daher der "große Interpretationsvorteil" des Bayes'schen Ansatzes.


Mein Problem mit dem Anti-Frequentist-Argument ist, dass es zu viel versucht, das Verfahren als Antwort zu beschreiben. Versuchen Sie das gleiche Experiment für sich selbst in der Interpretation, aber welche Schlussfolgerung aus den Ergebnissen zu ziehen. Wie genau würden Sie sich anders verhalten, wenn Sie die Ergebnisse eines Frequentisten und eines Bayesianers hören würden? Tatsächlich werden Sie immer noch genauso handeln, wenn Sie beide verstehen. Es besteht keine Notwendigkeit, auf die Ebene des Verfahrens zu gehen, um zu erklären, dass "das Beste darin besteht, auf der Grundlage des durch die Daten gegebenen Vertrauens so und so zu handeln".
PascalVKooten

Außerdem müssen Sie im Bayes'schen Fall per Definition mehr erklären, da Sie nicht nur wissen, "was die Daten uns sagen", sondern auch, welche Informationen der Prior enthält! Bayesianer neigen dazu, lange häufigere Erklärungen abzugeben, aber sie gehen nicht darauf ein, zu erklären, welche Prioritäten sie gewählt haben, warum sie Prioritäten gewählt haben und speziell warum diese Prioritäten.
PascalVKooten

Nun, ich werde mit Ihrem letzten Punkt teilweise nicht einverstanden sein. Als ich zum Beispiel in meinem vorherigen Job Zuverlässigkeitsanalysen an sehr, sehr teuren Geräten durchgeführt habe, haben wir die Ergebnisse unserer vorherigen Zuverlässigkeitsanalyse als Vorgänger für unsere neue Analyse behandelt, die im Hinblick auf die "äquivalente Stichprobengröße" auf "herabgewichtet" wurde Berücksichtigen Sie die Unstetigkeit der realen Welt und geringfügige Änderungen im Design usw. Tatsächlich geht es bei der Bayes'schen Statistik darum, Ihre vorherigen Daten zu aktualisieren. Die klassische Statistik wird nicht "aktualisiert", sodass Sie mit einigen Ausnahmen nur dann dieselben Ergebnisse erhalten, wenn Ihre Prioritäten unverändert sind.
Bogenschütze

Ich würde einfach die Datensätze zusammenführen und eine weitere Analyse durchführen. Es gibt keine besseren Vorgängerdaten als die tatsächlichen Vorgängerdaten: Sie erhalten einen "echten" datenbasierten Posterior.
PascalVKooten

Nun, Sie möchten vielleicht nicht genau den vorherigen Posterior für Ihren neuen Prior, in unserem Fall wegen laufender kleinerer Designänderungen und unseres Wissens, dass der mfg. Der Prozess hat sich ebenfalls weiterentwickelt, sodass unsere vorherigen Daten nicht zu 100% für zukünftige Daten aussagekräftig sind. Es kann auch Überlegungen zur Laufzeit geben. Aber Ihr Punkt ist im Allgemeinen ein guter Punkt, scheint mir.
Jbowman

13

p(θ|x)p(x|θ)p(x|θ)p(θ|x)

Beachten Sie, dass informative Prioritäten nicht unbedingt subjektiv sind. Ich würde es beispielsweise nicht als subjektives Wissen betrachten, zu behaupten, dass Vorkenntnisse eines physikalischen Systems unabhängig von den Maßeinheiten sein sollten (da sie im Wesentlichen willkürlich sind), was zur Idee von Transformationsgruppen führt und "minimal informative" Prioritäten.

Die Kehrseite des Ignorierens von subjektivem Wissen ist, dass Ihr System möglicherweise nicht optimal ist, da Sie Expertenwissen ignorieren. Subjektivität ist also nicht unbedingt eine schlechte Sache. Wenn Sie beispielsweise das übliche Problem "Ableiten der Verzerrung einer Münze" verwenden, das häufig als motivierendes Beispiel verwendet wird, lernen Sie relativ langsam mit einem einheitlichen Vorgänger, wenn die Daten eingehen. Sind jedoch alle Beträge der Verzerrung mit gleicher Wahrscheinlichkeit eine vernünftige Annahme? Nein, es ist einfach, eine leicht voreingenommene Münze oder eine vollständig voreingenommene Münze (zwei Köpfe oder zwei Tals) zu erstellen. Wenn wir diese Annahme über einen subjektiven Prior in unsere Analyse einbauen, werden wir weniger Daten benötigen, um zu identifizieren, um was das ist Voreingenommenheit ist eigentlich.

Frequentistische Analysen enthalten häufig auch subjektive Elemente (z. B. die Entscheidung, die Nullhypothese abzulehnen, wenn der p-Wert kleiner als 0,05 ist, besteht kein logischer Zwang, dies ist lediglich eine Tradition, die sich als nützlich erwiesen hat). Der Vorteil des Bayes'schen Ansatzes besteht darin, dass die Subjektivität in der Berechnung explizit gemacht wird, anstatt sie implizit zu lassen.

Letztendlich handelt es sich um "Pferde für Kurse". Sie sollten beide Werkzeugsätze in Ihrer Werkzeugkiste haben und darauf vorbereitet sein, das beste Werkzeug für die jeweilige Aufgabe zu verwenden.


6

Das Bayes'sche Gerüst hat einen großen Vorteil gegenüber Frequentisten, da es nicht darauf ankommt, eine "Kristallkugel" zu haben, um die richtigen Verteilungsannahmen zu kennen. Bayesianische Methoden hängen davon ab, welche Informationen Sie haben und wie diese Informationen in eine Wahrscheinlichkeitsverteilung codiert werden.

Mit Bayes'schen Methoden wird im Grunde genommen die Wahrscheinlichkeitstheorie in vollem Umfang angewendet. Der Bayes-Satz ist nichts anderes als eine Wiederholung der klassischen Produktregel der Wahrscheinlichkeitstheorie:

p(θx|ich)=p(θ|ich)p(x|θich)=p(x|ich)p(θ|xich)

p(x|ich)0ich

Wenn Sie nun den Bayes-Satz für verdächtig halten, müssen Sie logischerweise auch denken, dass die Produktregel ebenfalls verdächtig ist. Sie können ein deduktives Argument finden hier , was die Produkt- und Summenregeln, ähnlich wie Cox-Theorem abgeleitet wird . Eine ausführlichere Liste der erforderlichen Annahmen finden Sie hier .

Soweit ich weiß, basiert die frequentistische Folgerung nicht auf einer Reihe von Grundlagen innerhalb eines logischen Rahmens. Da es die Kolmogorov-Axiome der Wahrscheinlichkeit verwendet, scheint es keinen Zusammenhang zwischen Wahrscheinlichkeitstheorie und statistischer Inferenz zu geben. Es gibt keine Axiome für eine frequentistische Folgerung, die zu einem Verfahren führen, das befolgt werden muss. Es gibt Prinzipien und Methoden (maximale Wahrscheinlichkeit, Konfidenzintervalle, p-Werte usw.), die gut funktionieren, jedoch eher isoliert und auf bestimmte Probleme spezialisiert sind. Ich denke, dass frequentistische Methoden in ihren Grundlagen am besten vage bleiben, zumindest in Bezug auf einen strengen logischen Rahmen.

1θ

2

Die Verwendung eines einheitlichen Prior ist häufig eine geeignete Annäherung, wenn die Wahrscheinlichkeit im Vergleich zum Prior scharf ist. Manchmal ist es die Mühe nicht wert, einen Prior durchzugehen und richtig einzurichten. Machen Sie auch nicht den Fehler, Bayes-Statistiken mit MCMC zu verwechseln. MCMC ist nur ein Integrationsalgorithmus, genau wie Guassian Quadratre, und in einer ähnlichen Klasse wie die Laplace-Näherung. Es ist ein bisschen nützlicher als quadratre, weil Sie die Ausgabe des Algorithmus wiederverwenden können, um alle Ihre Integrale zu erstellen (hintere Mittelwerte und Varianzen sind Integrale), und ein bisschen allgemeiner als Laplace, weil Sie keine große Stichprobe benötigen, oder a gut gerundete Spitze im posterior (Laplace ist zwar schneller).


3

μ=0) über einen Regressionskoeffizienten gesetzt, der das Wissen codiert, dass alle Dinge gleich sind, bevorzugen wir Lösungen, bei denen die Koeffizienten geringere Größen haben. Dies dient dazu, eine Überanpassung eines Datensatzes zu vermeiden, indem Lösungen gefunden werden, die die Zielfunktion maximieren, aber im speziellen Kontext unseres Problems keinen Sinn ergeben. In gewissem Sinne bieten sie eine Möglichkeit, dem statistischen Modell einige "Hinweise" auf eine bestimmte Domäne zu geben.

Dies ist jedoch (meiner Meinung nach) nicht der wichtigste Aspekt der Bayes'schen Methodik. Bayesianische Methoden sind insofern generativ, als sie eine vollständige "Geschichte" darüber liefern, wie die Daten entstanden sind. Sie sind also nicht nur Mustersucher, sondern können die Realität der jeweiligen Situation voll berücksichtigen. Betrachten Sie zum Beispiel LDA (Latent Dirichlet Allocation), das eine vollständige generative Geschichte darüber liefert, wie ein Textdokument entsteht, die ungefähr so ​​aussieht:

  1. Wählen Sie eine Themenmischung basierend auf der Wahrscheinlichkeit des gleichzeitigen Auftretens bestimmter Themen aus. und
  2. Wählen Sie einige Wörter aus dem Vokabular aus, abhängig von den ausgewählten Themen.

Somit basiert das Modell auf einem sehr spezifischen Verständnis der Objekte in der Domäne (hier Textdokumente) und wie sie erstellt wurden. Daher sind die Informationen, die wir zurückerhalten, direkt auf unsere Problemdomäne zugeschnitten (Wahrscheinlichkeit, dass Wörter zu bestimmten Themen verwendet werden, Wahrscheinlichkeit, dass Themen zusammen erwähnt werden, Wahrscheinlichkeit, dass Dokumente Themen enthalten und in welchem ​​Umfang usw.). Die Tatsache, dass Bayes Theorem dazu verpflichtet ist, ist fast zweitrangig, daher der kleine Witz: "Bayes wäre kein Bayesianer und Christus wäre kein Christ."

Kurz gesagt, bei Bayes'schen Modellen geht es darum, die Domänenobjekte unter Verwendung von Wahrscheinlichkeitsverteilungen rigoros zu modellieren. Daher sind wir in der Lage, Wissen zu kodieren, das sonst mit einer einfachen Unterscheidungstechnik nicht verfügbar wäre.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.