Parameter als Zufallsvariable in der Bayes'schen Statistik verstehen

Wenn ich das richtig verstehe, ist in der Bayes'schen Statistik ein Parameter eine Zufallsvariable. Bei der Schätzung des Parameters wird eine vorherige Verteilung mit den Daten kombiniert, um eine hintere Verteilung zu erhalten.

Frage:

Wird jeder Datenpunkt (sowohl in der Stichprobe als auch in der Grundgesamtheit) durch dieselbe Realisierung des Parameters erzeugt?
Wenn ja, warum sollte mir die Verteilung (dh andere mögliche Realisierungen und ihre jeweiligen Wahrscheinlichkeitsmassen oder Wahrscheinlichkeitsdichtewerte) des Parameters wichtig sein? Schließlich versuche ich, aus der Stichprobe und dem Prior etwas über diese bestimmte Population herauszufinden .
Wenn nicht, wie spiegelt sich dies, wenn überhaupt, in den Formeln der Bayes'schen Parameterschätzung wider?

Gleichzeitig verstehe ich, dass meine Überzeugungen, ob anfänglich (vom Prior reflektiert) oder aktualisiert (vom Posterior reflektiert), als Verteilung kommen, und ich habe damit kein Problem. Aber ich frage mich, ob / warum ich annehmen sollte, dass der Parameter selbst eine Zufallsvariable ist.

Bearbeiten: Ich habe ein paar Antworten erhalten, die hilfreich sind, aber ich würde mich über eine oder mehrere freuen, die mehr auf den Punkt bringen.

bayesian

— Richard Hardy
quelle

Entschuldigung, wenn dies ein Duplikat ist. Ich habe einige verwandte Themen gefunden, z. B. "Würde ein Bayesianer zugeben, dass es einen festen Parameterwert gibt?" , aber ich dachte, vielleicht ist meine deutlich genug.

— Richard Hardy

Hier ist, was Florian Hartig in diesem Thread schrieb : [W] Was wäre der Punkt, um eine Menge zu schätzen, die nicht festgelegt ist? Was würde das überhaupt mathematisch bedeuten? Natürlich kann es sein, dass Sie eine Menge haben, die kein Wert, sondern eine Verteilung ist. Aber dann schätzen Sie die Verteilung, damit sie wieder behoben wird. Dies spiegelt mein derzeitiges Verständnis wider.

— Richard Hardy

Antworten:

In der Frequentist-Statistik gehen wir davon aus, dass wir vor dem Anzeigen der Daten nichts über die interessierenden Parameter wissen.

In der Bayes'schen Statistik lockern wir diese Annahme, indem wir anerkennen, dass wir möglicherweise etwas über die möglichen Werte der interessierenden Parameter wissen, bevor wir die Daten sehen - zum Beispiel, wie wahrscheinlich es ist, dass der Parameter Werte in einem bestimmten Bereich annimmt . Nachdem wir die Daten gesehen haben, können wir dieses Vorwissen verfeinern / aktualisieren. Die vorherige Verteilung (en) der interessierenden Parameter (e) kapseln also unser Wissen / unsere Überzeugung über die möglichen Werte dieser (dieser) Parameter (s), bevor die Daten angezeigt werden, während die entsprechenden hinteren Verteilungen dieses Wissen / diese Überzeugung verfeinern Eingabe aus den Daten.

Sowohl die frequentistische als auch die Bayes'sche Statistik gehen davon aus, dass ein Parameter eine unbekannte Größe ist, die geschätzt werden muss. Sie unterscheiden sich jedoch in Bezug auf die für die Schätzung dieser Menge erforderlichen Eingaben: Daten nur für häufig auftretende Statistiken im Vergleich zu Vorkenntnissen / Überzeugungen sowie Daten für Bayes'sche Statistiken.

Wenn Bayesianer den Mittelwert / Median / Modus einer posterioren Verteilung für einen bestimmten Parameter angeben, tun sie dies, weil sie glauben, dass dies der wahrscheinlichste Wert des Parameters ist (dh eine unbekannte zu schätzende Größe). Der Parameter ist jedoch unbekannt, sodass ein Maß für die Unsicherheit um diesen wahrscheinlichsten Wert (z. B. ein glaubwürdiges Intervall von 95%) einen Eindruck davon vermittelt, wo der wahre Wert des Parameters leben kann.

Als Frequentist, der sich dem Bayes'schen Feld nähert, fand ich es hilfreich, den Parameter als etwas Unbekanntes zu betrachten, das wir zu schätzen versuchen, und die vorherigen und hinteren Verteilungen als Werkzeuge, um unseren Wissens- / Glaubenszustand über diese unbekannte Entität vor und nach dem Sehen zusammenzufassen die Daten jeweils.

Während Frequentisten den harten Ansatz verfolgen, dass wir nichts über die unbekannte Entität wissen, der wir nachjagen, verfolgen die Bayesianer einen realistischeren und differenzierteren Ansatz, bei dem wir möglicherweise tatsächlich etwas wissen und uns verbessern werden, sobald wir die Daten sehen auf diesem Wissen.

Daher kümmern wir uns um Verteilungen im Bayes'schen Kontext, da sie geeignete Mittel sind, um den aktuellen Wissens- / Glaubensstand (für frühere Verteilungen) und den hoffentlich verbesserten Wissens- / Glaubenszustand auszudrücken, der nach dem Betrachten der Daten (für hintere Verteilungen) erreicht wurde.

Nachtrag:

Persönlich stimme ich der Ansicht zu, die Sander Greenland in dem Artikel Bayesianische Perspektiven für die epidemiologische Forschung so eloquent festgehalten hat : I. Grundlagen und grundlegende Methoden , International Journal of Epidemiology, Band 35, Ausgabe 3, 1. Juni 2006, Seiten 765–775 (welche ist verfügbar unter https://academic.oup.com/ije/article/35/3/765/735529 ):

" Es wird oft (fälschlicherweise) gesagt, dass 'Parameter vom Frequentisten als fest, aber vom Bayesianer als zufällig behandelt werden'. Für Frequentisten und Bayesianer gleichermaßen kann der Wert eines Parameters von Anfang an festgelegt oder von generiert worden sein In beiden Fällen nehmen beide an, dass er einen festen Wert angenommen hat, den wir gerne wissen würden. Der Bayesianer verwendet formale Wahrscheinlichkeitsmodelle, um die persönliche Unsicherheit über diesen Wert auszudrücken. Die 'Zufälligkeit' in diesen Modellen repräsentiert die persönliche Unsicherheit über der Wert des Parameters; er ist keine Eigenschaft des Parameters (obwohl wir hoffen sollten, dass er die Eigenschaften der Mechanismen, die den Parameter erzeugt haben, genau widerspiegelt). "

Weitere Überlegungen zu diesem Thema finden Sie unter http://thestatsgeek.com/2015/04/22/bayesian-inference-are-parameters-fixed-or-random/ .

— Isabella Ghement
quelle

Vielen Dank für Ihre Antwort! Wenn ich Sie richtig verstehe, scheinen Sie kein Argument dafür zu liefern, den Parameter als RV in dem Sinne zu behandeln, dass es sich um eine feste Größe handeln kann. Die Sprache der Wohnmobile wird nur verwendet, um unser Wissen / unsere Überzeugungen darüber auszudrücken, wo dieser feste Wert liegt. (So denke ich auch darüber nach.) Aber können Sie die Fragen direkt beantworten? Würden Sie zum Beispiel "1. Ja" und "2. Wir verwenden nur die Sprache von Wohnmobilen, um unser Wissen / unsere Überzeugungen über eine feste Menge (eine Menge, die eigentlich kein Wohnmobil ist) auszudrücken"? Aber dann würde letzteres irgendwie mit der Aussage kollidieren, dass ein Parameter ein Wohnmobil ist.

— Richard Hardy

@RichardHardy: Ich habe einen Nachtrag hinzugefügt, der helfen könnte, meine persönlichen Neigungen zu klären. Da ich kein Bayesianer bin, möchte ich lieber andere, die Ihre Fragen beantworten, direkt lassen. Ich dachte nur, dass ich einsteigen würde, weil ich Dinge aus der gleichen Perspektive betrachte wie Sie und das könnte zumindest bestätigen, dass Sie auf dem richtigen Weg sind.

— Isabella Ghement

Andrew Gelman verwendet manchmal den Ausdruck "Bayesianer, Frequentisten und Statistiker". Statistiker sind im Grunde genommen Pragmatiker, die oft zu entscheiden scheinen, was (hoffentlich) funktioniert.

— kjetil b halvorsen

@IsabellaGhement, danke. Das Zitat klingt für mich ansprechend. Der Blogbeitrag ist auch schön.

— Richard Hardy

Wird jeder Datenpunkt (sowohl in der Stichprobe als auch in der Grundgesamtheit) durch dieselbe Realisierung des Parameters erzeugt?

In der Stichprobe lautet die Antwort "Ja", wenn Sie Dinge wie Heteroskedastizität als eine Form wie $\sigma^2_{\Delta{t}}=\Delta{t}\sigma_0^2$
In der Bevölkerung könnte die Antwort ja sein, wenn Sie die Verteilung als Dirac-Funktion betrachten, aber nicht automatisch in der Bevölkerung. Betrachten Sie den Fall, in dem ein Casino die Gewinnwahrscheinlichkeit von Zeit zu Zeit ändert. Bei festen 100 experimentellen Ziehungen im Casino ist die Wahrscheinlichkeit, dass das Casino gewinnt, der gewichtete Durchschnitt des sich ändernden Werts. Der Zeitpunkt des Strukturbruchs (der Strukturbrüche) ist unbekannt. Wenn die Wahrscheinlichkeit, dass das Casino gewinnt, nahe genug bei 0,5 liegt, ist die Modellierung eines Strukturbruchs bedeutungslos, da das natürliche Rauschen die Realität überschwemmt, es sei denn, die Änderung ist stark, z. B. von einer 50% igen Gewinnchance auf eine 99% ige Gewinnchance mit der Pause bei 50 Unentschieden. Im Nachhinein ist die gemeinsame Gewinnwahrscheinlichkeit ein fester Wert über einen festen Satz von Ziehungen und fest, wenn die Grundgesamtheit feststeht.

Wenn ja, warum interessiert mich die Verteilung (dh andere mögliche Realisierungen und ihre jeweiligen Dichten) des Parameters? Schließlich versuche ich, aus der Stichprobe und dem Prior etwas über diese bestimmte Population herauszufinden.

Ihre Frage spiegelt die Bayes'sche Beschwerde wider, dass häufig auftretende Methoden gegen das Wahrscheinlichkeitsprinzip verstoßen. Warum sollten Proben bei der Durchführung eines T-Tests nicht berücksichtigt werden? Weil häufig auftretende Methoden über den Probenraum mitteln. Warum sollten Realisierungen des Parameters für Ihre Stichprobe irrelevant sein? Die schwache Antwort liegt darin, dass Bayes'sche Methoden über den Parameterraum gemittelt werden.

Diese Frage wäre ein sehr legitimer Angriff, insbesondere auf subjektive Bayes'sche Methoden, wenn man polemisch sein wollte. Obwohl sich gezeigt hat, dass das Wahrscheinlichkeitsprinzip unter bestimmten Denkweisen fehlerhaft ist, scheint die philosophische Konstruktion frequentistischer Methoden die Bayes'sche Arbeit nicht widerzuspiegeln. Das sollte ein Papier sein, obwohl es wahrscheinlich die Fehler des Wahrscheinlichkeitsprinzips in der Bayes'schen Statistik teilen würde.

Die stärkere Antwort ist, dass uns als eine unendliche Stichprobengröße fehlt. Da Bayes'sche Methoden Zufälligkeit als Unsicherheit und nicht als Zufall behandeln, wie dies bei häufig vorkommenden Methoden der Fall ist, ist dies eine Quantifizierung der Unsicherheit, die in Ihrem Verständnis der Natur verbleibt. Wenn Sie auf den Parameter reagieren müssen und ihn auf nur zwei mögliche Werte und , sagen Sie mit es kann gefährlich sein und es ist sicherlich inkohärent (im de Finetti-Sinne), als den einzig möglichen Wert zu ignorieren . $lim_{n\to\infty}\hat{\theta}\to\theta$ $\hat{\theta}_A$ $\hat{\theta}_B$ $\Pr(\theta=\hat{\theta}_A)=.75$ $\hat{\theta}_B$

Um ein konkretes Beispiel zu geben, habe ich 78 Insolvenzmodelle getestet und festgestellt, dass die kumulative hintere Wahrscheinlichkeit für 76 von ihnen von einem Prozent betrug, während die anderen beiden ungefähr 54% und 46% betrugen. Glücklicherweise hat kein Modell Variablen gemeinsam genutzt. Ein Grund zur Sorge ist, dass ich mit ziemlicher Sicherheit das wahre Modell falsch habe. Die Modellmittelung der Vorhersagedichte ermöglichte es mir, einen bemerkenswert kleinen Fehler außerhalb der Stichprobe zu erzeugen. Ich interessiere mich für die Modelle mit hoher Wahrscheinlichkeit, und wenn ich die Ressourcen hätte, um die Ergebnisse unter einer vollständigen Modellmittelung zu berechnen, die die 76 Modelle mit niedriger Wahrscheinlichkeit enthält, hätten sich die Ergebnisse nicht innerhalb der Anzahl von Stellen geändert, die ich für signifikant halte. $1/10,000^{th}$

Wenn nicht, wie spiegelt sich dies, wenn überhaupt, in den Formeln der Bayes'schen Parameterschätzung wider?

Dies ist der Bayes-Satz. Wenn man sehr intellektuell ehrlich ist, dann erfordert die wahre, extreme subjektivistische Sichtweise, a la Savage , nichts weiter als eine angemessene hintere Dichte. Wenn ich mit dir spielen will, wie de de FinettiWenn ich darüber nachdenke, ob die Schwerkraft durch das Verlassen eines zehnstöckigen Gebäudes gültig ist oder nicht, sollte ich alternative Ansichten der Realität in Betracht ziehen, bevor ich mein Glücksspiel mache. Wenn ich nun die Entscheidungstheorie einbeziehen wollte, da das Verlassen eines zehnstöckigen Gebäudes eine natürliche Version der Alles-oder-Nichts-Kostenfunktion ist, dann sollte ich das Gebäude verlassen, wenn meine Überzeugungen gegen die Schwerkraft ausreichend stark sind . Dabei würde ich mir nur Sorgen um dieses eine Experiment machen, da die Wiederholbarkeit zu einem Problem wird, wenn ich falsch liege. In diesem Fall hat Ihre Frage keine Bedeutung, es sei denn, ich bin richtig. Wenn ich andererseits Geld spiele, wäre ein quadratischer Verlust in den meisten realen Fällen die geeignete Verlustfunktion, wenn man die Art der Nachfragekurve für Glücksspiele und das Verhältnis zu den Einnahmen aus Glücksspielen berücksichtigt.

Das Potenzial für einen sich ändernden Parameter spiegelt sich in der Bayes'schen Aktualisierung wider. Ihre Frage ist nur in Wiederholung von Bedeutung. Das ist der Inbegriff der Bayes'schen Aktualisierung in einem rein subjektivistischen Rahmen. Wie modelliere ich subjektive Parameterzeichnungen, indem ich viele Experimente durchführe und sie verbinde, um den posterioren Bereich auf die Lösung der Natur zu beschränken? Dies ist ein Denksystem, das auf dem generativen Modell basiert.

EDIT Ich denke, ich sollte ein bisschen sichern. Es gibt mehr als eine Interpretation und mehr als eine Axiomatisierung von Bayes'schen Methoden. Sie liegen Ihren Fragen etwas zugrunde.

Bei der subjektiven Interpretation werden Parameter zufällig aus einer Verteilung gezogen. Diese Verteilung ist die vorherige Dichte. Wenn Sie an den Zähler des Bayes-Theorems denken , folgt logischerweise, dass der Zähler stark vom Prior abhängt. Da zufällig ist, kann ein Experiment als Instanziierung von . Wenn Sie ein anderes Experiment durchführen, ist dies eine weitere Instanziierung von . Ziel ist es, die wahre Verteilung der Parameter zu finden. Diese Verteilung könnte an einem einzigen Punkt eine unendliche Masse und überall sonst eine Masse von Null haben. $f(x|\theta)\pi(\theta)$ $\theta$ $\theta$ $\theta$

Bei der objektiven Interpretation sind die Parameter wie bei der Frequentist-Methodik festgelegt, sie sind jedoch unbekannt. Der Prior stellt eine Quantifizierung der unbekannten Wahrscheinlichkeit dar, dass . Die Wahrscheinlichkeit ist die Verteilung der Stichprobe. Es gibt einen Parameter der der Natur bekannt ist und den die Natur verwendet, um ein Beispiel zu erstellen . Der Prior der Natur hat eine unendliche Masse an einem einzelnen Punkt und ist an anderer Stelle Null. Ihr Prior enthält die Informationen darüber, was Sie bis zu diesem Zeitpunkt entdeckt haben. Die Wahrscheinlichkeit berücksichtigt nur die gesehene Probe und ignoriert den Rest des Probenraums. $\theta=k$ $\theta$ $X$

Es gibt keinen mathematischen Formunterschied zwischen den beiden Interpretationen. Es gibt auch eine "Convenience-Interpretation". Es würde so etwas gehen. Bayesianische Methoden sind wirklich nützlich, Priors herauszufinden jedoch nicht. Wenn ein Prior erstellt werden kann, der die Entdeckung des Parameters nicht beeinträchtigt, sollte der bequemste und einfachste Prior verwendet werden, da der Prior bei der Regularisierung der Stichprobe unglaublich wertvoll sein kann. In dieser Ansicht sind Parameter immer noch Zufallsvariablen, aber niemand denkt viel darüber nach, was es bedeutet. Es ist nur nützlich.

Es gibt drei Hauptgruppen von Axiomen hinter dem Bayes'schen Denken. In einigen Fällen spielt die Wahl tatsächlich eine Rolle. Dies ist nicht auf Berechnungsunterschiede zurückzuführen, sondern auf theoretische Unterschiede. Zum Beispiel ermöglichen Savages Axiome den Forschern, Nutzen und Wahrscheinlichkeit zu trennen. Die Axiome von de Finetti erlauben es Forschern nicht, Nutzen von Wahrscheinlichkeit zu trennen. Dies liegt daran, dass in de Finettis Konstruktion keine Wahrscheinlichkeit besteht.

de Finetti hat zwei Axiome. Das erste ist, dass ein Buchmacher keine Wetten akzeptiert, die in allen Naturzuständen zu einem sicheren Verlust führen. Das zweite ist, dass der Buchmacher alle endlichen Wetten zu den vom Buchmacher angegebenen Preisen akzeptiert. Dies ist eine ungewöhnliche Methode, um einen Wahrscheinlichkeitstest der Geschwindigkeit eines Objekts bei Standardtemperatur und -druck zu motivieren, funktioniert jedoch. Es gibt die Wahrscheinlichkeit in Bezug auf Glücksspiele wieder. Beachten Sie, dass in beiden Axiomen weder Wahrscheinlichkeit noch Nutzen erwähnt werden. Die Wahrscheinlichkeit in de Finettis Welt ist nur eine Berechnung, mit der wir über die Welt nachdenken und die es nicht wirklich gibt. Dienstprogramm auch nicht. Wenn Sie also Nutzen und Wahrscheinlichkeit zusammen verwenden, sind sie nicht zu unterscheiden, da es sich bei beiden um abstrakte Berechnungen handelt, die zum Verständnis der Welt dienen. Sie sind lediglich Konstrukte des Geistes.

Stellen Sie sich als Beispiel vor, wie ein Frequentist und ein Bayesianer das Spiel von Cho Han verstehen würden. Um die Bayes'sche Perspektive zu verstehen, schauen Sie sich den japanischen Film Zatoichi von 1962 an. Cho Han ist ein Spiel, das davon abhängt, ob die Würfel gerade oder ungerade sind. Es wird häufig als Gerät in Yakuza-Filmen verwendet. Dies liegt daran, dass es, wie jeder Physiker, Magier oder Betrüger Ihnen sagen wird, keinen zufälligen Würfelwurf oder Münzwurf gibt. Das Ergebnis ist für das Publikum ungewiss, für Kenner jedoch absolut sicher. Es ist unmöglich, dass eine Stichprobe zufällig ist, da sie nach Abschluss festgelegt ist. Du weißt es. Die Frage ist, wie Parameter Zufallsvariablen sein können.

Was fehlt, ist die Richtlinie, die die Parameter erstellt. In einem perfekt spezifizierten Modell gibt es keine Möglichkeit, zwischen einer Reihe von Experimenten mit aus und wobei nicht sicher ist, wo sich befindet. $\theta$ $\pi(\theta)$ $\theta=\theta_{true}$ $\theta_{true}$

In Bezug auf Frage zwei sollten Sie über die Wahrscheinlichkeitskontroverse lesen. Das Wahrscheinlichkeitsprinzip ist auf den ersten Blick wahrscheinlich nicht gültig, aber es ist die Bayes'sche Version Ihrer zweiten Frage. Es ist eine sehr tiefe Frage und kann keine flache Antwort haben. Sie könnten ein Buch und sicherlich einen Artikel darüber schreiben.

Das Likelihood-Prinzip basiert auf zwei Prinzipien, und die häufig auftretende Folgerung verstößt dagegen. Es basiert auf zwei Prinzipien, dem Konditionalitätsprinzip und dem Suffizienzprinzip. Wenn das Konditionalitätsprinzip und das Suffizienzprinzip gelten, sind p-Werte immer ein falscher Weg, um die Inferenz zu bestimmen. Sowohl das Konditionalitätsprinzip als auch das Wahrscheinlichkeitsprinzip sind für die meisten Statistiker individuell attraktiv, aber gemeinsam könnte argumentiert werden, dass sie den Frequentismus auseinander nehmen. Ihre Frage könnte als häufig auftretende Parallele angesehen werden.

Als solches haben Sie eine tiefere Antwort erhalten, als Sie beabsichtigt hatten. Wenn ich Doktorand wäre, könnte ich mich hinsetzen und Zeit damit verbringen, über Ihre zweite Frage nachzudenken. Möglicherweise liegt dort ein tiefes Prinzip zugrunde.

Siehe zum Beispiel die Frage zur Stapelaustauschwahrscheinlichkeit

oder

Wahrscheinlichkeitsvorlesung

— Dave Harris
quelle

Vielen Dank für Ihre ausführliche Antwort! In Bezug auf 1. scheint das Beispiel eines Casinos, das die Wahrscheinlichkeiten unterwegs ändert, schwierig. Die Beschreibung einer Stichprobe und einer Population, in der dies mit einem Modell geschieht, bei dem die Wahrscheinlichkeit für alle Beobachtungen gleich erscheint mir als Modellfehlspezifikation. (Ich empfinde es als unnötige Komplikation, die von einer sehr konkreten Frage ablenkt. Dies ist natürlich nur mein Verständnis.) Ich würde das Beispiel lieber auf ein Beispiel vereinfachen, bei dem es keine Modellfehlspezifikation gibt, und versuchen, dort 1. zu beantworten.

p

$p$

— Richard Hardy

Zu 2. und Warum sollten Realisierungen des Parameters für Ihre Stichprobe irrelevant sein? Die schwache Antwort ist ... , ich denke nicht, dass dies eine zufriedenstellende Antwort ist. (Aber vielleicht war es nicht beabsichtigt.) In Bezug auf Polemik ist mein Interesse streng naiv und ich möchte nur verstehen, was die Bayes'sche Sicht der Welt ist, das ist alles. In Bezug auf 3. und das Beispiel eines einzigen Versuchs (nur einmal aus einem Gebäude aussteigen) könnten wir uns eine Population der Größe 1 vorstellen. Eine Stichprobe oder Population der Größe 1 muss notwendigerweise durch nur eine Realisierung des Parameters erzeugt werden - einfach genug .

— Richard Hardy

(+1) Sehr ausführliche Antwort mit einem Punkt über die objektive Bayes-Perspektive, dem ich vollkommen zustimme.

— Xi'an