Wird jeder Datenpunkt (sowohl in der Stichprobe als auch in der Grundgesamtheit) durch dieselbe Realisierung des Parameters erzeugt?
- In der Stichprobe lautet die Antwort "Ja", wenn Sie Dinge wie Heteroskedastizität als eine Form wieσ2Δt=Δtσ20
- In der Bevölkerung könnte die Antwort ja sein, wenn Sie die Verteilung als Dirac-Funktion betrachten, aber nicht automatisch in der Bevölkerung. Betrachten Sie den Fall, in dem ein Casino die Gewinnwahrscheinlichkeit von Zeit zu Zeit ändert. Bei festen 100 experimentellen Ziehungen im Casino ist die Wahrscheinlichkeit, dass das Casino gewinnt, der gewichtete Durchschnitt des sich ändernden Werts. Der Zeitpunkt des Strukturbruchs (der Strukturbrüche) ist unbekannt. Wenn die Wahrscheinlichkeit, dass das Casino gewinnt, nahe genug bei 0,5 liegt, ist die Modellierung eines Strukturbruchs bedeutungslos, da das natürliche Rauschen die Realität überschwemmt, es sei denn, die Änderung ist stark, z. B. von einer 50% igen Gewinnchance auf eine 99% ige Gewinnchance mit der Pause bei 50 Unentschieden. Im Nachhinein ist die gemeinsame Gewinnwahrscheinlichkeit ein fester Wert über einen festen Satz von Ziehungen und fest, wenn die Grundgesamtheit feststeht.
Wenn ja, warum interessiert mich die Verteilung (dh andere mögliche Realisierungen und ihre jeweiligen Dichten) des Parameters? Schließlich versuche ich, aus der Stichprobe und dem Prior etwas über diese bestimmte Population herauszufinden.
Ihre Frage spiegelt die Bayes'sche Beschwerde wider, dass häufig auftretende Methoden gegen das Wahrscheinlichkeitsprinzip verstoßen. Warum sollten Proben bei der Durchführung eines T-Tests nicht berücksichtigt werden? Weil häufig auftretende Methoden über den Probenraum mitteln. Warum sollten Realisierungen des Parameters für Ihre Stichprobe irrelevant sein? Die schwache Antwort liegt darin, dass Bayes'sche Methoden über den Parameterraum gemittelt werden.
Diese Frage wäre ein sehr legitimer Angriff, insbesondere auf subjektive Bayes'sche Methoden, wenn man polemisch sein wollte. Obwohl sich gezeigt hat, dass das Wahrscheinlichkeitsprinzip unter bestimmten Denkweisen fehlerhaft ist, scheint die philosophische Konstruktion frequentistischer Methoden die Bayes'sche Arbeit nicht widerzuspiegeln. Das sollte ein Papier sein, obwohl es wahrscheinlich die Fehler des Wahrscheinlichkeitsprinzips in der Bayes'schen Statistik teilen würde.
Die stärkere Antwort ist, dass uns als eine unendliche Stichprobengröße fehlt. Da Bayes'sche Methoden Zufälligkeit als Unsicherheit und nicht als Zufall behandeln, wie dies bei häufig vorkommenden Methoden der Fall ist, ist dies eine Quantifizierung der Unsicherheit, die in Ihrem Verständnis der Natur verbleibt. Wenn Sie auf den Parameter reagieren müssen und ihn auf nur zwei mögliche Werte und , sagen Sie mit es kann gefährlich sein und es ist sicherlich inkohärent (im de Finetti-Sinne), als den einzig möglichen Wert zu ignorieren .limn→∞θ^→θθ^Aθ^BPr(θ=θ^A)=.75θ^B
Um ein konkretes Beispiel zu geben, habe ich 78 Insolvenzmodelle getestet und festgestellt, dass die kumulative hintere Wahrscheinlichkeit für 76 von ihnen von einem Prozent betrug, während die anderen beiden ungefähr 54% und 46% betrugen. Glücklicherweise hat kein Modell Variablen gemeinsam genutzt. Ein Grund zur Sorge ist, dass ich mit ziemlicher Sicherheit das wahre Modell falsch habe. Die Modellmittelung der Vorhersagedichte ermöglichte es mir, einen bemerkenswert kleinen Fehler außerhalb der Stichprobe zu erzeugen. Ich interessiere mich für die Modelle mit hoher Wahrscheinlichkeit, und wenn ich die Ressourcen hätte, um die Ergebnisse unter einer vollständigen Modellmittelung zu berechnen, die die 76 Modelle mit niedriger Wahrscheinlichkeit enthält, hätten sich die Ergebnisse nicht innerhalb der Anzahl von Stellen geändert, die ich für signifikant halte.1/10,000th
Wenn nicht, wie spiegelt sich dies, wenn überhaupt, in den Formeln der Bayes'schen Parameterschätzung wider?
Dies ist der Bayes-Satz. Wenn man sehr intellektuell ehrlich ist, dann erfordert die wahre, extreme subjektivistische Sichtweise, a la Savage , nichts weiter als eine angemessene hintere Dichte. Wenn ich mit dir spielen will, wie de de FinettiWenn ich darüber nachdenke, ob die Schwerkraft durch das Verlassen eines zehnstöckigen Gebäudes gültig ist oder nicht, sollte ich alternative Ansichten der Realität in Betracht ziehen, bevor ich mein Glücksspiel mache. Wenn ich nun die Entscheidungstheorie einbeziehen wollte, da das Verlassen eines zehnstöckigen Gebäudes eine natürliche Version der Alles-oder-Nichts-Kostenfunktion ist, dann sollte ich das Gebäude verlassen, wenn meine Überzeugungen gegen die Schwerkraft ausreichend stark sind . Dabei würde ich mir nur Sorgen um dieses eine Experiment machen, da die Wiederholbarkeit zu einem Problem wird, wenn ich falsch liege. In diesem Fall hat Ihre Frage keine Bedeutung, es sei denn, ich bin richtig. Wenn ich andererseits Geld spiele, wäre ein quadratischer Verlust in den meisten realen Fällen die geeignete Verlustfunktion, wenn man die Art der Nachfragekurve für Glücksspiele und das Verhältnis zu den Einnahmen aus Glücksspielen berücksichtigt.
Das Potenzial für einen sich ändernden Parameter spiegelt sich in der Bayes'schen Aktualisierung wider. Ihre Frage ist nur in Wiederholung von Bedeutung. Das ist der Inbegriff der Bayes'schen Aktualisierung in einem rein subjektivistischen Rahmen. Wie modelliere ich subjektive Parameterzeichnungen, indem ich viele Experimente durchführe und sie verbinde, um den posterioren Bereich auf die Lösung der Natur zu beschränken? Dies ist ein Denksystem, das auf dem generativen Modell basiert.
EDIT
Ich denke, ich sollte ein bisschen sichern. Es gibt mehr als eine Interpretation und mehr als eine Axiomatisierung von Bayes'schen Methoden. Sie liegen Ihren Fragen etwas zugrunde.
Bei der subjektiven Interpretation werden Parameter zufällig aus einer Verteilung gezogen. Diese Verteilung ist die vorherige Dichte. Wenn Sie an den Zähler des Bayes-Theorems denken , folgt logischerweise, dass der Zähler stark vom Prior abhängt. Da zufällig ist, kann ein Experiment als Instanziierung von . Wenn Sie ein anderes Experiment durchführen, ist dies eine weitere Instanziierung von . Ziel ist es, die wahre Verteilung der Parameter zu finden. Diese Verteilung könnte an einem einzigen Punkt eine unendliche Masse und überall sonst eine Masse von Null haben.f(x|θ)π(θ)θθθ
Bei der objektiven Interpretation sind die Parameter wie bei der Frequentist-Methodik festgelegt, sie sind jedoch unbekannt. Der Prior stellt eine Quantifizierung der unbekannten Wahrscheinlichkeit dar, dass . Die Wahrscheinlichkeit ist die Verteilung der Stichprobe. Es gibt einen Parameter der der Natur bekannt ist und den die Natur verwendet, um ein Beispiel zu erstellen . Der Prior der Natur hat eine unendliche Masse an einem einzelnen Punkt und ist an anderer Stelle Null. Ihr Prior enthält die Informationen darüber, was Sie bis zu diesem Zeitpunkt entdeckt haben. Die Wahrscheinlichkeit berücksichtigt nur die gesehene Probe und ignoriert den Rest des Probenraums.θ=kθX
Es gibt keinen mathematischen Formunterschied zwischen den beiden Interpretationen. Es gibt auch eine "Convenience-Interpretation". Es würde so etwas gehen. Bayesianische Methoden sind wirklich nützlich, Priors herauszufinden jedoch nicht. Wenn ein Prior erstellt werden kann, der die Entdeckung des Parameters nicht beeinträchtigt, sollte der bequemste und einfachste Prior verwendet werden, da der Prior bei der Regularisierung der Stichprobe unglaublich wertvoll sein kann. In dieser Ansicht sind Parameter immer noch Zufallsvariablen, aber niemand denkt viel darüber nach, was es bedeutet. Es ist nur nützlich.
Es gibt drei Hauptgruppen von Axiomen hinter dem Bayes'schen Denken. In einigen Fällen spielt die Wahl tatsächlich eine Rolle. Dies ist nicht auf Berechnungsunterschiede zurückzuführen, sondern auf theoretische Unterschiede. Zum Beispiel ermöglichen Savages Axiome den Forschern, Nutzen und Wahrscheinlichkeit zu trennen. Die Axiome von de Finetti erlauben es Forschern nicht, Nutzen von Wahrscheinlichkeit zu trennen. Dies liegt daran, dass in de Finettis Konstruktion keine Wahrscheinlichkeit besteht.
de Finetti hat zwei Axiome. Das erste ist, dass ein Buchmacher keine Wetten akzeptiert, die in allen Naturzuständen zu einem sicheren Verlust führen. Das zweite ist, dass der Buchmacher alle endlichen Wetten zu den vom Buchmacher angegebenen Preisen akzeptiert. Dies ist eine ungewöhnliche Methode, um einen Wahrscheinlichkeitstest der Geschwindigkeit eines Objekts bei Standardtemperatur und -druck zu motivieren, funktioniert jedoch. Es gibt die Wahrscheinlichkeit in Bezug auf Glücksspiele wieder. Beachten Sie, dass in beiden Axiomen weder Wahrscheinlichkeit noch Nutzen erwähnt werden. Die Wahrscheinlichkeit in de Finettis Welt ist nur eine Berechnung, mit der wir über die Welt nachdenken und die es nicht wirklich gibt. Dienstprogramm auch nicht. Wenn Sie also Nutzen und Wahrscheinlichkeit zusammen verwenden, sind sie nicht zu unterscheiden, da es sich bei beiden um abstrakte Berechnungen handelt, die zum Verständnis der Welt dienen. Sie sind lediglich Konstrukte des Geistes.
Stellen Sie sich als Beispiel vor, wie ein Frequentist und ein Bayesianer das Spiel von Cho Han verstehen würden. Um die Bayes'sche Perspektive zu verstehen, schauen Sie sich den japanischen Film Zatoichi von 1962 an. Cho Han ist ein Spiel, das davon abhängt, ob die Würfel gerade oder ungerade sind. Es wird häufig als Gerät in Yakuza-Filmen verwendet. Dies liegt daran, dass es, wie jeder Physiker, Magier oder Betrüger Ihnen sagen wird, keinen zufälligen Würfelwurf oder Münzwurf gibt. Das Ergebnis ist für das Publikum ungewiss, für Kenner jedoch absolut sicher. Es ist unmöglich, dass eine Stichprobe zufällig ist, da sie nach Abschluss festgelegt ist. Du weißt es. Die Frage ist, wie Parameter Zufallsvariablen sein können.
Was fehlt, ist die Richtlinie, die die Parameter erstellt. In einem perfekt spezifizierten Modell gibt es keine Möglichkeit, zwischen einer Reihe von Experimenten mit aus und wobei nicht sicher ist, wo sich befindet.θπ(θ)θ=θtrueθtrue
In Bezug auf Frage zwei sollten Sie über die Wahrscheinlichkeitskontroverse lesen. Das Wahrscheinlichkeitsprinzip ist auf den ersten Blick wahrscheinlich nicht gültig, aber es ist die Bayes'sche Version Ihrer zweiten Frage. Es ist eine sehr tiefe Frage und kann keine flache Antwort haben. Sie könnten ein Buch und sicherlich einen Artikel darüber schreiben.
Das Likelihood-Prinzip basiert auf zwei Prinzipien, und die häufig auftretende Folgerung verstößt dagegen. Es basiert auf zwei Prinzipien, dem Konditionalitätsprinzip und dem Suffizienzprinzip. Wenn das Konditionalitätsprinzip und das Suffizienzprinzip gelten, sind p-Werte immer ein falscher Weg, um die Inferenz zu bestimmen. Sowohl das Konditionalitätsprinzip als auch das Wahrscheinlichkeitsprinzip sind für die meisten Statistiker individuell attraktiv, aber gemeinsam könnte argumentiert werden, dass sie den Frequentismus auseinander nehmen. Ihre Frage könnte als häufig auftretende Parallele angesehen werden.
Als solches haben Sie eine tiefere Antwort erhalten, als Sie beabsichtigt hatten. Wenn ich Doktorand wäre, könnte ich mich hinsetzen und Zeit damit verbringen, über Ihre zweite Frage nachzudenken. Möglicherweise liegt dort ein tiefes Prinzip zugrunde.
Siehe zum Beispiel die Frage zur Stapelaustauschwahrscheinlichkeit
oder
Wahrscheinlichkeitsvorlesung