Frequentismus und Priors


17

Robby McKilliam sagt in einem Kommentar zu diesem Beitrag:

Es sollte darauf hingewiesen werden, dass es aus Sicht der Frequentisten keinen Grund gibt, das Vorwissen nicht in das Modell zu integrieren. In diesem Sinne ist die frequentistische Ansicht einfacher, Sie haben nur ein Modell und einige Daten. Es ist nicht erforderlich, die vorherigen Informationen vom Modell zu trennen

Auch hier sagt @jbowman, dass Frequentisten die Regularisierung durch eine Kosten- / Straffunktion verwenden, während Bayesianer dies zu einem Prior machen können:

Die Frequentisten erkannten, dass Regularisierung gut ist und verwenden sie heutzutage ziemlich häufig - und Bayes'sche Priors können leicht als Regularisierung interpretiert werden.

Also, meine Frage ist, können Frequentisten im Allgemeinen das, was Bayesianer als Vorgänger bezeichnen, in ihre Modelle einbeziehen? Ist am Beispiel der Regularisierung die Kosten- / Straffunktion wirklich in das Modell integriert, oder ist dies ein rein künstliches Mittel, um die Lösung anzupassen (und sie einzigartig zu machen)?


Könnte ein Moderator den Bogenschützen und Robby benachrichtigen, damit sie näher darauf eingehen können? Oder ist das nicht angebracht?
Patrick

1
Patrick, Sie können jedes Mitglied dieser Site mit dem Konstrukt "@" benachrichtigen. Ich habe das mit einem winzigen Schnitt illustriert.
whuber

Es funktioniert an beiden Orten :-).
whuber

Gee, @whuber, ich wurde nicht benachrichtigt ... vielleicht machen Änderungen das nicht? Jetzt bin ich neugierig.
Bogenschütze

1
OK, es stellte sich heraus, dass ich falsch lag : Der "@" -Mechanismus funktioniert in Kommentaren, nicht in den Fragen. (Aber jbowman fand diese Frage trotzdem.)
whuber

Antworten:


8

Zu Robby McKilliams Kommentar: Ich denke, die Schwierigkeit, die ein Frequentist dabei haben würde, liegt in der Definition von "Vorwissen", weniger in der Fähigkeit, Vorwissen in ein Modell zu integrieren. Überlegen Sie sich beispielsweise, wie hoch die Wahrscheinlichkeit ist, dass eine bestimmte Münze auftaucht. Nehmen wir an, dass mein Vorwissen im Wesentlichen ein Experiment war, bei dem diese Münze zehnmal geworfen wurde und fünf Köpfe aufwies, oder vielleicht von der Form "die Fabrik stellte 1 Million Münzen her, und der Abstand von , as" durch große Experimente bestimmt, istβ ( a , b )pβ(ein,b)". Jeder verwendet die Bayes'sche Regel, wenn Sie tatsächlich über vorherige Informationen dieses Typs verfügen (die Bayes'sche Regel definiert nur die bedingte Wahrscheinlichkeit, sie ist nicht nur eine Bayes'sche Sache) Integrieren Sie die Informationen über die Bayes-Regel in das Modell. (Vorsichtsmaßnahme: Wenn Ihre Stichprobengröße nicht groß genug ist, können Sie sich ziemlich sicher sein, dass die vorherigen Informationen keinen Einfluss auf die Ergebnisse haben.) Die Interpretation der Ergebnisse ist jedoch von natürlich anders.

Schwierigkeiten ergeben sich insbesondere aus philosophischer Sicht, da das Wissen weniger objektiv / experimentell und subjektiver wird. In diesem Fall wird der Frequentist wahrscheinlich weniger geneigt sein, diese Informationen überhaupt in das Modell einzubeziehen, während der Bayesianer immer noch über mehr oder weniger formale Mechanismen verfügt, die es ungeachtet der Schwierigkeiten erlauben, einen subjektiven Prior zu ermitteln.

In Bezug auf die Regularisierung: Betrachte eine Wahrscheinlichkeit und ein vorheriges . Es gibt nichts, was einen Frequentisten zumindest technisch nicht daran hindern könnte, die durch "regularisierte" Maximum-Likelihood-Schätzung zu verwenden , wie in:p ( θ ) log p ( θ )l(θ;x)p(θ)Logp(θ)

θ~=maxθ{Logl(θ;x)+Logp(θ)}

Für Gaussian, Dies entspricht einer quadratischen Strafe schrumpf gegen den Mittelwert der Gaußschen und so weiter für andere Verteilungen. ist gleich der maximalen a posteriori (MAP) -Punktschätzung eines Bayesian mit derselben Wahrscheinlichkeitsfunktion und derselben Priorität. Natürlich wird sich auch hier die Interpretation der frequentistischen und der bayesianischen Schätzung unterscheiden. Der Bayesian ist auch nicht darauf beschränkt, eine MAP-Punktschätzung zu verwenden, da er Zugang zu einer vollständigen posterioren Verteilung hat. Dann muss der Frequentist jedoch auch nicht die Wahrscheinlichkeit eines regulierten Logs maximieren, um verschiedene robuste Schätzungen oder Methoden von verwenden zu können -Momente usw., falls vorhanden.θ ˜ θp(θ)θθ~

Auch hier ergeben sich aus philosophischer Sicht Schwierigkeiten. Warum sollte man eine Regularisierungsfunktion einer anderen vorziehen? Ein Bayesianer kann dies tun - indem er die vorherigen Informationen bewertet. Ein Frequentist würde es aus diesen Gründen schwerer haben (nicht in der Lage sein?), Eine Wahl zu rechtfertigen, würde dies jedoch wahrscheinlich weitgehend auf der Grundlage der Eigenschaften der Regularisierungsfunktion tun, die auf seine Art von Problem angewendet werden, wie dies aus dem Gelenk hervorgeht Arbeit / Erfahrung vieler Statistiker. OTOH, (pragmatische) Bayesianer machen das auch mit Priors - wenn ich 100 Dollar für jede Zeitung über Priors für Varianzen hätte, die ich gelesen habe ...

Andere "Gedanken": Ich habe das gesamte Problem der Auswahl einer Wahrscheinlichkeitsfunktion übersprungen, indem ich davon ausgegangen bin, dass sie vom Standpunkt des Frequentisten / Bayes nicht beeinflusst wird. Ich bin mir in den meisten Fällen sicher, aber ich kann mir vorstellen, dass dies in ungewöhnlichen Situationen z. B. aus rechnerischen Gründen der Fall ist.

Zusammenfassung: Ich vermute, dass Frequentisten, abgesehen von einigen Eckfällen, so gut wie alle vorherigen Informationen, die ein Bayesianer kann, aus rein mathematischer und rechnerischer Sicht in ihre Modelle integrieren können. Die Interpretation der Ergebnisse ist natürlich unterschiedlich. Ich glaube jedoch nicht, dass der Frequentist es als philosophisch korrekt ansehen würde, dies in allen Fällen zu tun, z. B. die Regularisierungsfunktion darüber, wo die Person im Flur, die tatsächlich etwas über weiß, sagt: "Ich denke, sollte es sein um 1,5 ". Und das Einbeziehen von Unwissenheit, beispielsweise durch einen Jeffrey´s Prior, ist richtig.θθθ


Also, wenn ich Sie richtig verstehe, kann ein Frequentist technisch und formal so viel regulieren, wie er möchte, aber er wird Probleme haben, dies zu rechtfertigen. Ein Bayesianer könnte immer noch Probleme haben, seine Regularisierung zu quantifizieren, aber qualitativ hat er eine konsequente Art, sie zu integrieren.
Patrick

Der Bayesian ist auch nicht darauf beschränkt, eine MAP-Punktschätzung zu verwenden, da er Zugang zu einer vollständigen posterioren Verteilung hat. Dann muss der Frequentist jedoch auch nicht die Wahrscheinlichkeit eines regulierten Logs maximieren, um verschiedene robuste Schätzungen oder Methoden von verwenden zu können -Momente usw., falls vorhanden. Der Frequentist muss nicht maximieren. Aber es ist immer noch eine Methode, die Frequentisten zur Verfügung steht, wenn sie sich dafür entscheiden, oder? Meine Vermutung ist, dass Frequentisten aus historischen Gründen (keine Computer!) Eine Menge intelligenter Schätzer in der Tasche haben, die sie verwenden, anstatt eine volle Wahrscheinlichkeitsfunktion zu berechnen.
Patrick

5

Zur Beantwortung dieser Frage ist es nützlich, Frequentismus als "Interesse an den Eigenschaften der Stichprobenverteilung von Funktionen der Daten" zu definieren. Solche Funktionen können Punktschätzer, p-Werte von Teststatistiken, Konfidenzintervalle, Neyman-Pearson-Testergebnisse oder alles andere sein, was Sie sich vorstellen können. Der Frequenzbereich gibt nicht allgemein an, wie Schätzer, p-Werte usw. erstellt werden sollen, obwohl einige Richtlinien existieren, z Perspektivisch gesehen werden frühere Informationen nicht in das Modell per se einbezogen , sondern in die Funktionszuordnungsdaten für die Ausgabe der Funktion.

Das "Interesse", auf das oben Bezug genommen wurde, bezieht sich auf Eigenschaften, die für den Rückschluss als wichtig angesehen werden, wie z. B. fehlende Verzerrung, asymptotische Konsistenz, Varianz, mittlerer quadratischer Fehler, mittlerer absoluter Fehler, Konfidenzabdeckung (insbesondere nominal gegenüber tatsächlich), Typ I-Fehlerkontrolle und alles andere sonst mit offensichtlicher oder intuitiver Bedeutung für das Lernen aus Daten. Diese Eigenschaften können (nicht zuletzt durch Simulation) beurteilt werden, ob die Funktion Vorinformationen enthält oder nicht.

Im Mittelpunkt des Interesses stehen Eigenschaften, von denen bekannt ist, dass sie die tatsächlichen Parameterwerte enthalten, die dem Datenerzeugungsprozess zugrunde liegen. Zum Beispiel ist im normalen iid-Modell mit bekannter Varianz der Datenmittelwert unvoreingenommen und asymptotisch konsistent für den Verteilungsmittelwert, egal was das ist. Im Gegensatz dazu weist ein Schrumpfungsschätzer (ein gewichteter Durchschnitt des Datenmittels und eine vorherige Schätzung des Verteilungsmittels) einen niedrigeren mittleren quadratischen Fehler auf, wenn der Verteilungsmittelwert nahe an der vorherigen Schätzung liegt, andernfalls jedoch einen höheren mittleren quadratischen Fehler. erbt "asymptotische Konsistenz aus dem Datenmittel".

Ich würde also sagen, dass man der Inferenzmethode vorherige Informationen hinzufügen kann, aber diese gehen nicht in das Modell ein. Eine wirklich gute Illustration der Begriffe, die ich im Zusammenhang mit Konfidenzintervallen für physikalische Eigenschaften skizziert habe, die notwendigerweise nicht negativ sind, ist Feldman and Cousins, ein einheitlicher Ansatz für die klassische statistische Analyse von Kleinsignalen .

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.