Wie geht die Bayesianische Statistik mit der Abwesenheit von Priors um?


16

Diese Frage wurde durch zwei kürzlich von mir durchgeführte Interaktionen inspiriert, eine hier im Lebenslauf und die andere bei economics.se.

Dort hatte ich eine Antwort auf das bekannte "Envelope Paradox" gepostet (wohlgemerkt nicht als die "richtige Antwort", sondern als die Antwort, die sich aus bestimmten Annahmen über die Struktur der Situation ergibt). Nach einiger Zeit gab ein Benutzer einen kritischen Kommentar ab und ich führte ein Gespräch, um seinen Standpunkt zu verstehen. Es war offensichtlich, dass er den Bayesianischen Weg dachte und weiter über Prioritäten sprach - und dann dämmerte es mir, und ich sagte zu mir selbst: "Moment mal, wer hat etwas über Prioritäten gesagt? In der Art, wie ich das formuliert habe Problem, es gibt hier keine Priors, sie kommen einfach nicht ins Bild und müssen nicht ".

Kürzlich habe ich diese Antwort hier im Lebenslauf über die Bedeutung der statistischen Unabhängigkeit gesehen. Ich kommentierte den Autor, dass sein Satz

"... wenn Ereignisse statistisch unabhängig sind, können wir (per Definition) nicht aus der Beobachtung der anderen etwas lernen."

war offensichtlich falsch. In einem Kommentaraustausch kehrte er immer wieder zum Thema (seiner Worte) zurück.

"Würde" Lernen "nicht bedeuten, unsere Überzeugungen über eine Sache zu ändern, die auf der Beobachtung einer anderen Sache beruht? Wenn ja, schließt die Unabhängigkeit dies nicht (definitiv) aus?

Wieder einmal war es offensichtlich, dass er den Bayesianischen Weg dachte und dass er es für selbstverständlich hielt, dass wir mit einigen Überzeugungen beginnen (dh mit einer vorherigen) , und dann geht es darum, wie wir sie ändern / aktualisieren können. Aber wie entsteht der erste Glaube?

Da sich die Wissenschaft an die Realität anpassen muss, stelle ich fest, dass Situationen existieren, in denen die beteiligten Menschen keine Vorgesetzten haben (ich gehe zum einen die ganze Zeit ohne Vorgesetzten in Situationen und bitte argumentiere nicht, dass ich Vorgesetzte habe, sondern ich nur nicht merken, lassen Sie uns hier falsche Psychoanalyse ersparen).

Da ich zufällig den Begriff "uninformative Prioritäten" gehört habe, teile ich meine Frage in zwei Teile auf und bin mir ziemlich sicher, dass Benutzer, die in der Bayes'schen Theorie versiert sind, genau wissen, was sie fragen sollen:

F1: Ist das Fehlen eines vorherigen Äquivalents (im streng theoretischen Sinne) zu einem nicht informativen Prior?

Wenn die Antwort auf Q1 "Ja" lautet (bitte mit etwas Ausarbeitung), dann bedeutet dies, dass der Bayes'sche Ansatz universell und von Anfang an anwendbar ist , da in jedem Fall der betroffene Mensch erklärt, "Ich habe keine Vorgesetzten", die wir ergänzen können Es ist ein Prior, der für den vorliegenden Fall nicht aussagekräftig ist.

Lautet die Antwort auf Q1 "Nein", kommt Q2 daher :

Frage 2: Wenn die Antwort auf Frage 1 "Nein" lautet, bedeutet dies, dass in Fällen, in denen es keine Prioritäten gibt, der Bayes'sche Ansatz von Anfang an nicht anwendbar ist und wir zuerst einen Prior durch einen nicht-Bayes'schen Weg bilden müssen. damit wir anschließend den Bayes'schen Ansatz anwenden können?


2
Ich werde bemerken, dass als Wissenschaftler "kein vorheriger Glaube" eine ziemlich extremistische Aussage ist ... ähnlich dem Sehen nur des statischen "Schnees" eines alten analogen Fernsehgeräts, das auf einen toten Sender eingestellt ist, und nur weißes Rauschen zu hören. Offensichtlich glauben Wissenschaftler nicht, dass sich nichts auf der Welt auf irgendetwas bezieht oder Informationen darüber enthält ... wenn wir glauben würden, dass wir keine Wissenschaftler wären. Natürlich enthält die Bayes'sche Artikulation von "uninformativ" sehr allgemeine Überzeugungen über Möglichkeit und Wahrscheinlichkeit.
Alexis

2
@Alexis Hängt von der Situation ab. Im "Umschlag-Paradoxon" geht es zum Beispiel darum, nach Betrachtung des Betrags, den ein Umschlag enthält, ob ich vorher geglaubt habe, ob es sich bei dem betrachteten Gegenstand um den "großen" Betrag oder den "kleinen" Betrag handelt. Und ich sehe nichts Extremes darin, hier zu erklären: "Ich habe keinen vorherigen Glauben in dieser Angelegenheit."
Alecos Papadopoulos

1
Haben Sie vorher geglaubt, dass es bestimmte Beträge gibt und dass diese zwischen den Umschlägen verteilt sind? (Auch wenn Sie bezüglich der spezifischen Verteilung oder deren Parametrisierung nicht so sicher sind?)
Alexis

1
@Alexis Sicher, aber es ist als strukturelles Wissen formuliert, das unabhängig von nachfolgenden Informationen existiert. Es ist kein Glaube, der aktualisiert werden muss. Und da diese Formulierung die Wahrnehmung von mindestens einem Mitglied der Menschheit (mir) widerspiegelt, handelt es sich um eine reale Situation und die Frage ist, ob sie für die Bayes'sche Analyse geeignet ist oder nicht. Natürlich ist für eine andere Person, die erklärt "Ich habe die folgende vorherige Überzeugung über die Verteilung von Beträgen zwischen Umschlägen", die Anwendbarkeit des Bayes'schen Ansatzes offensichtlich.
Alecos Papadopoulos

2
Sie scheinen zu glauben, dass es entweder NO prior oder THE prior gibt. In einer Bayes'schen Modellierung, wie ich sie sehe, ist die posteriore Analyse bedingt oder relativ zur Wahl von A prior, und ich verwende diese prior nicht als absolut. Mein Prior ist ein natürlicher Weg, eine Wahrscheinlichkeitsstruktur einzuführen und den Parameterraum zu messen.
Xi'an,

Antworten:


11

F1: Ist das Fehlen eines vorherigen Äquivalents (im streng theoretischen Sinne) zu einem nicht informativen Prior?

Nein.

Erstens gibt es keine mathematische Definition für einen "nicht informativen Prior". Dieses Wort wird nur informell verwendet, um einige Vorgänger zu beschreiben.

Zum Beispiel wird Jeffreys Prior oft als "nicht informativ" bezeichnet. Dieser Prior verallgemeinert den Uniform Prior für übersetzungsinvariante Probleme. Jeffrey´s Vorgänger passt sich irgendwie an die (informationstheoretische) Riemannsche Geometrie des Modells an und ist somit unabhängig von der Parametrisierung, nur abhängig von der Geometrie der Mannigfaltigkeit (im Raum der Verteilungen), die das Modell ist. Es mag als kanonisch empfunden werden, aber es ist nur eine Wahl. Es ist nur die Uniform Prior nach Riemann'scher Struktur. Es ist nicht absurd, "uninformativ = einheitlich" als Vereinfachung der Frage zu definieren. Dies gilt in vielen Fällen und hilft, eine klare und einfache Frage zu stellen.

E(X)XX[0;1]

Der bayesianische und der frequentistische Ansatz beantworten einfach unterschiedliche Fragen. Zum Beispiel über Schätzer, was vielleicht das einfachste ist:

  • θxθ

  • θθ

Irgendwie zielt der Frequentist auf die Worst-Case-Kontrolle ab und benötigt keine vorherige. Bayesian strebt eine durchschnittliche Kontrolle an und erfordert eine vorherige Aussage "Durchschnitt in welchem ​​Sinne?".

Frage 2: Wenn die Antwort auf Frage 1 "Nein" lautet, bedeutet dies, dass in Fällen, in denen es keine Prioritäten gibt, der Bayes'sche Ansatz von Anfang an nicht anwendbar ist und wir zuerst einen Prior durch einen nicht-Bayes'schen Weg bilden müssen. damit wir anschließend den Bayes'schen Ansatz anwenden können?

Ja.

XN(μ,1)μ einheitlich, und wenn es sich um die durchschnittliche Größe von Menschen handelt, ist dies möglicherweise kein sehr realistisches System. Mit nur wenigen Beobachtungen verschwindet das Problem jedoch recht schnell. Die Wahl ist nicht sehr wichtig.

Wahre Probleme mit der vorherigen Spezifikation treten meiner Meinung nach bei komplizierteren Problemen auf. Wichtig ist hier zu verstehen, was ein bestimmter Prior sagt.


2
(+1) Danke, das ist wirklich informativ.
Alecos Papadopoulos

4

Zunächst wird häufig der Bayes'sche Ansatz verwendet, da Sie Vorkenntnisse in Ihr Modell einbeziehen möchten, um es zu bereichern. Wenn Sie keine Vorkenntnisse haben, halten Sie sich an sogenannte "uninformative" oder wöchentlich informative Prioritäten. Beachten Sie, dass einheitliche vor nicht „uninformativ“ ist per Definition, da Annahme über Gleichförmigkeit ist eine Vermutung. Es gibt keinen wirklich uninformativen Prior. Es gibt Fälle, in denen "es könnte alles sein" eine vernünftige "nicht informative" vorherige Annahme ist, aber es gibt auch Fälle, in denen die Aussage "alle Werte sind gleich wahrscheinlich" eine sehr starke und unvernünftige Annahme ist. Wenn Sie beispielsweise davon ausgehen, dass meine Körpergröße zwischen 0 cm und 3 m liegen kann und alle Werte von vornherein gleich wahrscheinlich sind, wäre dies keine vernünftige Annahme und würde den Extremwerten zu viel Gewicht verleihen. so könnte es möglicherweise Ihren posterior verzerren.

Auf der anderen Seite würde Bayesian argumentieren, dass es wirklich keine Situationen gibt, in denen Sie keine Vorkenntnisse oder Überzeugungen haben. Man kann immer etwas annehmen und als Mensch macht man es die ganze Zeit (Psychologen und Verhaltensökonomen haben Unmengen an Forschung zu diesem Thema betrieben). Bei der ganzen Bayes'schen Aufregung mit den Priors geht es darum, diese Vorurteile zu quantifizieren und explizit in Ihrem Modell anzugeben, da es bei der Bayes'schen Folgerung darum geht, Ihre Überzeugungen zu aktualisieren .

Es ist einfach, Argumente ohne vorherige Annahmen oder einheitliche Prioritäten für abstrakte Probleme zu finden, aber für Probleme im wirklichen Leben, die Sie vorher kennen. Wenn Sie einen Einsatz über den Geldbetrag in einem Umschlag machen müssen, müssen Sie wissen, dass der Betrag nicht negativ und endlich sein muss. Sie könnten auch eine Vermutung über die Obergrenze für den möglichen Geldbetrag anstellen, wenn Sie die Regeln des Wettbewerbs, die für Ihren Gegner verfügbaren Mittel, die physische Größe des Umschlags und den physisch passenden Geldbetrag kennen Sie können auch raten, wie viel Geld Ihr Gegner in den Umschlag stecken und möglicherweise verlieren möchte. Es gibt viele Dinge, die Sie als Basis für Ihren Prior kennen würden.


2
@ AlecosPapadopoulos Entschuldigung, dass Sie nicht gesagt haben, was Sie hören wollten, aber ich glaube, dass dies ein Teil der Antwort auf Ihre Frage ist. In Bezug auf Q1 ist die Annahme einer einheitlichen Priorität offensichtlich nicht dasselbe wie die Annahme einer früheren Priorität, da Sie eine Annahme getroffen haben. Wenn Sie keine Priors verwenden möchten, verwenden Sie die maximale Wahrscheinlichkeit oder den empirischen Bayes-Ansatz.
Tim

2
Was ich "hören wollte"? Wenn eine Person hier eine Frage stellt, wird nach meinem Verständnis davon ausgegangen, dass sich die Antwort auf die Frage bezieht. Es gibt nichts Bestimmtes, was ich "hören wollte" (auch keine Vorgesetzten hier), ich habe nur nach Antworten auf bestimmte Fragen gesucht, und in meinem Kommentar ging es darum, nicht zu sehen, wie Ihre Antwort meine Fragen ansprach. Aber in Ihrem Kommentar finde ich etwas wirklich Relevantes: "Empirischer Bayes-Ansatz"? Kannst du Literatur erwähnen / darauf hinweisen?
Alecos Papadopoulos

3
@AlecosPapadopoulos empirische Bayes wählt Ihre Prioritäten basierend auf Daten (dh Schummeln). Sie können mit Wikipedia oder Artikeln von Efron beginnen (leicht googlable auf Google Scholar).
Tim

2
Angenommen, Sie haben am Montag mit einem Problem begonnen und hatten einen früheren Standard. Sie fügen es also in Ihre Daten ein, führen die Analyse durch und lernen etwas. Am Dienstag kannst du das vorher nicht mehr benutzen, weil du schon etwas gelernt hast. Man muss also wirklich einen anderen Prior einstecken. Im strengen Bayesianischen sind die Priors also zum Einmalgebrauch. Sie können sie buchstäblich nur EINMAL über die Software ausführen. Sobald Sie die Ergebnisse erhalten, ist die Gültigkeitsdauer abgelaufen, es sei denn, Sie haben NICHTS gelernt. In praktischer Hinsicht ist der Bayes'sche Ansatz in seiner reinen Form unbrauchbar, alle Bayes'schen betrügen sich ständig selbst
Aksakal

3
@Aksakal Aber warum ist es ungültig, am Dienstag als meinen neuen Prior den Posterior zu verwenden, den ich am Montag erhalten habe? So wie ich es sage, ist es eine absolut gültige sequentielle Prozedur. Deshalb verstehe ich nicht, warum Sie schreiben "Bayesianer betrügen sich ständig selbst".
Alecos Papadopoulos

3

Frage 1 Ich denke, die Antwort ist wahrscheinlich nein. Mein Grund ist, dass wir nicht wirklich eine Definition für "nicht informativ" haben, außer irgendwie zu messen, wie weit die endgültige Antwort von einem willkürlich informativen Modell / Wahrscheinlichkeit entfernt ist. Viele nicht informative Prioritäten werden anhand von "intuitiven" Beispielen validiert, bei denen wir bereits "das Modell / die Wahrscheinlichkeit" und "die Antwort" im Auge haben. Dann bitten wir den Uninformativen, uns die gewünschte Antwort zu geben.

Mein Problem dabei ist, dass ich nicht glauben kann, dass jemand ein wirklich gutes, gut informiertes Modell oder eine Modellstruktur für seine Population haben und gleichzeitig "keine Informationen" über wahrscheinliche und unwahrscheinliche Parameterwerte für dieses Modell haben kann. Ein Beispiel für die Verwendung der logistischen Regression finden Sie unter "EINE SCHWACH INFORMATIVE STÖRUNG VOR DER VERTRIEBUNG. FÜR LOGISTISCHE UND ANDERE REGRESSIONSMODELLE".

Ich denke, der diskrete Uniform-Prior ist der einzige, den wir vernünftigerweise als "First-First" -Prior bezeichnen können. Aber Sie stoßen auf Probleme bei der Verwendung, weil Sie denken, dass Sie "keine Informationen" haben, aber plötzlich auf "unintuitive" Antworten reagieren (Hinweis: Wenn Sie keine bayesianische Antwort mögen, haben Sie möglicherweise Informationen aus dem vorherigen oder vorherigen Abschnitt ausgelassen Wahrscheinlichkeit!). Ein weiteres Problem, auf das Sie stoßen, ist die richtige Diskretisierung für Ihr Problem. Und selbst wenn Sie dies bedenken, müssen Sie die Anzahl der diskreten Werte kennen, um die diskrete Uniform vorzuziehen.

Eine andere Eigenschaft, die Sie für Ihren Prior berücksichtigen sollten, ist das "Schwanzverhalten" im Verhältnis zu der Wahrscheinlichkeit, die Sie verwenden.

weiter zu Frage 2

Konzeptionell sehe ich nichts Falsches darin, eine Distribution ohne die Verwendung einer vorherigen oder wahrscheinlichen Angabe anzugeben. Sie können ein Problem starten, indem Sie sagen "Mein PDF ist ... und ich möchte ... für dieses PDF berechnen". Dann erstellen Sie eine Einschränkung für die vorherige, vorherige Vorhersage und Wahrscheinlichkeit. Die Bayes'sche Methode eignet sich für den Fall, dass Sie eine Priorität und eine Wahrscheinlichkeit haben und diese zu einer posterioren Verteilung kombinieren möchten.

Es ist wahrscheinlich eine Frage der Klarheit, wie hoch Ihre Wahrscheinlichkeiten sind. Dann verschiebt sich das Argument zu "Stellt dieses pdf / pmf dar, was ich sage, dass es darstellt?" - Was ist der Raum, in dem Sie sein wollen, denke ich. In Ihrem Beispiel sagen Sie, dass die einzelne Distribution alle verfügbaren Informationen widerspiegelt - es gibt kein "Prior", da es bereits (implizit) in der von Ihnen verwendeten Distribution enthalten ist.

U(0,1)Bin(n,p)Beta(0,0)21

auf den so genannten krass falschen Kommentar

Um ehrlich zu sein, wäre ich sehr interessiert zu sehen, wie eine beliebige Anzahl von Beobachtungen verwendet werden könnte, um eine "statistisch unabhängige" Beobachtung vorherzusagen. Wenn ich Ihnen als Beispiel sage, werde ich 100 normale Standardvariablen generieren. Ich gebe dir 99 und veranlasse dich, mir deine beste Vorhersage für den 100. zu geben. Ich sage, Sie können keine bessere Vorhersage für die 100. als 0 machen. Aber dies ist das gleiche, was Sie für die 100. vorhersagen würden, wenn ich Ihnen keine Daten geben würde. Sie lernen also nichts aus den 99 Datenpunkten.

Wenn ich Ihnen jedoch sage, dass es sich um eine "Normalverteilung" handelt, können Sie die 99 Datenpunkte verwenden, um die Parameter zu schätzen. Dann sind die Daten jetzt nicht mehr "statistisch unabhängig", weil wir mehr über die gemeinsame Struktur erfahren, wenn wir mehr Daten beobachten. Ihre beste Vorhersage verwendet jetzt alle 99 Datenpunkte


1
(+1) Vielen Dank für Ihre nachdenkliche Antwort. Eine Klarstellung bezüglich der "offensichtlich falschen" Behauptung: Sie wurde gemacht, weil "Lernen" (und ich spreche über die allgemeine Bedeutung des Wortes) ein viel umfassenderes Konzept ist als "Vorhersagen". Wenn zwei Ereignisse strukturell ähnlich sind, können wir durch Studium der anderen Dinge lernen, die mit dem einen zusammenhängen, obwohl sie möglicherweise statistisch unabhängig sind. Sie sprechen auch über die "gemeinsame Struktur" in Ihrer Antwort, das ist alles, was es gibt.
Alecos Papadopoulos

@Alecos Papadopoulos - der Punkt ist, dass Sie nicht lernen können, ohne die Dinge statistisch abhängig zu machen. Nehmen wir mein Beispiel, was ist in Szenario 1 lernbar? Außerdem muss die gemeinsame Struktur unbekannt und nicht nur vorhanden sein.
Wahrscheinlichkeitslogik

1
Wenn Sie den letzten Satz Ihres Beitrags kommentieren, macht die Tatsache, dass wir etwas über die gemeinsame Struktur lernen können, wie Sie hervorheben, die beteiligten Zufallsvariablen nicht "statistisch abhängig". Sie bleiben "unabhängig in der Wahrscheinlichkeit", was eine andere Art ist, "statistisch unabhängig" zu sagen, ein Konzept, das mathematisch eine sehr genaue Bedeutung hat. Dass sie gemeinsame Merkmale aufweisen (hier ist ihre Reichweite durch die gleiche Wahrscheinlichkeitsverteilung gekennzeichnet), macht sie statistisch nicht abhängig.
Alecos Papadopoulos

Ihre Formulierung "unabhängig in der Wahrscheinlichkeit" ist mir nicht klar, und ich vermute deshalb, dass ich mit dem, was Sie sagen, nicht einverstanden bin. Wenn dies durch "bedingt unabhängig" oder "austauschbar" ersetzt wird, ist das, was Sie sagen, sinnvoll. Ich warte auch immer noch auf etwas, das aus 99 iid normalen RVs gelernt werden kann, das mit dem 100. hilft (muss sich nicht um Vorhersage handeln).
Wahrscheinlichkeitslogik

1
@probabilisticlogic "Unabhängig in der Wahrscheinlichkeit" ist ein Ausdruck, der normalerweise in älteren Werken zu finden ist und bedeutet, was statistische Unabhängigkeit bedeutet, ausgedrückt durch Verteilungsfunktionen. Die 99 Wohnmobile ermöglichen es mir, alle Arten von Eigenschaften, Merkmalen usw. des 100. Moments, der Quantile, wie Sie es nennen, zu lernen.
Alecos Papadopoulos

3

Dies ist nur eine kurze Bemerkung als Ergänzung zu den anderen ausgezeichneten Antworten. Oft oder zumindest manchmal ist es etwas willkürlich (oder konventionell), welcher Teil der Informationen, die in eine statistische Analyse eingegeben werden, als Daten bezeichnet wird und welcher Teil als vorrangig bezeichnet wird . Allgemeiner gesagt können wir sagen, dass Informationen in einer statistischen Analyse aus drei Quellen stammen: der Modell , den Daten und dem Prior . In einigen Fällen, wie z. B. bei linearen Modellen oder glm's, ist die Trennung zumindest herkömmlich ziemlich klar.

Ich werde ein Beispiel aus der Maximum-Likelihood-Schätzung (MLE) in Laienbegriffen wiederverwenden , um meinen Standpunkt zu veranschaulichen. Nehmen wir an, ein Patient betritt eine Arztpraxis mit einigen medizinischen Problemen, die sich als schwierig zu diagnostizieren herausstellen. Dieser Arzt hat noch nie etwas Ähnliches gesehen. Im Gespräch mit dem Patienten tauchen dann einige neue Informationen auf: Dieser Patient besuchte vor kurzem das tropische Afrika. Dann scheint es dem Arzt, dass dies Malaria oder eine andere Tropenkrankheit sein könnte. Beachten Sie jedoch, dass es sich bei diesen Informationen eindeutig um Daten von uns handelt, aber zumindest in vielen statistischen Modellen, die verwendet werden könnten, wird es in Form einer vorherigen Verteilung in die Analyse eingehen, wobei eine vorherige Verteilung die Wahrscheinlichkeit für einige tropische Krankheiten erhöht. Aber wir könnten vielleicht ein (größeres), vollständigeres Modell erstellen, in das diese Informationen als Daten eingegeben werden. Also zumindest teilweise die Unterscheidung Daten / Stand ist konventionell.

Wir sind an diese Konvention gewöhnt und akzeptieren sie, weil wir uns auf einige Klassen konventioneller Modelle konzentrieren. Aber im größeren Schema der Dinge außerhalb der Welt der stilisierten statistischen Modelle ist die Situation weniger klar.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.