Was ist die entscheidungstheoretische Rechtfertigung für Bayes'sche glaubwürdige Intervallverfahren?


20

(Um zu sehen, warum ich das geschrieben habe, lesen Sie die Kommentare unter meiner Antwort auf diese Frage .)

Typ-III-Fehler und statistische Entscheidungstheorie

Die richtige Antwort auf die falsche Frage zu geben, wird manchmal als Typ-III-Fehler bezeichnet. Die statistische Entscheidungstheorie ist eine Formalisierung der Entscheidungsfindung unter Unsicherheit. Es bietet einen konzeptionellen Rahmen, mit dem Fehler vom Typ III vermieden werden können. Das Schlüsselelement des Frameworks heißt Verlustfunktion . Es werden zwei Argumente benötigt: Das erste ist (die relevante Teilmenge von) der wahre Zustand der Welt (z. B. bei Parameterschätzungsproblemen der wahre Parameterwert ); Die zweite ist ein Element in der Menge der möglichen Aktionen (z. B. bei Parameterschätzungsproblemen die Schätzungθθ^). Die Ausgabe modelliert den Verlust, der mit jeder möglichen Aktion in Bezug auf jeden möglichen wahren Zustand der Welt verbunden ist. Bei Parameterschätzungsproblemen sind zum Beispiel einige bekannte Verlustfunktionen:

  • der absolute FehlerverlustL(θ,θ^)=|θθ^|
  • der quadratische FehlerverlustL(θ,θ^)=(θθ^)2
  • Hal Varians LINEX-VerlustL(θ,θ^;k)=exp(k(θθ^))k(θθ^)1, k0

Untersuchen Sie die Antwort, um die Frage zu finden

Es gibt einen Fall, bei dem man versuchen könnte, Fehler vom Typ III zu vermeiden, indem man sich auf die Formulierung einer korrekten Verlustfunktion konzentriert und den Rest des entscheidungs-theoretischen Ansatzes durchläuft (hier nicht näher erläutert). Das ist nicht meine Aufgabe - schließlich sind Statistiker mit vielen Techniken und Methoden gut ausgestattet, die gut funktionieren, auch wenn sie nicht von einem solchen Ansatz abgeleitet sind. Aber das Endergebnis scheint mir zu sein, dass die überwiegende Mehrheit der Statistiker die statistische Entscheidungstheorie nicht kennt und sich nicht darum kümmert, und ich denke, sie verpassen sie. Für diese Statistiker würde ich argumentieren, dass sie die statistische Entscheidungstheorie zur Vermeidung von Fehlern des Typs III als wertvoll erachten, weil sie einen Rahmen bietet, in dem sie nach einem vorgeschlagenen Datenanalyseverfahren fragen können:Mit welcher Verlustfunktion (falls vorhanden) wird das Verfahren optimal bewältigt? Das heißt, in welcher Entscheidungssituation liefert es genau die beste Antwort?

Hinterer erwarteter Verlust

Aus Bayes-Sicht ist die Verlustfunktion alles, was wir brauchen. Wir können so ziemlich den Rest der Entscheidungstheorie überspringen - fast per definitionem das Beste , was zu tun ist , Verlust zu minimieren posterior erwartet, das heißt, findet die Aktion , dass mindernd .~ L ( a ) = & THgr; L ( θ , a ) P ( θ | D ) d θaL~(ein)=ΘL(θ,ein)p(θ|D)dθ

(Und was nicht-Bayesianische Perspektiven betrifft? Nun, es ist ein Theorem der frequentistischen Entscheidungstheorie - insbesondere Walds vollständiges Klassensatz -, dass die optimale Maßnahme immer darin besteht, den Bayesianischen posterioren erwarteten Verlust in Bezug auf einige (möglicherweise unangemessene) zu minimieren. ) Die Schwierigkeit bei diesem Ergebnis besteht darin, dass es sich um einen Existenzsatz handelt, der keine Hinweise darauf gibt, welche vor der Verwendung verwendet werden sollen, aber er schränkt die Klasse von Prozeduren, die wir "umkehren" können, fruchtbar ein, um genau herauszufinden, welche Frage es ist, dass wir sind Insbesondere besteht der erste Schritt beim Invertieren eines nicht-Bayesianischen Verfahrens darin, herauszufinden, welches Bayesianische Verfahren (falls vorhanden) repliziert oder approximiert wird.)

Hey Cyan, du weißt, dass dies eine Q & A-Seite ist, oder?

Was mich schließlich zu einer statistischen Frage bringt. In der Bayes'schen Statistik sind bei der Bereitstellung von Intervallschätzungen für univariate Parameter zwei gängige glaubwürdige Intervallverfahren das quantilbasierte glaubwürdige Intervall und das glaubwürdige Intervall mit der höchsten hinteren Dichte. Welche Verlustfunktionen stecken hinter diesen Verfahren?


Sehr schön. Aber sind sie die einzigen Verlustfunktionen, die diese Verfahren rechtfertigen?
Gast

1
@Cyan >> Danke, dass du mir die Frage gestellt und beantwortet hast :) Ich werde das alles lesen und mich, wann immer möglich, dafür einsetzen.
Stéphane Laurent

4
Interessantes Zitat aus der statistischen Entscheidungstheorie und der Bayes'schen Analyse von Berger : "Wir betrachten glaubwürdige Mengen nicht als eine klare entscheidungstheoretische Rolle und sind daher misstrauisch gegenüber 'Optimalitäts'-Ansätzen bei der Auswahl einer glaubwürdigen Menge"
Simon Byrne

1
@ Simon Byrne >> 1985 war eine lange Zeit her; Ich frage mich, ob er das immer noch denkt.
Cyan

1
@Cyan: Ich weiß es nicht, aber die Entscheidungstheorie ist der Teil der Bayes'schen Statistik, der sich in den letzten 27 Jahren nicht wesentlich verändert hat (es gab einige interessante Ergebnisse, aber Bergers Buch ist immer noch die Standardreferenz) Im Vergleich zur Popularität führt Minimax zu häufigeren Statistiken.
Simon Byrne

Antworten:


15

Bei der univariaten Intervallschätzung ist die Menge der möglichen Aktionen die Menge der geordneten Paare, die die Endpunkte des Intervalls angeben. Ein Element dieser Menge sei dargestellt durch .(ein,b), einb

Höchste hintere Dichteintervalle

Die hintere Dichte sei . Die höchsten posterioren Dichteintervalle entsprechen der Verlustfunktion, die ein Intervall benachteiligt, das den wahren Wert nicht enthält, und auch Intervalle proportional zu ihrer Länge benachteiligt:f(θ)

,LHPD(θ,(ein,b);k)=ich(θ[ein,b])+k(b-ein),0<kmeinxθf(θ)

wo ist die Indikatorfunktion . Dies ergibt den erwarteten posterioren Verlustich()

L~HPD((a,b);k)=1Pr(aθb|D)+k(ba)

Das Setzen von ergibt die notwendige Bedingung für a lokales Optimum im Inneren des Parameterraums: - erwartungsgemäß genau die Regel für HPD-Intervalle.aL~HPD=bL~HPD=0f(a)=f(b)=k

Die Form von gibt einen Einblick, warum HPD-Intervalle für eine monoton ansteigende Transformation des Parameters nicht invariant sind . Die -Raum HPD Intervall umgewandelt in Raum unterscheidet sich von der -Raum HPD Intervall , da die beiden Intervalle an verschiedenen Verlustfunktionen entsprechen: die -Raum HPD Intervall entspricht eine transformierte Längenstrafe .L~HPD((a,b);k)g(θ)θg(θ)g(θ)g(θ)k(g(b)g(a))

Quantilbasierte glaubwürdige Intervalle

Betrachten Sie die Punktschätzung mit der Verlustfunktion

Lq(θ,θ^;p)=p(θ^θ)I(θ<θ^)+(1p)(θθ^)I(θθ^), 0p1

Der hintere erwartete Verlust beträgt

L~q(θ^;p)=p(θ^E(θ|θ<θ^,D))+(1p)(E(θ|θθ^,D)θ^)

ddθ^L~q=0

Pr(θ<θ^|D)=p

θ^(100p)

Um also quantilbasierte Intervallschätzungen zu erhalten, ist die Verlustfunktion

LqCich(θ,(ein,b);pL,pU)=Lq(θ,ein;pL)+Lq(θ,b;pU)


1
θ

Gibt es eine andere Möglichkeit, sich quantilbasierte Intervalle vorzustellen, die sich nicht direkt auf Quantile oder die Länge des Intervalls beziehen? Ich hoffte auf etwas wie "Das Quantilintervall maximiert / minimiert den Durchschnitt / Minimum / Maximum / etc. Etwas-Maß"
Rasmus Bååth

@RasmusBååth, Sie fragen sich im Grunde: "Was sind die notwendigen Bedingungen für die Verlustfunktion, damit Quantilintervalle die Lösung für die Minimierung des posterioren erwarteten Verlusts sind?" Meine Intuition, so wie die Mathematik in Vorwärtsrichtung funktioniert, ist, dass dies so ziemlich alles ist. Habe es aber nicht bewiesen.
Cyan

LssssL

5
Ich erwähne nur, dass Abschnitt 5.5.3 von Bayesian Choice die verlustbasierte Ableitung von glaubwürdigen Mengen behandelt ...
Xi'an

1

Intervalle von minimaler Größe

Eine naheliegende Wahl einer Verlustfunktion für die Intervallauswahl (sowohl Bayesian als auch Frequentist) besteht darin, die Größe der Intervalle zu verwenden, die in Bezug auf die Randverteilungen gemessen wird. Beginnen Sie also mit der gewünschten Eigenschaft oder der Verlustfunktion und leiten Sie die optimalen Intervalle ab. Dies wird in der Regel nicht getan, wie dies anhand der vorliegenden Frage veranschaulicht wird, obwohl dies möglich ist. Für glaubwürdige Bayes'sche Mengen entspricht dies der Minimierung der vorherigen Wahrscheinlichkeit des Intervalls oder der Maximierung der relativen Annahme, wie z. B. in Evans (2016) dargelegt. Die Größe kann auch zur Auswahl von Frequentist Confidence Sets verwendet werden (Schafer 2009). Die beiden Ansätze hängen zusammen und lassen sich relativ einfach über Entscheidungsregeln umsetzen, die vorzugsweise Entscheidungen mit großer punktueller gegenseitiger Information beinhalten (Bartels 2017).

Bartels, C., 2017. Nutzung von Vorkenntnissen in frequentistischen Tests. figshare. https://doi.org/10.6084/m9.figshare.4819597.v3

Evans, M., 2016. Messung statistischer Beweise unter Verwendung relativer Überzeugung. Computational and Structural Biotechnology Journal, 14, S. 91-96.

Schafer, CM und Stark, PB, 2009. Konstruieren von Vertrauensbereichen mit optimaler erwarteter Größe. Journal of the American Statistical Association, 104 (487), S. 1080-1089.


Ich sehe, Sie zitieren Evans nach dem Vorschlag von Keith O'Rourke ( andrewgelman.com/2016/07/17/… ). Ich mag Evans 'Sachen wirklich.
Cyan

Ich bin sehr froh, von Keith über Arbeiten informiert worden zu sein, die anders beginnen, aber zu ähnlichen Ergebnissen führen! Wichtig zu zitieren.
user36160
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.