[Hier ist ein Auszug aus meinem eigenen Lehrbuch The Bayesian Choice (2007) , der für einen entscheidungstheoretischen Ansatz zur Bayes'schen Analyse und damit für die Verwendung des Bayes-Risikos spricht.]
Mit Ausnahme der trivialsten Einstellungen ist es im Allgemeinen unmöglich, die Verlustfunktion einheitlich zu minimieren (in ) wenn unbekannt ist. Um ein effektives Vergleichskriterium aus der Verlustfunktion abzuleiten, schlägt der frequentistische Ansatz vor, stattdessen den durchschnittlichen Verlust (oder das häufig auftretende Risiko )
zu berücksichtigen.
wobei die Entscheidungsregel ist, dh die Zuordnung einer Entscheidung zu jedem ErgebnisdL(θ,d)θ
R(θ,δ)==Eθ[L(θ,δ(x))]∫XL(θ,δ(x))f(x|θ)dx,
δ(x)x∼f(x|θ) aus dem zufälligen Experiment.
Die Funktion aus in wird normalerweise als Schätzer bezeichnet (während der Wert als Schätzung von ). Wenn keine Verwechslungsgefahr besteht, bezeichnen wir die Menge der Schätzer auch mit .δXDδ(x)θD
Das frequentistische Paradigma stützt sich auf dieses Kriterium, um Schätzer zu vergleichen und, wenn möglich, den besten Schätzer auszuwählen. Der Grund dafür ist, dass Schätzer hinsichtlich ihrer langfristigen Leistung für alle möglichen Werte des Parameters bewertet werden . Beachten Sie jedoch, dass mit diesem Ansatz mehrere Schwierigkeiten verbunden sind.θ
- Der Fehler (Verlust) wird über die verschiedenen Werte von
proportional zur Dichte gemittelt . Daher scheint die Beobachtung nicht weiter berücksichtigt zu werden. Das Risikokriterium bewertet Verfahren hinsichtlich ihrer langfristigen Leistung und nicht direkt für die gegebene Beobachtung, . Eine solche Bewertung mag für die Statistikerin zufriedenstellend sein, ist aber für eine Klientin nicht so ansprechend, die optimale Ergebnisse für ihre Daten und nicht für die einer anderen wünscht !xf(x|θ)xxx
- Die frequentistische Analyse des Entscheidungsproblems geht implizit davon aus, dass dieses Problem immer wieder gelöst wird, damit die Frequenzbewertung sinnvoll ist. In der Tat ist ungefähr der durchschnittliche Verlust über iid-Wiederholungen desselben Experiments gemäß dem Gesetz der großen Zahlen. Sowohl aus philosophischen als auch aus praktischen Gründen gibt es jedoch viele Kontroversen über den Begriff der Wiederholbarkeit von Experimenten (siehe Jeffreys (1961)). Zum einen sollte die Statistikerin, wenn neue Beobachtungen eingehen, diese nutzen, und dies könnte die Art und Weise ändern, wie das Experiment durchgeführt wird, wie zum Beispiel in medizinischen Studien.R(θ,δ)
- Für eine Prozedur ist das Risiko eine Funktion des Parameters . Daher führt der frequentistische Ansatz nicht zu einer vollständigen Reihenfolge der Prozeduren. Es ist im Allgemeinen unmöglich, Entscheidungsverfahren mit diesem Kriterium zu vergleichen, da zwei Kreuzungsrisikofunktionen einen Vergleich zwischen den entsprechenden Schätzern verhindern. Bestenfalls kann man auf eine Prozedur , die einheitlich minimiert , aber solche Fälle treten selten auf, es sei denn, der Raum der Entscheidungsprozeduren ist eingeschränkt. Die besten Verfahren können nur erzielt werden, indem der Satz autorisierter Verfahren eher künstlich eingeschränkt wird.δR(θ,δ)θδ0R(θ,δ)
Beispiel 2.4 - Betrachten Sie und , zwei Beobachtungen aus
Der interessierende Parameter ist (dh ) und wird von Schätzern unter dem Verlust
geschätzt
oft als Verlust bezeichnet , der Schätzfehler unabhängig von ihrer Größe um bestraft . In Anbetracht des bestimmten \ est
seine Risikofunktion
x1x2
Pθ(x=θ−1)=Pθ(x=θ+1)=0.5,θ∈R.
θD=ΘδL(θ,δ)=1−Iθ(δ),
0−1 1δ0(x1,x2)=x1+x22,
R(θ,δ0)==1−Pθ(δ0(x1,x2)=θ)1−Pθ(x1≠x2)=0.5.
Diese Berechnung zeigt, dass der Schätzer Hälfte der Zeit korrekt ist. Tatsächlich ist dieser Schätzer immer korrekt, wenn
, und ansonsten immer falsch. Nun hat das \ est \
auch eine Risikofunktion von , ebenso wie . Daher können ,
und nicht unter den Verlust eingestuft werden.
δ0x1≠x2δ1(x1,x2)=x1+10.5δ2(x1,x2)=x2−1δ0δ1δ20−1▶
Im Gegenteil, der Bayes'sche Ansatz zur Entscheidungstheorie integriert sich in den Raum da unbekannt ist, anstatt in den Raum wie bekannt ist. Es beruht auf dem posterioren erwarteten Verlust
der den Fehler (dh den Verlust) gemäß dem mittelt posteriore Verteilung des Parameters , abhängig vom beobachteten Wert} . Bei ist der durchschnittliche Fehler, der sich aus der Entscheidung ergibt, tatsächlichΘθXx
ρ(π,d|x)==Eπ[L(θ,d)|x]∫ΘL(θ,d)π(θ|x)dθ,
θxxdρ(π,d|x) . Der hintere erwartete Verlust ist somit eine Funktion von aber diese Abhängigkeit ist nicht störend, im Gegensatz zu der häufigen Abhängigkeit des Risikos vom Parameter, da im Gegensatz zu bekannt ist.
xxθ