Wann ist ein verzerrter Schätzer dem unverzerrten vorzuziehen?


38

Es ist oft offensichtlich, warum man einen unvoreingenommenen Schätzer bevorzugt. Aber gibt es Umstände, unter denen wir einen voreingenommenen Schätzer einem unvoreingenommenen vorziehen könnten?



12
Eigentlich ist mir nicht klar, warum man einen unvoreingenommenen Schätzer bevorzugt. Bias ist wie der Boogeyman in Statistikbüchern, der bei Statistikstudenten unnötige Angst erzeugt. In der Realität führt der informationstheoretische Lernansatz in kleinen Stichproben immer zu einer verzerrten Schätzung und ist im Grenzbereich konsistent.
Cagdas Ozgenc

4
Ich hatte Kunden (insbesondere in Rechtssachen), die voreingenommene Schätzer stark bevorzugten, vorausgesetzt, die Voreingenommenheit war systematisch zu ihren Gunsten!
Whuber

2
Abschnitt 17.2 ("Unvoreingenommene Schätzer") von Jaynes ' Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft ist eine sehr aufschlussreiche Diskussion mit Beispielen darüber, ob die Voreingenommenheit eines Schätzers wirklich wichtig ist oder nicht und warum eine voreingenommene vorzuziehen ist (in Zeile mit der großartigen Antwort von Chaconne unten).
16.09.17

1
Wenn ich die Antwort von Chaconne-Jaynes zusammenfassen kann: Ein "unbefangener" Schätzer kann sich um gleiche Beträge rechts oder links vom wahren Wert irren. ein "voreingenommener" kann mehr nach rechts als nach links irren oder umgekehrt. Aber der Fehler des Unparteiischen kann, obwohl er symmetrisch ist, viel größer sein als der des Voreingenommenen. Siehe Chaconnes erste Figur. In vielen Situationen ist es viel wichtiger, dass ein Schätzer einen kleinen Fehler aufweist, als dass dieser Fehler symmetrisch ist.
16.09.17

Antworten:


51

Ja. Oft ist es der Fall, dass wir daran interessiert sind, den mittleren Fehlerquadrat zu minimieren, der in Varianz + Biasquadrat zerlegt werden kann . Dies ist eine äußerst grundlegende Idee im maschinellen Lernen und in der Statistik im Allgemeinen. Häufig stellen wir fest, dass eine geringfügige Zunahme der Verzerrung mit einer hinreichenden Verringerung der Varianz einhergehen kann, sodass die MSE insgesamt abnimmt.

Ein Standardbeispiel ist die Gratregression. Wir haben β R = ( X T X + λ I ) - 1 X T Y , die vorgespannt ist; aber wenn X schlecht konditioniert dann V ein R ( β ) α ( X T X ) - 1 kann monströs sein , wohingegen V a r ( β R ) kann viel mehr bescheiden sein.β^R=(XTX+λI)1XTYXVar(β^)(XTX)1Var(β^R)

Ein weiteres Beispiel ist der kNN-Klassifikator . Denken Sie an : Wir weisen dem nächsten Nachbarn einen neuen Punkt zu. Wenn wir eine Menge Daten und nur wenige Variablen haben, können wir wahrscheinlich die wahre Entscheidungsgrenze wiederherstellen und unser Klassifikator ist unvoreingenommen. Für jeden realistischen Fall ist es jedoch wahrscheinlich, dass k = 1 viel zu flexibel ist (dh zu viel Varianz aufweist), und daher lohnt sich die geringe Verzerrung nicht (dh die MSE ist größer als stärker verzerrte, aber weniger variable Klassifikatoren).k=1k=1

Zum Schluss noch ein Bild. Angenommen, dies sind die Stichprobenverteilungen zweier Schätzer, und wir versuchen, 0 zu schätzen. Der flachere ist unvoreingenommen, aber auch viel variabler. Insgesamt denke ich, dass ich es vorziehen würde, die voreingenommene zu verwenden, denn obwohl wir im Durchschnitt nicht korrekt sind, werden wir für jede einzelne Instanz dieses Schätzers näher dran sein.

Bias-Varianz

 
Aktualisieren

Ich erwähne die numerischen Probleme, die auftreten, wenn schlecht konditioniert ist und wie die Gratregression hilft. Hier ist ein Beispiel.X

Ich mache eine Matrix die 4 × 3 ist, und die dritte Spalte ist fast alle 0, was bedeutet, dass sie fast nicht den vollen Rang hat, was bedeutet, dass X T X der Singularität sehr nahe kommt.X4×3XTX

x <- cbind(0:3, 2:5, runif(4, -.001, .001)) ## almost reduced rank

> x
     [,1] [,2]        [,3]
[1,]    0    2 0.000624715
[2,]    1    3 0.000248889
[3,]    2    4 0.000226021
[4,]    3    5 0.000795289

(xtx <- t(x) %*% x) ## the inverse of this is proportional to Var(beta.hat)

           [,1]        [,2]        [,3]
[1,] 14.0000000 26.00000000 3.08680e-03
[2,] 26.0000000 54.00000000 6.87663e-03
[3,]  0.0030868  0.00687663 1.13579e-06

eigen(xtx)$values ## all eigenvalues > 0 so it is PD, but not by much

[1] 6.68024e+01 1.19756e+00 2.26161e-07


solve(xtx) ## huge values

           [,1]        [,2]        [,3]
[1,]   0.776238   -0.458945     669.057
[2,]  -0.458945    0.352219    -885.211
[3,] 669.057303 -885.210847 4421628.936

solve(xtx + .5 * diag(3)) ## very reasonable values

             [,1]         [,2]         [,3]
[1,]  0.477024087 -0.227571147  0.000184889
[2,] -0.227571147  0.126914719 -0.000340557
[3,]  0.000184889 -0.000340557  1.999998999

Update 2

Wie versprochen, hier ein ausführlicheres Beispiel.

X1,...,Xn iid N(μ,σ2)μ

T1(X1,...,Xn)=X1μnμT1

T1T2(X1,...,Xn)=X1+X22Tn(X1,...,Xn)=X1+...+XnnVar(T1)=σ2Var(T2)=σ22Var(Tn)=σ2nn>2 Tn

TθMSE(T)=E((Tθ)2)MSE(T)=Var(T)+Bias(T)2Bias(T)=E(T)θ

TMSE(T)=Var(T)=Bias(T)2=Var(T)

Var(T)+Bias(T)2Bias(T)=0T

θT1T5T1T5T1T5θT1T5T3T1

VBtradeoff

Tλ(X,Y)=(XTX+λI)1XTYλTλ


Das Bild ist das einzige, das ich verstanden habe. Haben Sie einfachere Beispiele, die dem Bild entsprechen? Welche Schätzer hätten diese Formen?
Stan Shunpike

Ich werde morgen ein ausführlicheres Beispiel veröffentlichen.
Jld

@StanShunpike Ich habe ein langes Update hinzugefügt. Bitte lassen Sie mich wissen, ob dies zur Klärung beiträgt.
Jld

Wahrscheinlich die größte Anstrengung, die jemals jemand unternommen hat, um eine meiner Fragen zu beantworten. Vielen Dank.
Stan Shunpike

1
@olivia Ich kann mir keinen einzigen nicht-trivialen Fall vorstellen, in dem Bias das einzige Kriterium ist, das mich interessiert (obwohl es solche Fälle geben kann, von denen ich nichts weiß!), obwohl es Zeiten gibt, in denen Bias bekannt ist ein dominierender Faktor sein (denken Sie beispielsweise an REML, wo die Verzerrung so groß ist, dass es sich lohnt, etwas dagegen zu unternehmen). Ich denke, egal was Sie tun, Sie möchten nur, dass Ihr einziger Schätzer der Wahrheit nahe kommt, und genau das tut MSE.
Jld

2

Abgesehen von der obigen MSE-Erklärung (die allgemein akzeptierte Antwort auf die Frage) kommen zwei Gründe in den Sinn:

  • Risiken managen
  • Effizientes Testen

T(X)=X¯nX¯nϵθ0θnAn der Grenze des Balls wird es zu einem inkonsistenten Test, er weiß nie, was los ist und das Risiko explodiert.

Γ(α,βn)

Tθ(X)=XiI(Xi<θ)/I(Xi<θ)
wirft systematisch die hohen Hebelpunkte aus.

Effizientes Testen bedeutet, dass Sie das, woran Sie interessiert sind, nicht schätzen, sondern nur annähernd, da dies einen leistungsfähigeren Test bietet. Das beste Beispiel, an das ich hier denken kann, ist die logistische Regression. Leute immerVerwechseln Sie die logistische Regression mit der relativen Risiko-Regression. Beispielsweise bedeutet eine Quote von 1,6 für Krebs, wenn Raucher mit Nichtrauchern verglichen werden, NICHT, dass "Raucher ein um 1,6 höheres Krebsrisiko hatten". BZZT falsch. Das ist ein Risikoverhältnis. Sie hatten technisch gesehen eine 1,6-fache Gewinnchance (Erinnerung: Gewinnchance = Wahrscheinlichkeit / (1-Wahrscheinlichkeit)). Bei seltenen Ereignissen entspricht die Odds Ratio jedoch in etwa der Risk Ratio. Es gibt eine relative Risiko-Regression, aber sie hat viele Probleme mit der Konvergenz und ist nicht so leistungsfähig wie eine logistische Regression. Daher geben wir den OP als voreingenommene Schätzung des RR an (für seltene Ereignisse) und berechnen effizientere CIs und p-Werte.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.