Bias / Varianz-Kompromiss-Mathematik

8

Ich verstehe die Angelegenheit in den Begriffen Unteranpassung / Überanpassung, aber ich habe immer noch Schwierigkeiten , die genaue Mathematik dahinter zu verstehen . Ich habe mehrere Quellen überprüft ( hier , hier , hier , hier und hier ), aber ich verstehe immer noch nicht, warum sich Voreingenommenheit und Varianz genau gegenüberstehen, wie z. $e^x$ und $e^{-x}$ tun:

Quelle

Es scheint, als würde jeder die folgende Gleichung ableiten (ohne den irreduziblen Fehler) $\epsilon$ hier) und dann, anstatt den Punkt nach Hause zu fahren und genau zu zeigen, warum sich die Begriffe auf der rechten Seite so verhalten, wie sie es tun, beginnt über die Unvollkommenheiten dieser Welt zu wandern und wie unmöglich es ist, gleichzeitig präzise und universell zu sein.

E [({\hat{θ}}_{n} - θ)^{2}] = E [({\hat{θ}}_{n} - E [{\hat{θ}}_{n}])^{2}] + (E [{\hat{θ}}_{n} - θ])^{2}

$\newcommand{\var}{{\rm Var}} E[(\hat{\theta}_n - \theta)^2]=E[(\hat{\theta}_n - E[\hat{\theta}_n])^2] + (E[\hat{\theta}_n - \theta])^2$

Das offensichtliche Gegenbeispiel

Angenommen, ein Populationsmittelwert wird unter Verwendung des Stichprobenmittelwerts , dh , geschätzt und dann: da und , haben wir: $\mu$ $\bar{X}_n = \frac{1}{n}\sum\limits_{i=1}^{n}X_i$ $\theta\equiv\mu$ $\hat{\theta}_n\equiv\bar{X}_n$

M S E = V a r ({\bar{X}}_{n} - μ) + (E [{\bar{X}}_{n}] - μ)^{2}

$MSE = \var(\bar{X}_n - \mu) + (E[\bar{X}_n] - \mu)^2$

E [{\bar{X}}_{n}] = μ

$E[\bar{X}_n]=\mu$

V a r (μ) = 0

$\var(\mu) = 0$

M S E = V a r ({\bar{X}}_{n}) = \frac{1}{n} V a r (X) \to_{n \to \infty}^{} 0

$MSE = \var(\bar{X}_n) = \frac{1}{n}\var(X)\xrightarrow[n\to\infty]{}0$

So sind die Fragen :

Warum können und nicht gleichzeitig verringert werden? $E[(\hat{\theta}_n - E[\hat{\theta}_n])^2]$ $E[\hat{\theta}_n - \theta]$
Warum können wir nicht einfach einen unvoreingenommenen Schätzer nehmen und die Varianz durch Erhöhen der Stichprobengröße verringern?

unbiased-estimator mse bias-variance-tradeoff

— Ayorgo
quelle

11

Erstens sagt niemand, dass sich quadratische Verzerrung und Varianz genau wie verhalten , falls Sie sich fragen. Der Punkt ist einfach, dass einer zunimmt und der andere abnimmt. Es ähnelt den Angebots- und Nachfragekurven in der Mikroökonomie, die traditionell als gerade Linien dargestellt werden, was die Menschen manchmal verwirrt. Wieder ist der Punkt einfach, dass einer nach unten und der andere nach oben abfällt. $e^{\pm x}$

Ihre Hauptverwirrung betrifft das, was sich auf der horizontalen Achse befindet. Es ist die Komplexität des Modells - nicht die Stichprobengröße. Ja, während Sie schreiben, wenn wir einen unvoreingenommenen Schätzer verwenden, verringert eine Erhöhung der Stichprobengröße die Varianz und wir erhalten ein besseres Modell. Der Kompromiss zwischen Bias und Varianz steht jedoch im Zusammenhang mit einer festen Stichprobengröße, und wir variieren die Komplexität des Modells, z. B. durch Hinzufügen von Prädiktoren.

Wenn Modell A zu klein ist und keine Prädiktoren enthält, deren wahrer Parameterwert ungleich Null ist, und Modell B Modell A umfasst, aber alle Prädiktoren enthält, deren Parameterwerte ungleich Null sind, werden Parameterschätzungen von Modell A verzerrt und von Modell B unverzerrt - aber Die Varianz der Parameterschätzungen in Modell A ist kleiner als bei denselben Parametern in Modell B.

— Stephan Kolassa
quelle

2

Danke für die Antwort. Ich erwähnte nur, um den Punkt offensichtlich entgegengesetzter Funktionen zu veranschaulichen. Wollen Sie damit sagen, dass der Kompromiss ein Attribut multivariater Systeme ist und im univariaten Fall nicht einfach dargestellt werden kann? Qualitativ gesehen verstehe ich den Punkt der Komplexität des Modells gegenüber der Überanpassung, aber kann es mathematisch dargestellt werden?

e^{x}

$e^x$

— Ayorgo

2

Sie können es mathematisch anzeigen, wenn Sie sich auf eine bestimmte Modellklasse beschränken, z. B. gewöhnliche kleinste Quadrate. Im einfachsten Fall kann der wahre DGP linear von einer einzelnen Variablen abhängen . Modell A wäre dann ein einfaches Durchschnittsmodell, und Modell B wäre eine Regression auf , und Sie können Bias und Varianz berechnen. Und wenn Sie möchten, können Sie höhere Potenzen von für noch mehr Varianz einschließen .

x

$x$

x

$x$

x

$x$

— Stephan Kolassa

1

Die Werte, die das OP erwähnt, sind Bevölkerungswerte. Die Schätzungen dieser Werte können eine Korrelation ungleich Null aufweisen, z. B. King und Zhen: gking.harvard.edu/files/gking/files/0s.pdf siehe Seite 11, wo sie angeben ", und wir befinden uns in einer glücklichen Situation, in der die Verzerrung verringert wird reduziert auch die Varianz ". Wie Stephan jedoch erwähnt, ist die horizontale Achse des Diagramms im OP die Komplexität des Modells, und das von King und Zheng gegebene Beispiel ist standardmäßig komplexer als eine logistische Regression.

— Lucas Roberts

1

Probleme treten auf, wenn ein Modell eine hohe Tendenz hat, sich dem Rauschen anzupassen. $f(x,\theta)$

In diesem Fall neigt das Modell zur Überanpassung. Das heißt, es drückt nicht nur das wahre Modell aus, sondern auch das zufällige Rauschen, das Sie nicht mit Ihrem Modell erfassen möchten (da das Rauschen ein nicht systematischer Teil ist, mit dem Sie keine Vorhersagen für neue Daten treffen können).

Man könnte den Gesamtfehler der Anpassung verbessern (verringern), indem man eine gewisse Vorspannung einführt, wenn diese Vorspannung die Varianz / Überanpassung stärker verringert als die Zunahme der Vorspannung / Unteranpassung (dh das wahre Modell nicht korrekt darstellt). .

1. Warum können und nicht gleichzeitig verringert werden? $E[(\hat{\theta}_n - E[\hat{\theta}_n])^2]$ $E[\hat{\theta}_n - \theta]$

Das ist nicht wahr. Sie können gleichzeitig verringert werden (je nach Fall). Stellen Sie sich vor, Sie haben eine Verzerrung eingeführt, die sowohl die Varianz als auch die Verzerrung erhöht. Wenn Sie dann in umgekehrter Richtung diese Vorspannung reduzieren, werden gleichzeitig Vorspannung und Varianz verringert.

^{Beispielsweise ist eine skalierte quadratische mittlere quadratische Differenz für eine Stichprobe der Größe ein unverzerrter Schätzer für die Populationsstandardabweichung wenn . Wenn Sie nun , würden Sie sowohl die Vorspannung als auch die Varianz verringern, wenn Sie die Größe dieser Konstanten verringern . $c \sqrt{\frac{1}{n} {\sum(x_i-\bar{x})^2}}$ $n$ $\sigma$ $c=\sqrt{\frac{n}{n-1}}$ $c>\sqrt{\frac{n}{n-1}}$ $c$}

Die Verzerrung, die (absichtlich) bei der Regularisierung hinzugefügt wird, ist jedoch häufig von der Art, die die Varianz verringert (z. B. könnten Sie auf ein Niveau unter reduzieren ). Auf diese Weise erhalten Sie einen Kompromiss zwischen Verzerrung und Varianz, und das Entfernen der Verzerrung erhöht (in der Praxis) die Varianz. $c$ $\sqrt{\frac{n}{n-1}}$

2. Warum können wir nicht einfach einen unvoreingenommenen Schätzer nehmen und die Varianz durch Erhöhen der Stichprobengröße verringern?

Im Prinzip können Sie.

Aber,

Dies kann viel mehr Probenahmeaufwand erfordern, was teuer ist, und dies ist oft eine Einschränkung.
Möglicherweise gibt es auch Rechenschwierigkeiten bei bestimmten Schätzproblemen, und die Stichprobengröße müsste extrem erhöht werden, um dies zu lösen, wenn dies überhaupt möglich ist.

(zB Parameter mit hoher Dimensionalität> Messungen oder wie bei der Gratregression : sehr flache Pfade um das globale Optimum)

Oft gibt es auch keine Einwände gegen Voreingenommenheit. Wenn es darum geht, den Gesamtfehler zu reduzieren (wie in vielen Fällen), ist die Verwendung eines voreingenommenen, aber weniger fehlerhaften Schätzers vorzuziehen.

Über Ihr Gegenbeispiel.

Im Zusammenhang mit Ihrer zweiten Frage können Sie den Fehler tatsächlich reduzieren, indem Sie die Stichprobengröße erhöhen. Im Zusammenhang mit Ihrer ersten Frage können Sie auch sowohl die Verzerrung als auch die Varianz reduzieren (sagen wir, Sie verwenden einen skalierten Stichprobenmittelwert als Schätzer des Populationsmittelwerts und erwägen, den Skalierungsparameter variieren ). $c\frac{\sum{x_i}}{n}$ $c$

Der Bereich von praktischem Interesse ist jedoch der Bereich, in dem die abnehmende Vorspannung mit einer zunehmenden Varianz zusammenfällt. Das folgende Bild zeigt diesen Kontrast anhand einer Stichprobe (Größe = 5) aus einer Normalverteilung mit Varianz = 1 und Mittelwert = 1. Der nicht skalierte Stichprobenmittelwert ist der unverzerrte Prädiktor für den Populationsmittelwert. Wenn Sie die Skalierung dieses Prädiktors erhöhen würden, hätten Sie sowohl eine zunehmende Verzerrung als auch eine zunehmende Varianz. Wenn Sie jedoch die Skalierung des Prädiktors verringern, haben Sie eine zunehmende Verzerrung, aber eine abnehmende Varianz. Der "optimale" Prädiktor ist dann eigentlich nicht der Stichprobenmittelwert, sondern ein verkleinerter Schätzer (siehe auch Warum wird der James-Stein-Schätzer als "Schrumpfungsschätzer" bezeichnet? ).

— Sextus Empiricus
quelle

Bias / Varianz-Kompromiss-Mathematik

1. Warum können und nicht gleichzeitig verringert werden?E[(θ^n−E[θ^n])2]E[(θ^n−E[θ^n])2]E[(\hat{\theta}_n - E[\hat{\theta}_n])^2]E[θ^n−θ]E[θ^n−θ]E[\hat{\theta}_n - \theta]

2. Warum können wir nicht einfach einen unvoreingenommenen Schätzer nehmen und die Varianz durch Erhöhen der Stichprobengröße verringern?

Über Ihr Gegenbeispiel.

1. Warum können und nicht gleichzeitig verringert werden? $E[(\hat{\theta}_n - E[\hat{\theta}_n])^2]$ $E[\hat{\theta}_n - \theta]$