Intuitive Erklärung des Bias-Varianz-Kompromisses?

46

Ich suche nach einer intuitiven Erklärung des Kompromisses zwischen Bias und Varianz, sowohl im Allgemeinen als auch im Speziellen im Kontext der linearen Regression.

regression variance bias

— NPE
quelle

1

Es gibt eine weitere Diskussion, die für diese Themen relevant ist: Was-Problem-Schrumpf-Methoden-lösen .

— gung - Reinstate Monica

scott.fortmann-roe.com/docs/BiasVariance.html

— Pinocchio

24

Stellen Sie sich einige 2D-Daten vor - sagen wir, Größe versus Gewicht für Schüler an einer High School -, die auf zwei Achsen aufgetragen sind.

Nehmen wir nun an, Sie ziehen eine gerade Linie durch. Diese Linie, die natürlich einen Satz vorhergesagter Werte darstellt, weist keine statistische Varianz auf. Aber der Bias ist (wahrscheinlich) hoch - dh er passt nicht sehr gut zu den Daten.

Nehmen Sie als Nächstes an, Sie modellieren die Daten mit einem hochgradigen Polynom-Spline. Sie sind mit der Anpassung nicht zufrieden. Erhöhen Sie daher den Polynomgrad, bis sich die Anpassung verbessert (und zwar mit beliebiger Genauigkeit). Jetzt haben Sie eine Situation mit einer Tendenz, die gegen Null geht, aber die Varianz ist sehr hoch.

Beachten Sie, dass der Kompromiss zwischen Bias und Varianz keine proportionale Beziehung beschreibt. Wenn Sie also Bias und Varianz zeichnen, sehen Sie nicht unbedingt eine gerade Linie durch den Ursprung mit Steigung -1. Im obigen Polynom-Spline-Beispiel erhöht das Verringern des Grades mit ziemlicher Sicherheit die Varianz viel weniger als das Verringern der Vorspannung.

Der Bias-Varianz-Kompromiss ist auch in die Quadratsummenfehlerfunktion eingebettet. Im Folgenden habe ich die übliche Form dieser Gleichung umgeschrieben (aber nicht geändert), um dies zu betonen:

Alt-Text

Auf der rechten Seite gibt es drei Begriffe: Der erste ist nur der irreduzible Fehler (die Varianz in den Daten selbst); Dies liegt außerhalb unserer Kontrolle, ignorieren Sie es also. Der zweite Term ist das Quadrat der Verzerrung ; und der dritte ist die Varianz . Es ist leicht zu erkennen, dass beim Auf- und Absteigen beide nicht in die gleiche Richtung variieren können. Anders ausgedrückt, Sie können sich die Regression der kleinsten Quadrate so vorstellen, dass (implizit) die optimale Kombination aus Verzerrung und Varianz unter den Kandidatenmodellen gefunden wird.

— doug
quelle

8

Ich habe Probleme, die Gleichung zu verstehen. Ich kann es nicht rechtfertigen. Bereits eine Basiseinheitenanalyse identifiziert Probleme. Angenommen, wird zum Beispiel in Parsec und in Drams gemessen , so dass und sein Schätzer (ist das, was der kleine Punkt über bedeutet?) Auch in Parsec sind. Dann sind die lhs und quadratische Parsencs; der mittlere Term auf der rechten Seite ist das Quadrat der Differenz zwischen einer Parsec ( ) und Parsec pro Dram (aufgrund der Division durch ); und der letzte Term auf der rechten Seite sind quadratische Parsencs pro Dram. Es ist nicht gültig, einen dieser Begriffe miteinander zu addieren!

y

$y$

x

$x$

f

$f$

f

$f$

σ^{2}

$\sigma^2$

f (x)

$f(x)$

x

$x$

— whuber

Die Gleichung ist in Ordnung (die kleinen griechischen Buchstaben im Zähler sind nicht 'x', sondern 'kappa'). Versuchen Sie Folgendes: Beginnen Sie mit einer Formel für SSE, mit der Sie vertraut sind. Mit wenigen Schritten gelangen Sie zu der oben genannten Formel.

— Doug

Was ist in diesem Zusammenhang Kappa?

Ich bin ein Noob. Können Sie mir intuitiv helfen, zu verstehen, warum Sie im ersten Teil Ihrer Antwort sagen, dass das Anpassen eines Polynom-Splines die Varianz erhöht?

— Rohit Banga

3

Ein einfacheres Beispiel: y = a + b x + e (rror). Wenn ich eine Konstante dazu anpasse, ist Bias = b x und Varianz = var (e) + die Varianz meiner Schätzung von a um den wahren Wert. Wenn ich dem Modell einen Term b * x hinzufüge, ist die Verzerrung überall Null, aber die Varianz umfasst jetzt die Auswirkungen des Fehlers meiner Schätzung von b sowie von a und der Varianz von e und ist daher höher als in der ersten Schätzung Fall. Es gibt also einen Kompromiss zwischen einer verminderten Verzerrung, die durch Hinzufügen von Begriffen zu dem Modell, das vorhanden sein sollte, erzielt wird, und einer erhöhten Varianz, die durch Schätzen dieser Begriffe und möglicherweise durch Hinzufügen irrelevanter Begriffe erzielt wird.

— Bogenschütze

25

Angenommen, Sie erwägen eine katastrophale Krankenversicherung, und die Wahrscheinlichkeit, krank zu werden, liegt bei 1%, was 1 Million Dollar kosten würde. Die zu erwartenden Krankheitskosten betragen somit 10.000 US-Dollar. Die Versicherung, die einen Gewinn erzielen will, berechnet Ihnen 15.000 für die Police.

Durch den Kauf der Police entstehen Ihnen voraussichtliche Kosten in Höhe von 15.000, was einer Varianz von 0 entspricht, aber als voreingenommen angesehen werden kann, da 5.000 mehr als die tatsächlichen voraussichtlichen Krankheitskosten sind.

Wenn die Police nicht gekauft wird, ergeben sich erwartete Kosten von 10.000, was unbefangen ist, da sie den tatsächlich erwarteten Kosten für das Krankwerden entsprechen, aber sehr unterschiedlich sind. Der Kompromiss liegt hier zwischen einem Ansatz, der durchweg falsch ist, aber nie viel, und einem Ansatz, der im Durchschnitt korrekt ist, aber variabler.

— CDX
quelle

15

Ich empfehle dringend, einen Blick auf den Caltech ML-Kurs von Yaser Abu-Mostafa, Lecture 8 (Bias-Variance Tradeoff) zu werfen . Hier sind die Umrisse:

Angenommen, Sie versuchen, die Sinusfunktion zu lernen:

Unser Trainingsset besteht aus nur 2 Datenpunkten.

Versuchen wir es mit zwei Modellen, und : $h_0(x)=b$ $h_1(x)=ax+b$

Für wir, wenn wir mit vielen verschiedenen Trainingssätzen versuchen (dh wir wählen wiederholt 2 Datenpunkte aus und führen das Lernen an ihnen durch) (linker Graph repräsentiert alle gelernten Modelle, rechter Graph repräsentiert ihren Mittelwert g und ihre Varianz (grauer Bereich)): $h_0(x)=b$

Für wir, wenn wir mit vielen verschiedenen Trainingssätzen versuchen: $h_1(x)=ax+b$

Wenn wir das gelernte Modell mit und , können wir sehen, dass einfachere Modelle ergibt als , daher eine geringere Varianz, wenn wir alle mit gelernten Modelle betrachten , aber das beste gelernte Modell g (in rot in der Grafik) mit ist besser als das beste gelernte Modell g mit , daher eine geringere Verzerrung mit : $h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$ $h_0$ $h_1$

Wenn Sie sich die Entwicklung der Kostenfunktion in Bezug auf die Größe des Trainingssatzes ansehen (Zahlen aus Coursera - Machine Learning von Andrew Ng ):

Hohe Vorspannung:

Bildbeschreibung hier eingeben

Hohe Varianz:

Bildbeschreibung hier eingeben

— Franck Dernoncourt
quelle

+1, sehr ausführlich. Nehmen wir als Beispiel . Wir haben viele verschiedene Stichproben mit jeweils 2 Punkten gezeichnet , also haben wir viele Modelle mit jeweils unterschiedlichen Modellparameterschätzungen trainiert , richtig? Und für eine bestimmte Eingabe gibt different unterschiedliche Vorhersagen , so dass der vorhergesagte Zielwert eine Zufallsvariable ist, die mit der Modellparameterschätzung variiert . Und die Tendenz und Varianz in Ihrer Figur werden für jedes vorhergesagt , richtig? Hab ich recht?

h_{1}

$h_1$

D_{i}

$D_i$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

x_{0}

$x_0$

({\hat{a}}_{i}, {\hat{b}}_{i})

$(\hat a_i,\hat b_i)$

{\hat{y}}_{0}

$\hat y_0$

{\hat{y}}_{0}

$\hat y_0$

(\hat{a}, \hat{b})

$(\hat a,\hat b)$

x

$x$

\hat{y}

$\hat y$

— Avocado

Ihre Sinusfunktion ist invertiert XP

— Diego

1

Dies ist verwirrend, weil Sie sich anscheinend auf Grundstücke beziehen, die nicht vorhanden sind (möglicherweise die "Alternativtexte").

— gung - Reinstate Monica

@gung behoben, danke für den Hinweis. ImageShack schließt kostenlose Konten und löscht Bilder . Und Stack Exchange hat keine geeigneten Maßnahmen ergriffen. Verwandte Themen : ImageShack-Bilder verbieten, da alte URLs für Werbung wiederverwendet werden (bitte unterstützen Sie das Verbot). Was ist die einfachste Möglichkeit für mich, alle meine Fragen und Antworten von allen Stack Exchange-Sites herunterzuladen? (Ich bin froh, dass ich ein Backup hatte. Bitte drücken Sie StackExchange, um bessere Tools zum

— Sichern

Vielen Dank für das Teilen der Videos Link, Es erklären gut, was ich gesucht habe, kann jetzt Ihre Antwort verstehen

— Espoir Murhabazi

13

Ich denke normalerweise an diese beiden Bilder:

Erstens die Bedeutung von Voreingenommenheit und Varianz:

Stellen Sie sich vor, das Zentrum der Augenregion der Roten Bullen ist der wahre Mittelwert unserer Ziel-Zufallsvariablen, die wir vorherzusagen versuchen, und die rote Region gibt die Varianzverteilung dieser Variablen an. Jedes Mal, wenn wir eine Stichprobe von Beobachtungen machen und den Wert dieser Variablen vorhersagen, zeichnen wir einen blauen Punkt. Wir haben richtig vorhergesagt, ob der blaue Punkt in den roten Bereich fällt. Mit anderen Worten, die Verzerrung ist das Maß dafür, wie weit die vorhergesagten blauen Punkte vom wahren roten Bereich entfernt sind. Intuitiv ist dies ein Fehler. Varianz ist die Streuung unserer Vorhersagen.

Jetzt ist der Kompromiss hier:

Wenn wir versuchen, einen dieser Parameter (entweder Bias oder Varianz) zu verringern, erhöht sich der andere Parameter. Aber es gibt irgendwo einen Sweet Spot zwischen einer nicht so geringen Verzerrung und einer nicht so geringen Varianz, die auf lange Sicht den geringsten Vorhersagefehler erzeugt.

Diese Bilder stammen von http://scott.fortmann-roe.com/docs/BiasVariance.html . Weitere Informationen finden Sie in den Erklärungen mit linearer Regression und K-nächsten Nachbarn

— Thamme Gowda
quelle

Die erste Zahl sieht eher nach Präzision oder Genauigkeit aus.

— KingBoomie

0

Hier ist eine sehr einfache Erklärung. Stellen Sie sich vor, Sie haben ein Streudiagramm der Punkte {x_i, y_i}, die aus einer Verteilung entnommen wurden. Sie möchten ein Modell dazu passen. Sie können eine lineare Kurve oder eine Polynomkurve höherer Ordnung oder etwas anderes wählen. Was auch immer Sie auswählen, wird angewendet, um neue y-Werte für eine Menge von {x_i} Punkten vorherzusagen. Nennen wir diese den Validierungssatz. Nehmen wir an, Sie kennen auch ihre wahren {y_i} -Werte und verwenden diese nur zum Testen des Modells.

Die vorhergesagten Werte werden sich von den tatsächlichen Werten unterscheiden. Wir können die Eigenschaften ihrer Unterschiede messen. Betrachten wir nur einen einzelnen Validierungspunkt. Nenne es x_v und wähle ein Modell. Machen wir eine Reihe von Vorhersagen für diesen einen Validierungspunkt, indem wir beispielsweise 100 verschiedene Zufallsstichproben zum Trainieren des Modells verwenden. Also werden wir 100 y Werte bekommen. Die Differenz zwischen dem Mittelwert dieser Werte und dem wahren Wert wird als Bias bezeichnet. Die Varianz der Verteilung ist die Varianz.

Abhängig davon, welches Modell wir verwenden, können wir einen Kompromiss zwischen diesen beiden Modellen eingehen. Betrachten wir die beiden Extreme. Das Modell mit der niedrigsten Varianz ist eines, bei dem die Daten vollständig ignoriert werden. Nehmen wir an, wir sagen einfach 42 für jedes x voraus. Dieses Modell hat an jedem Punkt keine Varianz über verschiedene Trainingsmuster. Es ist jedoch eindeutig voreingenommen. Die Vorspannung ist einfach 42-y_v.

Ein anderes Extrem können wir ein Modell wählen, das so gut wie möglich passt. Passen Sie beispielsweise ein 100-Grad-Polynom an 100 Datenpunkte an. Alternativ können Sie auch linear zwischen den nächsten Nachbarn interpolieren. Dies hat eine geringe Vorspannung. Warum? Weil für jede Zufallsstichprobe die benachbarten Punkte zu x_v stark schwanken, aber sie werden ungefähr so oft höher interpolieren, wie sie niedrig interpolieren. Im Durchschnitt über die Samples hinweg heben sie sich auf, und die Vorspannung ist daher sehr gering, es sei denn, die wahre Kurve weist viele Hochfrequenzvariationen auf.

Diese Überanpassungsmodelle haben jedoch große Abweichungen bei den Zufallsstichproben, da sie die Daten nicht glätten. Das Interpolationsmodell verwendet nur zwei Datenpunkte, um den Zwischenpunkt vorherzusagen, und diese erzeugen daher viel Rauschen.

Beachten Sie, dass die Abweichung an einem einzelnen Punkt gemessen wird. Es ist egal, ob es positiv oder negativ ist. Es ist immer noch ein Bias bei jedem gegebenen x. Die über alle x-Werte gemittelten Vorspannungen sind wahrscheinlich klein, aber das macht es nicht unvoreingenommen.

Noch ein Beispiel. Angenommen, Sie versuchen, die Temperatur an bestimmten Orten in den USA zu einem bestimmten Zeitpunkt vorherzusagen. Nehmen wir an, Sie haben 10.000 Trainingspunkte. Wiederum können Sie ein Modell mit niedriger Varianz erhalten, indem Sie etwas Einfaches tun, indem Sie einfach den Durchschnitt zurückgeben. Aber dies wird im Bundesstaat Florida niedrig und im Bundesstaat Alaska hoch voreingenommen sein. Sie wären besser, wenn Sie den Durchschnitt für jeden Staat verwenden würden. Aber selbst dann werden Sie im Winter hoch und im Sommer niedrig voreingenommen sein. Nun fügen Sie den Monat in Ihr Modell ein. Aber Sie werden im Death Valley und auf dem Mt. Shasta immer noch voreingenommen sein. Nun gelangen Sie zur Postleitzahl-Granularitätsstufe. Wenn Sie dies jedoch fortsetzen, um die Verzerrung zu verringern, gehen Ihnen die Datenpunkte aus. Möglicherweise haben Sie für eine bestimmte Postleitzahl und einen bestimmten Monat nur einen Datenpunkt. Offensichtlich wird dies viel Varianz erzeugen. Sie sehen also, dass ein komplizierteres Modell die Verzerrung auf Kosten der Varianz verringert.

Sie sehen also, dass es einen Kompromiss gibt. Modelle, die glatter sind, weisen eine geringere Varianz in den Trainingsmustern auf, erfassen jedoch nicht die tatsächliche Form der Kurve. Modelle, die weniger glatt sind, können die Kurve besser erfassen, jedoch auf Kosten der Rauschunterdrückung. Irgendwo in der Mitte befindet sich ein Goldlöckchen-Modell, das einen akzeptablen Kompromiss zwischen den beiden darstellt.

— Dave31415
quelle

0

Stellen Sie sich vor, die Modellerstellungsaufgabe könnte für verschiedene Trainingsdatensätze wiederholt werden, dh, wir trainieren jedes Mal ein neues Modell für einen anderen Datensatz (siehe Abbildung unten). Wenn wir einen Testdatenpunkt festlegen und die Modellvorhersage an diesem Punkt auswerten, werden die Vorhersagen aufgrund der Zufälligkeit bei der Modellgenerierung variiert. Aus der folgenden Abbildung für diese Situation sind P_1, P_2, ..., P_n unterschiedliche Vorhersagen und auch zufällig.

Der Mittelwert der Vorhersagen sei -

Der Vorspannungsfehler ist auf die Differenz zwischen dem Mittelwert dieser Vorhersagen und dem korrekten Wert zurückzuführen.

Varianzfehler ist nichts anderes als die Varianz in diesen Vorhersagen, dh wie unterschiedlich diese Vorhersagen sind.

Dies ist die Intuition hinter Bias- und Varianzfehlern.

Für eine detaillierte Erklärung besuchen Sie die rechte Intuition hinter dem Bias-Varianz-Kompromiss

— Pradeep Bansal
quelle