Überanpassung und Unteranpassung


20

Ich habe einige Nachforschungen über Über- und Unteranpassung angestellt und ich habe verstanden, was sie genau sind, aber ich kann die Gründe nicht finden.

Was sind die Hauptgründe für Über- und Unterausstattung?

Warum treten diese beiden Probleme beim Trainieren eines Modells auf?


Antworten:


30

Ich werde versuchen, auf einfachste Weise zu antworten. Jedes dieser Probleme hat seinen eigenen Hauptursprung:

Überanpassung: Daten sind verrauscht, was bedeutet, dass es Abweichungen von der Realität gibt (aufgrund von Messfehlern, einflussreichen Zufallsfaktoren, nicht beobachteten Variablen und Abfallkorrelationen), die es uns erschweren, ihre wahre Beziehung zu unseren erklärenden Faktoren zu erkennen. Außerdem ist es normalerweise nicht vollständig (wir haben nicht Beispiele für alles).

Nehmen wir zum Beispiel an, ich versuche, Jungen und Mädchen nach ihrer Größe zu klassifizieren, nur weil dies die einzigen Informationen sind, die ich über sie habe. Wir alle wissen, dass Jungen zwar im Durchschnitt größer sind als Mädchen, es jedoch einen großen Überlappungsbereich gibt, der es unmöglich macht, sie mit dieser Information perfekt voneinander zu trennen. Abhängig von der Dichte der Daten kann ein ausreichend komplexes Modell möglicherweise eine bessere Erfolgsrate für diese Aufgabe erzielen, als dies für das Training theoretisch möglich istDatensatz, weil er Grenzen zeichnen könnte, die es einigen Punkten erlauben, für sich allein zu stehen. Wenn wir also nur eine Person haben, die 2,04 Meter groß ist und eine Frau, dann könnte das Modell einen kleinen Kreis um diesen Bereich zeichnen, was bedeutet, dass eine zufällige Person, die 2,04 Meter groß ist, höchstwahrscheinlich eine Frau ist.

Der Grund dafür ist, dass man zu viel auf Trainingsdaten vertraut (und in dem Beispiel heißt es, dass es keinen Mann mit einer Größe von 2,04 gibt, dann ist dies nur für Frauen möglich).

Underfitting ist das gegenteilige Problem, bei dem das Modell die realen Komplexitäten in unseren Daten (dh die nicht zufälligen Änderungen in unseren Daten) nicht erkennt. Das Modell geht davon aus, dass das Rauschen größer ist als es tatsächlich ist, und verwendet daher eine zu vereinfachte Form. Wenn der Datensatz also aus irgendeinem Grund viel mehr Mädchen als Jungen enthält, kann das Modell sie einfach alle als Mädchen klassifizieren.

In diesem Fall hat das Modell nicht genügend Vertrauen in Daten und es wurde lediglich angenommen, dass alle Abweichungen Rauschen sind (und im Beispiel wird davon ausgegangen, dass Jungen einfach nicht existieren).

Fazit ist, dass wir mit diesen Problemen konfrontiert sind, weil:

  • Wir haben keine vollständigen Informationen.
  • Wir wissen nicht, wie verrauscht die Daten sind (wir wissen nicht, wie sehr wir ihnen vertrauen sollten).
  • Wir kennen die zugrunde liegende Funktion, die unsere Daten generiert hat, und damit die optimale Modellkomplexität nicht im Voraus.

2
Willkommen zum Lebenslauf. nette antwort, was mich dazu bringt meine
antwort

1
Ich denke, dass der Teil in Bezug auf "Zeichnen von Grenzen" und "Kreise" etwas verwirrend ist ...
Easymode44

Ich würde nur argumentieren, dass das Beispiel der Vorhersage der Körpergröße zwischen Männern und Frauen eher unter- als überfällt.
Digio

6

Überanpassung liegt vor, wenn ein Modell die Variable, die Sie modellieren, anhand der Originaldaten gut einschätzt, bei neuen Datensätzen jedoch nicht gut einschätzt (Hold-out, Kreuzvalidierung, Prognose usw.). Sie haben zu viele Variablen oder Schätzer in Ihrem Modell (Dummy-Variablen usw.), und diese führen dazu, dass Ihr Modell für das Rauschen in Ihren Originaldaten zu empfindlich wird. Aufgrund der Überanpassung des Rauschens in Ihren Originaldaten ist die Vorhersage des Modells schlecht.

Unteranpassung liegt vor, wenn ein Modell die Variable weder in den Originaldaten noch in den neuen Daten gut einschätzt. In Ihrem Modell fehlen einige Variablen, die erforderlich sind, um das Verhalten Ihrer abhängigen Variablen besser abzuschätzen und vorherzusagen.

Der Spagat zwischen Über- und Unteranpassung ist herausfordernd und manchmal ohne klare Ziellinie. In der Modellierung ökonometrischer Zeitreihen wird dieses Problem mit Regularisierungsmodellen (LASSO, Ridge Regression, Elastic-Net), die speziell auf die Reduzierung von Überanpassungen ausgerichtet sind, indem die Anzahl der Variablen in Ihrem Modell reduziert wird und die Empfindlichkeit der Koeffizienten auf reduziert wird, ziemlich gut gelöst Ihre Daten oder eine Kombination aus beiden.


5

Vielleicht sind Sie bei Ihrer Recherche auf folgende Gleichung gestoßen:

Error = IrreducibleError + Bias² + Variance.

Warum treten diese beiden Probleme beim Trainieren eines Modells auf?

Das Lernproblem selbst ist im Grunde ein Kompromiss zwischen Voreingenommenheit und Varianz .

Was sind die Hauptgründe für Über- und Unterausstattung?

Kurz: Lärm.

Long: Der irreduzible Fehler : Messfehler / Schwankungen in den Daten sowie der Teil der Zielfunktion, der vom Modell nicht dargestellt werden kann. Durch erneutes Messen der Zielvariablen oder Ändern des Hypothesenraums (dh Auswählen eines anderen Modells) wird diese Komponente geändert.

Bearbeiten (um auf die anderen Antworten zu verweisen): Modellleistung als Komplexität variiert:

.

Dabei ist errorD der Fehler über die gesamte Verteilung D (in der Praxis geschätzt mit Testsätzen).


3
Ich denke, Sie sollten Ihre Terminologie definieren. OP verwendet in der Frage nicht die Begriffe "Voreingenommenheit" oder "Varianz", Sie verwenden in Ihrer Antwort nicht die Begriffe "Überanpassung" oder "Unteranpassung" (außer in einem Zitat der Frage). Ich denke, dies wäre eine viel klarere Antwort, wenn Sie die Beziehung zwischen diesen Begriffen erläutern.
Gregor

4

Fast alle statistischen Probleme können in der folgenden Form angegeben werden:

  1. (y,x)f^y^=f^(x)

  2. f^ff

y=f(x)+ε

f^y^yf^εff

f^f~f

Wenn Sie das statistische Problem so betrachten, ist die Anpassung des Modells immer ein Gleichgewicht zwischen Unter- und Überanpassung, und jede Lösung ist immer ein Kompromiss. Wir sind mit diesem Problem konfrontiert, weil unsere Daten zufällig und verrauscht sind.


2

Was sind die Hauptgründe für Über- und Unterausstattung?

Für eine Überanpassung ist das Modell zu komplex, um die Trainingsdaten gut anzupassen. Für eine Unteranpassung ist das Modell zu einfach.

Warum treten diese beiden Probleme beim Trainieren eines Modells auf?

Es ist schwierig, das "genau richtige" Modell und die richtigen Parameter für die Daten auszuwählen.


0

Über- und Unteranpassung sind grundsätzlich unzureichende Erklärungen der Daten durch ein hypothetisches Modell und können als das Modell angesehen werden, das die Daten über- oder untererläutert. Dies ergibt sich aus der Beziehung zwischen dem zur Erläuterung der Daten verwendeten Modell und dem die Daten generierenden Modell. Bei unserem Erklärungsversuch können wir nicht auf das zugrunde liegende Modell zugreifen, sodass unser Urteil von einem anderen Faktor geleitet wird: den Unsicherheiten oder Fehlerbalken.

Wenn wir versuchen, die Varianz vollständig anzupassen, verwenden wir ein zu komplexes Modell, das wir überanpassen. Dies wird dadurch verursacht, dass wir bei der Auswahl des Modells freie Hand haben und den Fehlerbalken zu viel Bedeutung beimessen (oder versuchen, alle Variabilitäten zu erklären, die gleich sind). Wenn wir uns auf ein Modell beschränken, das zu einfach ist, um die Daten zu beschreiben, und den Fehlerbalken nicht genügend Bedeutung beimessen (oder die Variabilität nicht erklären), passen wir nicht zusammen.

Wie kann man diese beiden vermeiden? Informationsgestützte Modelle (nicht aus den Daten abgeleitet, sondern aus Vorkenntnissen des Problems) und bedeutsame Unsicherheiten.


0

Kurz gesagt, Überanpassung tritt als Folge von Mustern auf, die in Ihrem Trainingsdatensatz enthalten sind, jedoch nicht in der gesamten Population vorhanden sind (sie sind nicht von Erfolg gekrönt) ist gering, da die Anzahl der möglichen Muster, die erkannt werden können, gering ist und daher die Wahrscheinlichkeit, dass eines der zufällig in der Stichprobe angezeigten Muster auch nicht so groß ist. Ein Beispiel hierfür kann sein, wenn Sie versuchen, Korrelationen von 1.000.000 Variablen in einer Population zu untersuchen, in der eine Stichprobe von 100 Personen entnommen wird. Einige der Merkmale können zufällig eine große Stichprobenkorrelation aufweisen, obwohl sie vollständig unabhängig voneinander sind

Ein weiterer Grund für eine Überanpassung ist die voreingenommene Probenahme (die "Muster-Fälschungen" sind vorhanden, weil die Stichprobe nicht wirklich zufällig ist). Zum Beispiel, wenn Sie die durchschnittliche Größe einer bestimmten Pilzsorte untersuchen möchten, indem Sie dorthin gehen und sie in der Natur finden , Sie werden es wahrscheinlich überschätzen (größere Pilze sind leichter zu finden)

Underfitting ist dagegen ein ganz einfacheres Phänomen. Dies kann zwei grundlegende Dinge bedeuten: A) Wir haben nicht genügend Daten für das Modell, um das Populationsmuster zu lernen, oder B) Unser Modell ist nicht leistungsfähig genug, um es widerzuspiegeln.

y=ax+ϵϵ

y=x2+ϵ


0

Kurze Antwort:

Der Hauptgrund für eine Überanpassung ist die Verwendung eines komplexen Modells bei einem kleinen Trainingssatz.

Der Hauptgrund für die Unteranpassung ist die Verwendung eines Modells, das zu einfach ist und mit dem Trainingssatz keine guten Ergebnisse erzielt .


Hauptgrund für Überanpassung?

  • Modelle mit hoher Kapazität können übermäßig angepasst werden, indem Eigenschaften des Trainingssatzes gespeichert werden, die ihnen auf dem Testsatz nicht gut dienen.

-Deep Learning-Buch, Goodfellow et al.

Das Ziel des maschinellen Lernens ist es, ein Modell für das Trainingsset zu trainieren, in der Hoffnung, dass es mit den Testdaten genauso gut abschneidet. Aber bedeutet eine gute Leistung auf dem Trainingssatz immer auch eine gute Leistung auf dem Testsatz? Es wird nicht, weil Ihre Trainingsdaten begrenzt sind . Wenn Sie nur über begrenzte Daten verfügen, werden in Ihrem Modell möglicherweise einige Muster gefunden, die für diesen begrenzten Trainingssatz geeignet sind. Diese Muster lassen sich jedoch nicht auf andere Fälle (dh Testsätze) übertragen. Dies kann entweder gelöst werden durch:

A - Bereitstellung eines größeren Trainingssatzes für das Modell, um die Wahrscheinlichkeit von willkürlichen Mustern im Trainingssatz zu verringern.

B- Verwenden eines einfacheren Modells, damit das Modell diese willkürlichen Muster im Trainingssatz nicht finden kann. Ein komplexeres Modell kann kompliziertere Muster finden. Sie benötigen also mehr Daten, um sicherzustellen, dass Ihr Trainingssatz groß genug ist, um keine willkürlichen Muster zu enthalten.

(Stellen Sie sich beispielsweise vor, Sie möchten einem Modell das Erkennen von Schiffen von Lastwagen beibringen, und Sie haben jeweils 10 Bilder. Wenn sich die meisten Schiffe in Ihren Bildern im Wasser befinden, lernt Ihr Modell möglicherweise, ein Bild mit blauem Hintergrund als Schiff zu klassifizieren anstatt zu lernen, wie ein Schiff aussieht. Wenn Sie 10.000 Bilder von Schiffen und Lastwagen haben, enthält Ihr Trainingsset mit größerer Wahrscheinlichkeit Schiffe und Lastwagen mit verschiedenen Hintergründen, und Ihr Modell kann sich nicht mehr nur auf den blauen Hintergrund verlassen.)

Hauptgrund für Unteranpassung?

  • Eine Unteranpassung tritt auf, wenn das Modell keinen ausreichend niedrigen Fehlerwert auf dem Trainingssatz erhalten kann.

  • Modelle mit geringer Kapazität können Probleme haben, in das Trainingsset zu passen.

-Deep Learning-Buch, Goodfellow et al.

Unteranpassung tritt auf, wenn Ihr Modell nicht gut genug ist, um das Trainingsset zu erlernen, was bedeutet, dass Ihr Modell zu einfach ist. Wann immer wir anfangen, ein Problem zu lösen, wollen wir ein Modell, das zumindest eine gute Leistung im Trainingssatz erzielt, und dann denken wir darüber nach, die Überanpassung zu reduzieren. Im Allgemeinen ist die Lösung für die Unteranpassung ziemlich einfach: Verwenden Sie ein komplexeres Modell.


0

Betrachten Sie ein Beispiel, in dem wir eine Hypothese / Modellgleichung haben,

y=q*X+c,

Wobei X = Merkmalsliste, y = Bezeichnung und q und c die Koeffizienten sind, die wir trainieren müssen.

Wenn wir die Koeffizientenwerte so einstellen, dass sie groß genug sind, und in einem solchen Fall den Merkmalswert (dh X) unterdrücken, erhalten wir immer den konstanten Wert von y, unabhängig von einem X-Wert. Dies wird als hochgradig voreingenommenes oder nicht voll ausgestattetes Modell bezeichnet.

Betrachten Sie ein weiteres Beispiel für eine komplexe Hypothese:

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

Nachdem wir den besten Koeffizientenwert ermittelt haben, ist es möglich, dass wir für die Trainingsdaten den minimalen Verlust erhalten. Nur weil wir unser Modell so komplex und eng gekoppelt haben, dass es sich sehr gut mit den Trainingsdaten verhält. Wobei mit den unsichtbaren Daten ziemlich gegensätzliche Ergebnisse erzielt werden können. Dies wird als stark variiertes oder überanpassendes Modell bezeichnet.

Ein voreingenommenes Modell erfordert mehr Komplexität bei der Modellauswahl, wohingegen ein stark variiertes Modell weniger Komplexität bei der Modellauswahl erfordert. Die Regularisierungstechnik kann uns dabei helfen, das richtige Maß an Modellkomplexität zu identifizieren, und durch diese Technik können wir beide Probleme lösen.


Sie können die mathematische Formatierung in Ihrer Antwort verwenden. Weitere Informationen: math.meta.stackexchange.com/questions/5020/…
Sycorax sagt Reinstate Monica
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.