Flexible und unflexible Modelle beim maschinellen Lernen

10

Ich stieß auf eine einfache Frage zum Vergleich flexibler Modelle (dh Splines) mit unflexiblen Modellen (z. B. lineare Regression) unter verschiedenen Szenarien. Die Frage ist:

Erwarten wir im Allgemeinen, dass die Leistung einer flexiblen statistischen Lernmethode besser oder schlechter abschneidet als eine unflexible Methode, wenn:

Die Anzahl der Prädiktoren $p$ ist extrem groß und die Anzahl der Beobachtungen $n$ ist klein?
Die Varianz der Fehlerterme, dh , ist extrem hoch? $σ^2 = \text{Var}(e)$

Ich denke für (1), wenn klein ist, sind unflexible Modelle besser (nicht sicher). Für (2) weiß ich nicht, welches Modell (relativ) besser ist. $n$

machine-learning model

— ein kleiner Junge
quelle

Generalisierungsfehler sind alles andere als trivial. Leider helfen Faustregeln in dieser Hinsicht nicht viel.

— Marc Claesen

8

Sieht so aus, als wäre dies aus James, Witten, Hastie, Tibshiranis Einführung in das statistische Lernen

— Noel Evans

1. Eine flexible Methode würde die geringe Anzahl von Beobachtungen übertreffen. 2. Eine flexible Methode passt sich dem Rauschen in den Fehlerbegriffen an und erhöht die Varianz.

— Zanark

3

In diesen beiden Situationen hängt die flexible und unflexible Vergleichsleistung auch von folgenden Faktoren ab:

ist die wahre Beziehung y = f (x) nahe an der Linearität oder sehr nichtlinear;
Stimmen Sie den Flexibilitätsgrad des "flexiblen" Modells beim Anpassen ab?

Wenn die Beziehung nahezu linear ist und Sie die Flexibilität nicht einschränken, sollte das lineare Modell in beiden Fällen einen besseren Testfehler ergeben, da das flexible Modell in beiden Fällen wahrscheinlich überpasst.

Sie können es so betrachten:

In beiden Fällen enthalten die Daten nicht genügend Informationen über die wahre Beziehung (im ersten Fall ist die Beziehung hochdimensional und Sie haben nicht genügend Daten, im zweiten Fall sind sie durch Rauschen verfälscht), aber
- Das lineare Modell liefert einige externe Vorinformationen über die wahre Beziehung (beschränken Sie die Klasse der angepassten Beziehungen auf die linearen) und
- Diese vorherige Information stellt sich als richtig heraus (die wahre Beziehung ist nahezu linear).
Während das flexible Modell keine vorherigen Informationen enthält (es kann für alles passen), passt es zum Rauschen.

Wenn jedoch die wahre Beziehung sehr nicht linear ist, ist es schwer zu sagen, wer gewinnen wird (beide verlieren :)).

Wenn Sie den Grad der Flexibilität einstellen / einschränken und dies richtig machen (z. B. durch Kreuzvalidierung), sollte das flexible Modell in allen Fällen gewinnen.

— Kochede
quelle

4

Natürlich hängt es von den zugrunde liegenden Daten ab, die Sie immer untersuchen sollten, um einige ihrer Merkmale herauszufinden, bevor Sie versuchen, ein Modell anzupassen, aber was ich als allgemeine Faustregeln gelernt habe, sind:

Mit einem flexiblen Modell können Sie eine große Stichprobengröße (großes n) voll ausnutzen.
Ein flexibles Modell ist erforderlich, um den nichtlinearen Effekt zu ermitteln.
Ein flexibles Modell führt dazu, dass Sie zu viel Rauschen in das Problem einpassen (wenn die Varianz der Fehlerterme hoch ist).

— Paul PM
quelle

1

Nun, für den zweiten Teil denke ich, dass ein flexibleres Modell versuchen wird, das Modell hart anzupassen, und die Trainingsdaten ein hohes Rauschen enthalten. Daher wird das flexible Modell auch versuchen, dieses Rauschen zu lernen und zu mehr Testfehlern führen. Ich kenne die Quelle dieser Frage, da ich auch das gleiche Buch lese :)

— Liebeskesh
quelle

1

Für den ersten Teil würde ich erwarten, dass das unflexible Modell mit einer begrenzten Anzahl von Beobachtungen eine bessere Leistung erbringt. Wenn n sehr klein ist, würden beide Modelle (ob flexibel oder unflexibel) keine ausreichend gute Vorhersage liefern. Das flexible Modell würde jedoch tendenziell zu einer Überanpassung der Daten führen und bei einem neuen Testset eine schlechtere Leistung erbringen.

Im Idealfall würde ich mehr Beobachtungen sammeln, um die Anpassung zu verbessern. Wenn dies jedoch nicht der Fall ist, würde ich das unflexible Modell verwenden und versuchen, einen Testfehler mit einem neuen Testset zu minimieren.

— user40935
quelle

0

Bei der zweiten Frage glaube ich, dass die Antwort lautet, dass beide gleich gut abschneiden (vorausgesetzt, diese Fehler sind nicht reduzierbar, dh dieser Fehler). Weitere Informationen finden Sie in Eine Einführung in das statistische Lernen auf Seite 18 (Thema: Warum schätzen ), wo der Autor das Sprichwort erklärt $f$

Die Genauigkeit von als Vorhersage für hängt von zwei Größen ab, die wir den reduzierbaren Fehler und den irreduziblen Fehler nennen werden . Im Allgemeinen ist keine perfekte Schätzung für , und diese Ungenauigkeit führt zu Fehlern. Dieser Fehler ist reduzierbar, da wir möglicherweise die Genauigkeit von verbessern können, indem wir die am besten geeignete statistische Lerntechnik verwenden, um zu schätzen . Selbst wenn es möglich wäre, eine perfekte Schätzung für , so dass unsere geschätzte Antwort die Form $Y$ $Y$ $\hat f$ $f$ $\hat f$ $\hat f$ $f$ $\hat Y = f(X)$ Unsere Vorhersage hätte immer noch einen Fehler! Dies liegt daran, dass auch eine Funktion von , die per Definition nicht mit vorhergesagt werden kann . Daher beeinflusst die mit verbundene Variabilität auch die Genauigkeit unserer Vorhersagen. Dies ist als irreduzibler Fehler bekannt, da wir den durch eingeführten Fehler nicht reduzieren können , egal wie gut wir schätzen . $Y$ $\epsilon$ $X$ $\epsilon$ $f$ $\epsilon$

— ants.in.my.eyes
quelle

Ich verstehe das nicht

— Michael R. Chernick

0

Geben Sie für jeden der Teile (a) bis (d) an, ob i. oder ii. ist richtig und erklären Sie Ihre Antwort. Erwarten wir im Allgemeinen, dass die Leistung einer flexiblen statistischen Lernmethode besser oder schlechter abschneidet als eine unflexible Methode, wenn:

Die Stichprobengröße n ist extrem groß und die Anzahl der Prädiktoren p ist klein?

Besser. Eine flexible Methode passt die Daten näher an und würde mit der großen Stichprobengröße eine bessere Leistung erzielen als ein unflexibler Ansatz.

Die Anzahl der Prädiktoren p ist extrem groß und die Anzahl der Beobachtungen n ist klein?

Schlechter. Eine flexible Methode würde die geringe Anzahl von Beobachtungen übertreffen.

Die Beziehung zwischen den Prädiktoren und der Antwort ist stark nichtlinear?

Besser. Mit mehr Freiheitsgraden würde eine flexible Methode besser passen als eine unflexible.

Die Varianz der Fehlerterme, dh σ2 = Var (ε), ist extrem hoch?

Schlechter. Eine flexible Methode würde in den Fehlerbedingungen zum Rauschen passen und die Varianz erhöhen.

Von hier genommen .

— Harvey
quelle