Warum Regularisierung in der Polynomregression verwenden, anstatt den Grad zu senken?

32

Wenn Sie beispielsweise eine Regression durchführen, müssen häufig zwei Hyperparameter ausgewählt werden: die Kapazität der Funktion (z. B. der größte Exponent eines Polynoms) und der Grad der Regularisierung. Was mich verwirrt, ist, warum nicht einfach eine Funktion mit geringer Kapazität wählen und dann jegliche Regularisierung ignorieren? Auf diese Weise wird es nicht überpassen. Wenn ich zusammen mit der Regularisierung eine Funktion mit hoher Kapazität habe, ist das nicht dasselbe wie eine Funktion mit niedriger Kapazität und ohne Regularisierung?

— Karnivaurus
quelle

49

Ich habe kürzlich eine kleine Browser-App erstellt, mit der Sie mit den folgenden Ideen spielen können: Scatterplot Smoothers (*).

Hier sind einige Daten, die ich mit einer Polynomanpassung niedrigen Grades zusammengestellt habe

$0.6$ $0.85$ $0.85$

Um uns von Verzerrungen zu befreien, können wir den Grad der Kurve auf drei erhöhen, aber das Problem bleibt, die kubische Kurve ist immer noch zu starr

Also erhöhen wir den Grad weiter, aber jetzt haben wir das gegenteilige Problem

Diese Kurve verfolgt die Daten zu genau und tendiert dazu, in Richtungen zu fliegen, die durch allgemeine Muster in den Daten nicht so gut untermauert werden. Hier kommt die Regularisierung ins Spiel. Mit der gleichen Gradkurve (zehn) und einigen gut gewählten Regularisierungen

Wir bekommen eine wirklich schöne Passform!

Es lohnt sich, sich ein wenig auf einen der oben genannten Aspekte zu konzentrieren . Wenn Sie Polynome an Daten anpassen, haben Sie eine diskrete Auswahl an Abstufungen. Wenn eine Kurve mit Grad drei nicht fit ist und eine Kurve mit Grad vier überfit ist, können Sie nicht in die Mitte gehen. Die Regularisierung löst dieses Problem, da Sie ständig mit einer Reihe von Komplexitätsparametern spielen können.

wie behauptest du "Wir bekommen eine wirklich schöne Passform!" Für mich sehen sie alle gleich aus, nämlich nicht schlüssig. Welches Rational verwenden Sie, um zu entscheiden, was eine gute und eine schlechte Passform ist?

Gutes Argument.

Die Annahme, die ich hier mache, ist, dass ein gut angepasstes Modell kein erkennbares Muster in den Residuen haben sollte. Jetzt zeichne ich nicht die Residuen, also musst du ein bisschen arbeiten, wenn du dir die Bilder ansiehst, aber du solltest in der Lage sein, deine Vorstellungskraft zu nutzen.

Im ersten Bild sehe ich, wenn die quadratische Kurve an die Daten angepasst ist, das folgende Muster in den Residuen

Von 0,0 bis 0,3 sind sie ungefähr gleichmäßig über und unter der Kurve angeordnet.
Von 0,3 bis etwa 0,55 liegen alle Datenpunkte über der Kurve.
Von 0,55 bis etwa 0,85 liegen alle Datenpunkte unterhalb der Kurve.
Ab 0,85 liegen sie wieder alle über der Kurve.

Ich würde diese Verhaltensweisen als lokale Verzerrung bezeichnen . Es gibt Regionen, in denen die Kurve den bedingten Mittelwert der Daten nicht gut annähert.

Vergleichen Sie dies mit der letzten Passung mit dem kubischen Spline. Ich kann keine Bereiche mit dem Auge erkennen, in denen die Anpassung nicht so aussieht, als würde sie genau durch den Massenmittelpunkt der Datenpunkte verlaufen. Dies ist im Allgemeinen (wenn auch ungenau) das, was ich unter einer guten Passform verstehe.

$2$

Ihr Verhalten an den Grenzen Ihrer Daten kann selbst bei Regularisierung sehr chaotisch sein.
Sie sind in keiner Weise lokal . Das Ändern Ihrer Daten an einem Ort kann sich erheblich auf die Anpassung an einen anderen Ort auswirken.

Ich empfehle stattdessen in einer Situation wie Sie sie beschreiben, natürliche kubische Splines zusammen mit Regularisierung zu verwenden, die den besten Kompromiss zwischen Flexibilität und Stabilität bieten . Sie können sich selbst davon überzeugen, indem Sie einige Splines in die App einfügen.

(*) Ich glaube, dass dies nur in Chrome und Firefox funktioniert, da ich einige moderne Javascript-Funktionen verwende (und insgesamt faul bin, dies in Safari und anderen Fällen zu beheben). Der Quellcode ist hier , wenn Sie interessiert sind.

— Matthew Drury
quelle

3

Vielen Dank, und Ihr Browser-Tool ist fantastisch - ich liebe solche kleinen interaktiven Demos!

— Karnivaurus

@ Karnivaurus Danke, ich bin froh, dass ich helfen konnte. Das Tool hat Spaß gemacht zu bauen, ich schreibe gerne Javascript :)

— Matthew Drury

3

+6. Gute Arbeit beim Schreiben dieses Tools! Du bekommst ein Kopfgeld von mir, wenn der Faden alt genug ist, um ein Kopfgeld darauf zu setzen.

— Amöbe sagt Reinstate Monica

4

+1 Das ist eine wirklich gute Antwort. Eine Möglichkeit, die Instabilität der hochgradigen Polynomanpassung zu zeigen, besteht darin, die Regression höherer Ordnung mit einem entfernten Datenpunkt für jeden Punkt aufzuzeichnen und dies der RCS-Lösung gegenüberzustellen.

— Sycorax sagt Reinstate Monica

1

@MatthewDrury "eingeschränkte kubische Splines" - Entschuldigung.

— Sycorax sagt Reinstate Monica

4

Nein, es ist nicht dasselbe. Vergleichen Sie beispielsweise ein Polynom zweiter Ordnung ohne Regularisierung mit einem Polynom vierter Ordnung. Letzterer kann große Koeffizienten für die dritte und vierte Potenz setzen, solange dies die Vorhersagegenauigkeit zu erhöhen scheint, je nachdem, welches Verfahren zur Auswahl der Strafgröße für das Regularisierungsverfahren verwendet wird (wahrscheinlich Kreuzvalidierung). Dies zeigt, dass einer der Vorteile der Regularisierung darin besteht, dass Sie die Komplexität des Modells automatisch anpassen können, um ein Gleichgewicht zwischen Über- und Unteranpassung herzustellen.

— Kodiologist
quelle

Wenn Sie jedoch einem Polynom vierter Ordnung eine Regularisierung hinzufügen, wird verhindert, dass es das volle Ausmaß seiner Ausdruckskraft ausnutzt. Bei einer ausreichenden Regularisierung wird die Ausdruckskraft auf den Punkt reduziert, an dem sie so aussagekräftig ist wie ein Polynom zweiter Ordnung. Nein?

— Karnivaurus

1

Vielleicht, wenn Sie Ihre Strafe im Voraus festgelegt haben, aber was hat das für einen Sinn? Die Strafgröße sollte basierend auf den Daten gewählt werden.

— Kodiologist

4

Bei Polynomen können bereits kleine Änderungen der Koeffizienten für die höheren Exponenten einen Unterschied ausmachen.

$L_2$

— mathreadler
quelle

2

Alle Antworten sind großartig und ich habe ähnliche Simulationen mit Matt, um Ihnen ein weiteres Beispiel zu zeigen, warum ein komplexes Modell mit Regularisierung normalerweise besser ist als ein einfaches Modell .

Ich habe eine Analogie gemacht, um eine intuitive Erklärung zu haben.

Fall 1 Sie haben nur einen Schüler mit begrenzten Kenntnissen (ein einfaches Modell ohne Regularisierung)
Fall 2: Sie haben einen Doktoranden, beschränken ihn jedoch darauf, nur die Kenntnisse der Highschool zur Lösung von Problemen zu verwenden. (komplexes Modell mit Regularisierung)

Wenn zwei Personen das gleiche Problem lösen, arbeiten in der Regel die Doktoranden besser an der Lösung, da die Erfahrung und die Einsichten über das Wissen.

In Abbildung 1 sind 4 Anschlüsse zu denselben Daten dargestellt. 4 Beschläge sind Schnur, Parabel, Modell 3. Ordnung und Modell 5. Ordnung. Sie können beobachten, dass das Modell 5. Ordnung möglicherweise ein Überpassungsproblem aufweist.

Andererseits werden wir im zweiten Experiment ein Modell 5. Ordnung mit unterschiedlichem Regularisierungsgrad verwenden. Vergleichen Sie das letzte mit dem Modell zweiter Ordnung. (zwei Modelle sind hervorgehoben) Sie werden feststellen, dass das letzte Modell der Parabel ähnlich ist (ungefähr die gleiche Modellkomplexität aufweist), jedoch etwas flexibler für die Datenquelle ist.

— Haitao Du
quelle

1

"in etwa die gleiche Modellkomplexität haben" ... das ist visuell der "offensichtliche" Vergleich, gibt es eine mathematische Methode, dies zu messen?

— Silverfish