Ich habe kürzlich eine kleine Browser-App erstellt, mit der Sie mit den folgenden Ideen spielen können: Scatterplot Smoothers (*).
Hier sind einige Daten, die ich mit einer Polynomanpassung niedrigen Grades zusammengestellt habe
0,60,850,85
Um uns von Verzerrungen zu befreien, können wir den Grad der Kurve auf drei erhöhen, aber das Problem bleibt, die kubische Kurve ist immer noch zu starr
Also erhöhen wir den Grad weiter, aber jetzt haben wir das gegenteilige Problem
Diese Kurve verfolgt die Daten zu genau und tendiert dazu, in Richtungen zu fliegen, die durch allgemeine Muster in den Daten nicht so gut untermauert werden. Hier kommt die Regularisierung ins Spiel. Mit der gleichen Gradkurve (zehn) und einigen gut gewählten Regularisierungen
Wir bekommen eine wirklich schöne Passform!
Es lohnt sich, sich ein wenig auf einen der oben genannten Aspekte zu konzentrieren . Wenn Sie Polynome an Daten anpassen, haben Sie eine diskrete Auswahl an Abstufungen. Wenn eine Kurve mit Grad drei nicht fit ist und eine Kurve mit Grad vier überfit ist, können Sie nicht in die Mitte gehen. Die Regularisierung löst dieses Problem, da Sie ständig mit einer Reihe von Komplexitätsparametern spielen können.
wie behauptest du "Wir bekommen eine wirklich schöne Passform!" Für mich sehen sie alle gleich aus, nämlich nicht schlüssig. Welches Rational verwenden Sie, um zu entscheiden, was eine gute und eine schlechte Passform ist?
Gutes Argument.
Die Annahme, die ich hier mache, ist, dass ein gut angepasstes Modell kein erkennbares Muster in den Residuen haben sollte. Jetzt zeichne ich nicht die Residuen, also musst du ein bisschen arbeiten, wenn du dir die Bilder ansiehst, aber du solltest in der Lage sein, deine Vorstellungskraft zu nutzen.
Im ersten Bild sehe ich, wenn die quadratische Kurve an die Daten angepasst ist, das folgende Muster in den Residuen
- Von 0,0 bis 0,3 sind sie ungefähr gleichmäßig über und unter der Kurve angeordnet.
- Von 0,3 bis etwa 0,55 liegen alle Datenpunkte über der Kurve.
- Von 0,55 bis etwa 0,85 liegen alle Datenpunkte unterhalb der Kurve.
- Ab 0,85 liegen sie wieder alle über der Kurve.
Ich würde diese Verhaltensweisen als lokale Verzerrung bezeichnen . Es gibt Regionen, in denen die Kurve den bedingten Mittelwert der Daten nicht gut annähert.
Vergleichen Sie dies mit der letzten Passung mit dem kubischen Spline. Ich kann keine Bereiche mit dem Auge erkennen, in denen die Anpassung nicht so aussieht, als würde sie genau durch den Massenmittelpunkt der Datenpunkte verlaufen. Dies ist im Allgemeinen (wenn auch ungenau) das, was ich unter einer guten Passform verstehe.
2
- Ihr Verhalten an den Grenzen Ihrer Daten kann selbst bei Regularisierung sehr chaotisch sein.
- Sie sind in keiner Weise lokal . Das Ändern Ihrer Daten an einem Ort kann sich erheblich auf die Anpassung an einen anderen Ort auswirken.
Ich empfehle stattdessen in einer Situation wie Sie sie beschreiben, natürliche kubische Splines zusammen mit Regularisierung zu verwenden, die den besten Kompromiss zwischen Flexibilität und Stabilität bieten . Sie können sich selbst davon überzeugen, indem Sie einige Splines in die App einfügen.
(*) Ich glaube, dass dies nur in Chrome und Firefox funktioniert, da ich einige moderne Javascript-Funktionen verwende (und insgesamt faul bin, dies in Safari und anderen Fällen zu beheben). Der Quellcode ist hier , wenn Sie interessiert sind.