Empirische Begründung für die eine Standardfehlerregel bei Verwendung der Kreuzvalidierung

Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre.

Die "Ein-Standard-Fehler-Regel" wird angewendet, wenn Modelle durch Kreuzvalidierung (oder allgemeiner durch ein zufallsbasiertes Verfahren) ausgewählt werden.

Angenommen, wir betrachten Modelle die durch einen Komplexitätsparameter indiziert sind , so dass genau dann "komplexer" ist als , wenn . Nehmen wir weiter an, dass wir die Qualität eines Modells durch einen Randomisierungsprozess, z. B. Kreuzvalidierung , bewerten . Es sei die "durchschnittliche" Qualität von , z. B. der mittlere Vorhersagefehler aus dem Sack über viele Kreuzvalidierungsläufe. Wir möchten diese Menge minimieren . $M_\tau$ $\tau\in\mathbb{R}$ $M_\tau$ $M_{\tau'}$ $\tau>\tau'$ $M$ $q(M)$ $M$

Da unser Qualitätsmaß jedoch aus einem Zufallsverfahren stammt, ist es mit einer Variabilität verbunden. Es sei der Standardfehler der Qualität von über die Randomisierungsläufe, z. B. die Standardabweichung des Out-of-Bag-Vorhersagefehlers von über Kreuzvalidierungsläufe. $s(M)$ $M$ $M$

Dann wählen wir das Modell , wobei das kleinste so dass $M_\tau$ $\tau$ $\tau$

q (M_{τ}) \leq q (M_{τ^{'}}) + s (M_{τ^{'}}),

$q(M_\tau)\leq q(M_{\tau'})+s(M_{\tau'}),$

Dabei indiziert das (durchschnittlich) beste Modell, . $\tau'$ $q(M_{\tau'})=\min_\tau q(M_\tau)$

Das heißt, wir wählen das einfachste Modell (das kleinste $\tau$ ), das nicht mehr als einen Standardfehler aufweist, der schlechter ist als das beste Modell $M_{\tau'}$ in der Randomisierungsprozedur.

Ich habe diese "eine Standardfehlerregel" gefunden, auf die an folgenden Stellen verwiesen wird, aber niemals mit einer ausdrücklichen Begründung:

Seite 80 in Klassifikations- und Regressionsbäume von Breiman, Friedman, Stone & Olshen (1984)
Seite 415 bei der Schätzung der Anzahl von Clustern in einem Datensatz über die Gap-Statistik von Tibshirani, Walther & Hastie ( JRSS B , 2001) (unter Bezugnahme auf Breiman et al.)
Seiten 61 und 244 in Elemente des statistischen Lernens von Hastie, Tibshirani & Friedman (2009)
Seite 13 in Statistisches Lernen mit Sparsamkeit von Hastie, Tibshirani & Wainwright (2015)

cross-validation model-selection regularization

— DavidShor
quelle

Obwohl ich weiß, worauf Sie sich bei "One Standard Error Rule" beziehen, vermute ich stark, dass viele Leute dies nicht tun, aber an dieser Frage interessiert wären, wenn sie dies tun würden. Vielleicht könnten Sie ein paar erklärende Sätze hinzufügen? (Nur ein Vorschlag ...)

— Jbowman

@jbowman: Ich habe gerade die Frage bearbeitet, um die eine Standardfehlerregel zu erläutern. Ich habe sie überarbeitet, da ich auch ziemlich daran interessiert bin ... und die Antwort unten beantwortet meine Fragen nicht wirklich. Jeder kann sich gerne verbessern.

— S. Kolassa - Wiedereinsetzung von Monica am

Related: stats.stackexchange.com/questions/138569

— Amöbe sagt Reinstate Monica

Es wäre ein schönes Thema für eine Zeitung. Es scheint eine vernünftige heuristische Technik zu sein, aber nicht alle SEHs funktionieren in der Praxis, daher wäre eine Studie über eine große Anzahl von Datensätzen interessant. Ich frage mich, ob es sich um ein Problem mit mehreren Hypothesentests handelt, das möglicherweise bedeutet, dass es nicht sehr gut kalibriert ist, aber ich hätte gedacht, es wäre besser, nichts bei Datensätzen zu tun, bei denen diese Art von Überoptimierung wahrscheinlich ein Problem ist Problem. Die Frage ist, ob dies die Leistung bei Datensätzen, bei denen es sich nicht um ein Problem handelt, erheblich verschlechtert.

— Dikran Beuteltier

Antworten:

Das Folgende ist keine empirische Studie, weshalb ich es ursprünglich als Kommentar veröffentlichen wollte, nicht als Antwort - aber es stellt sich heraus, dass es für einen Kommentar zu lang ist.

Cawley & Talbot ( J. of Machine Learning Research , 2010) machen auf den Unterschied zwischen Überanpassung während der Modellauswahlphase und Überanpassung während der Modellanpassungsphase aufmerksam.

Die zweite Art der Überanpassung ist die, mit der die meisten Menschen vertraut sind: Bei einem bestimmten Modell möchten wir es nicht überanpassen, dh es soll zu genau an die besonderen Eigenheiten des einzelnen Datensatzes angepasst werden, den wir normalerweise haben. ( Hier kann Schrumpfung / Regularisierung helfen, indem ein kleiner Anstieg der Verzerrung gegen einen großen Rückgang der Varianz getauscht wird. )

Cawley & Talbot argumentieren jedoch, dass wir bei der Modellauswahl genauso gut überanpassen können. Schließlich haben wir in der Regel immer noch nur einen einzigen Datensatz und entscheiden uns zwischen verschiedenen Modellen unterschiedlicher Komplexität. Das Bewerten jedes Kandidatenmodells, um eines auszuwählen, beinhaltet normalerweise das Anpassen dieses Modells, was durch Regularisierung erfolgen kann oder nicht. Aber diese Auswertung an sich ist wieder eine Zufallsvariable, da sie von dem spezifischen Datensatz abhängt, den wir haben. Unsere Wahl eines "optimalen" Modells kann an sich eine Verzerrung aufweisen und wird eine Varianz aufweisen, da dies von dem spezifischen Datensatz aus allen Datensätzen abhängt, die wir aus der Grundgesamtheit hätten ziehen können.

Cawley & Talbot argumentieren daher, dass die Auswahl des Modells, das bei dieser Bewertung am besten abschneidet, durchaus eine Auswahlregel mit geringer Verzerrung sein kann - sie kann jedoch große Varianz aufweisen. Das heißt, bei unterschiedlichen Trainingsdatensätzen aus demselben Datenerzeugungsprozess (DGP) kann diese Regel sehr unterschiedliche Modelle auswählen, die dann angepasst und zur Vorhersage in neuen Datensätzen verwendet werden, die wiederum demselben DGP folgen. Unter diesen Umständen kann die Einschränkung der Varianz des Modellauswahlverfahrens, jedoch eine geringe Neigung zu einfacheren Modellen, zu kleineren Fehlern außerhalb der Stichprobe führen.

Cawley & Talbot verbinden dies nicht explizit mit der Standardfehlerregel, und ihr Abschnitt über das Regularisieren der Modellauswahl ist sehr kurz. Die Ein-Standard-Fehlerregel würde jedoch genau diese Regularisierung durchführen und die Beziehung zwischen der Varianz bei der Modellauswahl und der Varianz des Out-of-Bag-Kreuzvalidierungsfehlers berücksichtigen.

Im Folgenden sehen Sie beispielsweise Abbildung 2.3 aus Statistical Learning with Sparsity von Hastie, Tibshirani & Wainwright (2015) . Die Modellauswahlvarianz ist durch die Konvexität der schwarzen Linie am Minimum gegeben. Hier ist das Minimum nicht sehr ausgeprägt, und die Linie ist eher schwach konvex, so dass die Modellauswahl bei hoher Varianz wahrscheinlich eher ungewiss ist. Und die Varianz der OOB CV-Fehlerschätzung wird natürlich durch die mehreren hellblauen Linien angegeben, die Standardfehler anzeigen.

— S. Kolassa - Setzen Sie Monica wieder ein
quelle

Haha, versuchen Sie diese Suche (oder fügen Sie einen Bindestrich in Ihre Suchanfrage ein).

— Amöbe sagt Reinstate Monica

Wenn Sie nur einen Regularisierungsparameter haben, ist diese Art der Überanpassung in der Regel nicht zu problematisch (da das Optimierungsproblem nur einen Freiheitsgrad hat), aber wenn Sie viele Regularisierungsparameter haben (z. B. automatische Relevanzbestimmung für neuronale Netze). dann kann es schnell sehr umfangreich werden. Die one sd-Methode ist eine nette Heuristik, um eine Überoptimierung des Regularisierungsparameters zu vermeiden, aber es wäre schön, etwas mit etwas mehr Rechtfertigung zu versuchen (1/2)

— Dikran Marsupial

Die beiden Ansätze, die wir (Frau Marsupial und ich) untersucht haben, sind die Regularisierung der Hyperparameter mit einem Hyper-Hyper-Parameter, der analytisch integriert wird ( jmlr.csail.mit.edu/papers/volume8/cawley07a/cawley07a.pdf) ) oder einige der Hyperparameter in Parameter umzuwandeln und sie auch direkt an die Daten anzupassen, auf Kosten des Hinzufügens eines zusätzlichen Regularisierungsparameters (dies verringert jedoch immer noch die Freiheitsgrade für die Modellauswahl, sodass es immer noch hilft) ( theoval.cmp.uea.ac.uk/publications/pdf/nn2014a.pdf ) (2/2)

— Dikran Marsupial

Im Übrigen kann eine Überanpassung bei der Modellauswahl zu einer Überanpassung oder Unteranpassung des Trainingssatzes führen, wodurch die Diagnose des Problems etwas schwieriger wird. Aus Bayes-Sicht ist es am besten, nicht zu optimieren, sondern über zu marginalisieren , aber das ist rechenintensiv oder schwierig oder beides. Ein großer Vorteil der 1. Regel ist, dass sie am anderen Ende des Spektrums liegt. Als Ingenieur mag ich einfache Dinge, die funktionieren. O) (3/2)

λ

$\lambda$

— Dikran Marsupial

Ein von @DikranMarsupial erwähnter Thread über das Optimieren von Lambda vs. Marginalisieren über Lambda ist stats.stackexchange.com/questions/24799 . In dieser Diskussion geht es um Gratregression, und Marginalisierung ist wahrscheinlich (?) Schwieriger für Lasso / elastisches Netz / usw., wohingegen das Schöne an CV ist, dass es so einfach zu implementieren ist.

— Amöbe sagt Reinstate Monica

Eine empirische Begründung finden Sie auf Seite 12 dieser Tibshirani Data Mining-Kursnotizen , in denen der CV-Fehler als Funktion von Lambda für ein bestimmtes Modellierungsproblem dargestellt ist. Der Vorschlag scheint zu sein, dass alle Lambdas unterhalb eines bestimmten Wertes ungefähr den gleichen CV-Fehler liefern. Dies ist sinnvoll, da LASSO im Gegensatz zur Kammregression normalerweise nicht nur oder sogar in erster Linie zur Verbesserung der Vorhersagegenauigkeit verwendet wird. Das Hauptverkaufsargument besteht darin, dass Modelle einfacher und interpretierbarer werden, indem die am wenigsten relevanten / wertvollen Prädiktoren eliminiert werden.

Um nun die eine Standardfehlerregel zu verstehen, wollen wir uns die wir durch Variieren von . Tibshiranis Zahl sagt uns, dass wir eine Reihe von Modellen mittlerer bis hoher Komplexität haben, deren Vorhersagegenauigkeit in etwa gleich ist, und eine Reihe von Modellen geringer Komplexität, die sich nicht gut vorhersagen lassen. Was sollen wir wählen? Nun, wenn wir , sind wir wahrscheinlich an einem sparsamen Modell interessiert, daher bevorzugen wir wahrscheinlich das einfachste Modell, das unsere Daten ziemlich gut erklärt, als Einstein zu paraphrasieren. Wie wäre es also mit dem Modell mit der niedrigsten Komplexität, das "ungefähr so gut" ist wie all diese Modelle mit hoher Komplexität? Und was ist ein guter Weg, um "ungefähr so gut" zu messen? Ein Standardfehler. $\lambda$ $L_1$

— Paul
quelle

Ich verstehe die Logik dieser Antwort nicht. ZB: "Im Gegensatz zur Gratregression ist LASSO kein Mechanismus zur Verbesserung der Vorhersagegenauigkeit" - warum? Warum unterscheidet sich L1 von L2? Im nächsten Satz beschreiben Sie, was mit L1 für niedrige Lambdas passiert, aber ich denke, dasselbe passiert mit L2 für niedrige Lambdas.

— Amöbe sagt Reinstate Monica

Beachten Sie, dass dies eine heuristische Erklärung ist und sich auf einige nicht angegebene Annahmen stützt, da alle Prädiktoren informativ sind. Wenn Sie eine Menge und einige informative Rauschvorhersagen haben, kann es tatsächlich einen Lambda-Wert geben, der die CV-Metrik deutlich und deutlich optimiert: denjenigen, der der Auswahl der Teilmenge informativer Vorhersagen entspricht. Wenn das Lambda unter diesen Wert sinkt, lässt du nur Rauschen herein und verletzt das Modell.

— Paul

Ich denke, das Argument funktioniert für Ridge und Lasso gleich gut, wenn Sie eine breite Definition von Sparsamkeit verwenden, in der mehr Regularisierung -> einfacheres Modell. Aufgrund der unterschiedlichen Arten von Problemen und Datensätzen, für die sie verwendet werden, ist es jedoch einfacher, für L1 als für L2 zu motivieren. Menschen, die L1 verwenden, sind eher an einem einfachen Modell interessiert, und es ist wahrscheinlicher, dass sie auf die von Tibshirani gezeigte Art der CV-Fehlerkurve stoßen.

— Paul

Aus dem klassischen ESL- Text, s. 224: "Bei der Kreuzvalidierung wird häufig eine" Ein-Standard-Fehler "-Regel verwendet, in der wir das sparsamste Modell auswählen, dessen Fehler nicht mehr als ein Standardfehler über dem Fehler des besten Modells liegt." Das gegebene Beispiel ist die Regression einer Teilmenge, und es wird eine knieförmige Kurve gegenüber der Anzahl der Prädiktoren gezeigt. Die Kurve ist flach über der korrekten Anzahl von Prädiktoren, was wiederum mit der obigen Erklärung übereinstimmt. Es wird keine strenge oder mathematische Rechtfertigung erwähnt.

— Paul

Ich denke, das Hauptproblem hier ist, dass das Minimum schlecht bestimmt ist, aber das am meisten regulierte Modell innerhalb eines Sigmas des Minimums gut definiert ist.

— Paul

Die Anzahl der vom Lasso-Schätzer ausgewählten Variablen wird durch einen Strafwert . Je größer , kleiner ist die Menge der ausgewählten Variablen. Sei die Menge ausgewählter Variablen, die als Strafe . $\lambda$ $\lambda$ $\hat S(\lambda)$ $\lambda$

Lassen ist die Strafe des Minimums der Kreuzvalidierungsfunktion ausgewählt werden. Es kann bewiesen werden, dass . Wobei die Menge der Variablen ist, die wirklich nicht 0 sind. (Die Menge der wahren Variablen ist ausschließlich in der Menge enthalten, die unter Verwendung des Minimums der Kreuzvalidierung als Strafe geschätzt wird.) $\lambda^ \star$ $P(S_0 \subset \hat S(\lambda^\star))\rightarrow 1$ $S_0$

Dies sollte in der Statistik für hochdimensionale Daten von Bühlmann und van de Geer angegeben werden.

Der Strafwert wird häufig durch Kreuzvalidierung gewählt; Dies bedeutet, dass mit hoher Wahrscheinlichkeit zu viele Variablen ausgewählt werden. Um die Anzahl der ausgewählten Variablen zu verringern, wird die Strafe unter Verwendung der Standardfehlerregel ein wenig erhöht. $\lambda$

— Donbeo
quelle

Können Sie hier etwas näher darauf eingehen? Das scheint faszinierend.

— DavidShor

Dies bedeutet, dass mit hoher Wahrscheinlichkeit zu viele Variablen ausgewählt werden. - Mir ist nicht klar, warum und warum mit hoher Wahrscheinlichkeit zu wenige Variablen nicht ausgewählt werden konnten. Immerhin sollte eine kreuzvalidierte Auswahl eine Schätzung von , die wenig voreingenommen ist, aber wahrscheinlich eine hohe Varianz aufweist, wie in der Antwort von Stephen Kolassa angegeben.

λ

$\lambda$

— Richard Hardy

Ich denke, die Tatsache ist, dass die Auswahl von mehr Variablen als erforderlich die Vorhersageleistung weniger verringert als die Auswahl von nicht genügend Variablen. Aus diesem Grund tendiert CV dazu, mehr Variablen auszuwählen.

— Donbeo

Schauen Sie sich dieses Buch an springer.com/gp/book/9783642201912 und das Lasso-Kapitel hier drive.google.com/open?id=0B3FIuCA5bZUaT2ZLWFBIZ1JYbHM

— Donbeo

Dies ist das Buch, das ich gemeint habe

— Donbeo