Kann Regularisierung hilfreich sein, wenn wir nur an der Modellierung und nicht an der Vorhersage interessiert sind?

Kann Regularisierung hilfreich sein, wenn wir nur die Modellparameter schätzen (und interpretieren) möchten, nicht aber Prognosen oder Vorhersagen?

Ich sehe, wie nützlich Regularisierung / Kreuzvalidierung ist, wenn Sie gute Prognosen für neue Daten erstellen möchten. Aber was ist, wenn Sie traditionelle Wirtschaftswissenschaften betreiben und sich nur für die Schätzung von interessieren ? Kann Kreuzvalidierung auch in diesem Zusammenhang nützlich sein? Die konzeptionelle Schwierigkeit, mit der ich zu kämpfen habe, ist, dass wir tatsächlich für Testdaten berechnen können, aber wir können niemals weil die wahre per definitionem nie eingehalten wird. (Nehmen wir an , es gäbe sogar ein echtes , dh wir kennen die Modellfamilie, aus der die Daten generiert wurden.) $\beta$ $\mathcal{L}\left(Y, \hat{Y}\right)$ $\mathcal{L}\left(\beta, \hat{\beta}\right)$ $\beta$ $\beta$

Angenommen, Ihr Verlust ist . Sie stehen vor einem Bias-Varianz-Kompromiss, oder? Theoretisch ist es also besser, wenn Sie eine Regularisierung durchführen. Aber wie können Sie möglicherweise Ihren Regularisierungsparameter auswählen? $\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert$

Ich würde mich freuen, ein einfaches numerisches Beispiel eines linearen Regressionsmodells mit den Koeffizienten $\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)$ , bei dem die Verlustfunktion des Forschers beispielsweise $\lVert \beta - \hat{\beta} \rVert$ oder auch nur $(\beta_1 - \hat{\beta}_1)^2$ . Wie könnte man in der Praxis eine Kreuzvalidierung verwenden, um den erwarteten Verlust in diesen Beispielen zu verbessern?

Edit : DJohnson hat mich auf https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf hingewiesen , was für diese Frage relevant ist. Die Autoren schreiben das

Techniken des maschinellen Lernens ... bieten eine disziplinierte Möglichkeit, vorherzusagen, $\hat{Y}$ wobei (i) die Daten selbst verwendet, um zu entscheiden, wie der Kompromiss zwischen Abweichungen und Abweichungen hergestellt werden soll, und (ii) die Suche über einen sehr umfangreichen Satz von Variablen und Funktionsformen. Aber alles hat seinen Preis: Man muss immer bedenken, dass sie keine sehr nützlichen Garantien für geben , weil sie auf abgestimmt sind $\hat{Y}$ (ohne viele andere Annahmen) . $\hat{\beta}$

Ein weiteres relevantes Papier, wiederum danke an DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Dieses Papier befasst sich mit der Frage, mit der ich oben zu kämpfen hatte:

Eine grundlegende Herausforderung bei der Anwendung von Methoden des maschinellen Lernens wie Standardregressionsbäumen auf das Problem der kausalen Inferenz besteht darin, dass Regularisierungsansätze, die auf einer gegenseitigen Validierung basieren, in der Regel auf der Beobachtung der „Grundwahrheit“ beruhen, dh der tatsächlichen Ergebnisse in einer Kreuzvalidierungsstichprobe. Wenn es jedoch unser Ziel ist, den mittleren Fehlerquadrat der Behandlungseffekte zu minimieren, stoßen wir auf das, was [11] als „grundlegendes Problem der kausalen Folgerung“ bezeichnet wird: Der kausale Effekt wird für keine einzelne Einheit beobachtet, und daher nicht direkt habe eine Grundwahrheit. Wir sprechen dies an, indem wir Ansätze für die Erstellung unvoreingenommener Schätzungen des quadratischen Mittelwertfehlers der kausalen Wirkung der Behandlung vorschlagen.

— Adrian
quelle

Die gegenseitige Validierung ist nur eine Methode in den Toolkits für Data Mining und maschinelles Lernen. ML wird zunehmend in der Wirtschaftswissenschaft eingesetzt - siehe die Website von Susan Athey in Stanford (sie ist eine Akademikerin, die sich für die Integration von ML-Techniken in die Wirtschaftswissenschaft interessiert) oder dieses Papier Prediction Policy Problems von Kleinberg et al. In einer ungated Version hier: cs. cornell.edu/home/kleinber/aer15-prediction.pdf

— Mike Hunter

Bitte, Leute, disambiguieren Sie: ML bedeutet für viele maschinelles Lernen und für viele andere maximale Wahrscheinlichkeit. (Definition: Sie befinden sich auf der Seite des maschinellen Lernens, wenn ML sich automatisch als maschinelles Lernen übersetzt.)

— Nick Cox

@Aksakal Meine Erfahrung ist, dass traditionelle Ökonometrie, wie sie sowohl Studenten als auch Studenten unterrichtet wird, der gegenseitigen Validierung im Wesentlichen keine Beachtung schenkt. Schauen Sie sich Hayashi an, ein klassisches Lehrbuch. Sicher, vielleicht werden Kreuzvalidierung und der Bias-Varianz-Kompromiss in einem Kurs speziell für Prognosen erwähnt, aber nicht in dem Kernkurs, mit dem alle Studenten beginnen. Klingt das für Sie richtig?

— Adrian

@Adrian Ich sehe Leute, die abstimmen, um diese Frage als zu umfassend zu schließen. Es mag sein, aber so wie ich es sehe, fragen Sie im Grunde: "Kann der Lebenslauf hilfreich sein, wenn wir nur an der Modellierung interessiert sind, nicht an der Vorhersage?" - Wenn ich Sie richtig verstehe, kann Ihre Frage leicht bearbeitet und vereinfacht werden, so dass sie klarer und mit Sicherheit nicht zu weit gefasst ist (sogar interessant!).

— Tim

@Adrian so ist es sehr interessante Frage! Ich fürchte, Sie haben es offenkundig kompliziert gemacht, und der Hinweis auf die Ökonometrie ist hier nicht entscheidend (wie auch in anderen Bereichen, in denen statistische Methoden verwendet werden). Ich würde Sie ermutigen, Ihre Frage zu bearbeiten, um sie zu vereinfachen.

— Tim

Ja, wenn wir voreingenommene Schätzungen mit geringer Varianz wollen. Ich mag Gungs Post hier besonders. Welches Problem lösen Schrumpfungsmethoden? Bitte erlauben Sie mir, Gungs Figur hier einzufügen ...

Bildbeschreibung hier eingeben Wenn Sie die gemachte Plot-Gung überprüfen, werden Sie wissen, warum wir Regularisierung / Schrumpfung benötigen. Zuerst finde ich es seltsam, warum wir voreingenommene Schätzungen brauchen? Aber als ich mir diese Zahl ansah, stellte ich fest, dass ein Modell mit geringer Varianz viele Vorteile hat: Zum Beispiel ist es im Produktionsbetrieb "stabiler".

— Haitao Du
quelle

Ja, aber wie wählen wir den Regularisierungsparameter aus? Wenn das Ziel darin besteht, Vorhersagefehler zu minimieren, können wir einen Validierungssatz verwenden. Wie können wir ein Validierungsset verwenden, wenn wir nie die wahren Modellparameter beobachten?

— Adrian

Siehe das Zitat über das "Grundproblem der kausalen Folgerung" am Ende meiner Frage.

— Adrian

Kann eine Kreuzvalidierung hilfreich sein, wenn wir nur an der Modellierung (dh Schätzung von Parametern) interessiert sind, nicht an der Prognose?

Ja, kann es. Neulich habe ich zum Beispiel die Parameter-Wichtigkeitsschätzung über Entscheidungsbäume verwendet. Jedes Mal, wenn ich einen Baum baue, überprüfe ich den Kreuzvalidierungsfehler. Ich versuche, den Fehler so gering wie möglich zu halten, und gehe dann zum nächsten Schritt über, um die Wichtigkeit der Parameter abzuschätzen. Es ist möglich, dass Sie weniger genaue (wenn nicht falsche) Antworten erhalten, wenn der erste Baum, den Sie erstellen, sehr schlecht ist und Sie den Fehler nicht überprüfen.

Der Hauptgrund, den ich glaube, liegt in der Vielzahl der Steuervariablen, die jede Technik hat. Schon eine geringfügige Änderung einer Regelgröße führt zu einem anderen Ergebnis.

Wie können Sie Ihr Modell verbessern, nachdem Sie den Kreuzvalidierungsfehler überprüft haben? Nun, es hängt von Ihrem Modell ab. Nach einigen Versuchen erhalten Sie hoffentlich einen Eindruck von den wichtigsten Steuervariablen und können diese manipulieren, um einen geringen Fehler zu finden.

— PeyM87
quelle