Erhöhen schrittweise Regressionstechniken die Vorhersagekraft eines Modells?


8

Ich verstehe einige der vielen Probleme der schrittweisen Regression. Als akademisches Unterfangen gehe ich jedoch davon aus, dass ich die schrittweise Regression für ein Vorhersagemodell verwenden und die möglichen Auswirkungen auf die Leistung besser verstehen möchte.

Erhöht oder verringert die schrittweise Regression des Modells bei einem linearen Modell tendenziell die Vorhersagekraft des Modells, wenn neue Daten präsentiert werden?

Gibt es theoretische Auswirkungen, die eine schrittweise Regression auf die Vorhersagefähigkeit haben wird?

Praktische Erfahrung wäre ebenfalls hilfreich; Vielleicht Situationen, in denen eine schrittweise Regression die Vorhersage verbessert und in denen dies nicht der Fall ist.


8
Ich verstehe das nicht: Sie bitten uns zunächst, die Probleme zu ignorieren - zu denen auch Probleme mit der Vorhersagekraft gehören - und fragen dann, ob es solche Probleme gibt! Warum nicht auf unserer Website nach Antworten suchen? Eine beliebte ist unter stats.stackexchange.com/questions/20836 .
whuber

3
Ich möchte mich auf die Probleme im Zusammenhang mit der Vorhersagekraft konzentrieren (nicht auf p-Werte, Koeffizientenverzerrungen usw.). Aufgrund Ihres Feedbacks werde ich die Formulierung meiner Frage weniger zweideutig machen. Meine Suche auf der Website hat keine spezifischen Antworten auf die Vorhersageleistung von Vollmodellen im Vergleich zu schrittweise reduzierten Modellen ergeben.
Underminer

1
Würde "Probleme von ... ignorieren" das Ignorieren besserer Alternativen beinhalten, selbst im Fokus auf Vorhersagekraft?
Matthew Drury

@MatthewDrury Ich interessiere mich hauptsächlich für die Auswirkungen der schrittweisen Regression. Davon abgesehen würde mich sicherlich das Ergebnis ähnlicher automatisierter Methoden interessieren.
Underminer

In den letzten drei Absätzen gibt es drei verschiedene Dinge? Was ist das genaue Problem oder Ziel, das Sie lösen möchten?
Subhash C. Davar

Antworten:


7

Es gibt eine Vielzahl von Problemen bei der schrittweisen Auswahl. In meiner Antwort hier habe ich schrittweise diskutiert: Algorithmen für die automatische Modellauswahl . In dieser Antwort habe ich mich nicht primär auf die Probleme mit der Inferenz konzentriert, sondern auf die Tatsache, dass die Koeffizienten voreingenommen sind (die Athleten, die es ausprobieren, sind analog zu Variablen). Da die Koeffizienten von ihren wahren Werten abweichen, sollte der Vorhersagefehler außerhalb der Stichprobe ceteris paribus vergrößert werden.

Betrachten Sie den Begriff des Bias-Varianz-Kompromisses . Wenn Sie sich die Genauigkeit Ihres Modells als Varianz der Vorhersagefehler vorstellen (dh MSE: ), ist der erwartete Vorhersagefehler die Summe von drei verschiedenen Varianzquellen :1/n(yiy^i)2

E[(yiy^i)2]=Var(f^)+[Bias(f^)]2+Var(ε)
Diese drei Terme sind die Varianz Ihrer Schätzung der Funktion, das Quadrat der Vorspannung der Schätzung und der irreduzible Fehler im Datenerzeugungsprozess. (Letzteres liegt vor, weil die Daten nicht deterministisch sind. Sie erhalten niemals Vorhersagen, die näher als im Durchschnitt liegen.) Die beiden ersteren stammen aus dem Verfahren zur Schätzung Ihres Modells. Standardmäßig denken wir vielleicht, dass OLS das Verfahren zur Schätzung des Modells ist, aber es ist richtiger zu sagen, dass die schrittweise Auswahl über OLS-Schätzungen das Verfahren ist. Die Idee des Bias-Varianz-Kompromisses ist, dass, während ein Erklärungsmodell die Unparteilichkeit zu Recht betont, ein Vorhersagemodell von der Verwendung eines voreingenommenen Verfahrens profitieren kann, wenn die Varianz ausreichend reduziert ist (für eine ausführlichere Erklärung siehe:Welches Problem lösen Schrumpfungsmethoden? ).

In Anbetracht dieser Ideen ist der Punkt meiner Antwort, die oben verlinkt ist, dass eine große Tendenz hervorgerufen wird. Wenn alle Dinge gleich sind, werden sich die Stichprobenvorhersagen verschlechtern. Leider verringert eine schrittweise Auswahl die Varianz der Schätzung nicht. Im besten Fall ist die Varianz dieselbe, aber es ist sehr wahrscheinlich, dass sich die Varianz auch erheblich verschlechtert (zum Beispiel berichtet @Glen_b, dass nur 15,5% der Fälle die richtigen Variablen waren, die sogar in einer hier diskutierten Simulationsstudie ausgewählt wurden: Warum sind p-Werte nach schrittweiser Auswahl irreführend? ).


3
Ich hasse es, der Typ zu sein, der die schrittweise Regression verteidigt ... aber ich glaube nicht, dass es allgemein allgemein der Fall ist, dass eine schrittweise AIC zu schlechteren Vorhersagen führt, als alle Kovariaten ohne Strafen einzustecken, insbesondere wenn . Sehen Sie hier für eine Simulation , bei der stepAIC viel kostet, viel besser als in allen Kovariaten anschließen. np
Cliff AB

2
Danke, @CliffAB. Ich habe das vor langer Zeit positiv bewertet, aber ich hatte es vergessen. Ihre inhaltliche Antwort legt nahe, dass es sich lohnt, das EDA-Modell nach der Replikation einer neuen Stichprobe ernst zu nehmen, und Ihr Vorhersagemodell ist es wert, ernst genommen zu werden, nachdem es anhand von Holdout-Daten validiert wurde. Ich stimme beiden zu. Ich werde anerkennen, dass Ihre Simulation schrittweise besser funktioniert hat, aber Sie sind sich sicher einig, dass die Situation eng gefasst wurde, um sie zu begünstigen.
Gung - Reinstate Monica

0

Die genauen Auswirkungen hängen vom Modell und der "Wahrheit" ab, die wir natürlich nicht kennen können. Sie können die Auswirkungen von Schritt für Schritt in einem bestimmten Fall durch Kreuzvalidierung untersuchen oder einen einfachen Zug- und Testansatz verwenden.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.