Es gibt eine Vielzahl von Problemen bei der schrittweisen Auswahl. In meiner Antwort hier habe ich schrittweise diskutiert: Algorithmen für die automatische Modellauswahl . In dieser Antwort habe ich mich nicht primär auf die Probleme mit der Inferenz konzentriert, sondern auf die Tatsache, dass die Koeffizienten voreingenommen sind (die Athleten, die es ausprobieren, sind analog zu Variablen). Da die Koeffizienten von ihren wahren Werten abweichen, sollte der Vorhersagefehler außerhalb der Stichprobe ceteris paribus vergrößert werden.
Betrachten Sie den Begriff des Bias-Varianz-Kompromisses . Wenn Sie sich die Genauigkeit Ihres Modells als Varianz der Vorhersagefehler vorstellen (dh MSE: ), ist der erwartete Vorhersagefehler die Summe von drei verschiedenen Varianzquellen :1/n∑(yi−y^i)2
E[(yi−y^i)2]=Var(f^)+[Bias(f^)]2+Var(ε)
Diese drei Terme sind die Varianz Ihrer Schätzung der Funktion, das Quadrat der Vorspannung der Schätzung und der irreduzible Fehler im Datenerzeugungsprozess. (Letzteres liegt vor, weil die Daten nicht deterministisch sind. Sie erhalten niemals Vorhersagen, die näher als im Durchschnitt liegen.) Die beiden ersteren stammen aus dem Verfahren zur Schätzung Ihres Modells. Standardmäßig denken wir vielleicht, dass
OLS das Verfahren zur Schätzung des Modells ist, aber es ist richtiger zu sagen, dass die
schrittweise Auswahl über OLS-Schätzungen das Verfahren ist. Die Idee des Bias-Varianz-Kompromisses ist, dass, während ein Erklärungsmodell die Unparteilichkeit zu Recht betont, ein Vorhersagemodell von der Verwendung eines voreingenommenen Verfahrens profitieren kann, wenn die Varianz ausreichend reduziert ist (für eine ausführlichere Erklärung siehe:
Welches Problem lösen Schrumpfungsmethoden? ).
In Anbetracht dieser Ideen ist der Punkt meiner Antwort, die oben verlinkt ist, dass eine große Tendenz hervorgerufen wird. Wenn alle Dinge gleich sind, werden sich die Stichprobenvorhersagen verschlechtern. Leider verringert eine schrittweise Auswahl die Varianz der Schätzung nicht. Im besten Fall ist die Varianz dieselbe, aber es ist sehr wahrscheinlich, dass sich die Varianz auch erheblich verschlechtert (zum Beispiel berichtet @Glen_b, dass nur 15,5% der Fälle die richtigen Variablen waren, die sogar in einer hier diskutierten Simulationsstudie ausgewählt wurden: Warum sind p-Werte nach schrittweiser Auswahl irreführend? ).