Antworten:
Lassen Sie uns zunächst explizit sein und die Frage in den Kontext der multiplen linearen Regression stellen, in der wir eine Antwortvariable auf mehrere verschiedene Variablen x 1 , … , x p (korreliert oder nicht) mit dem Parametervektor β = ( β 0 ) regressieren , β 1 , … , β p ) und Regressionsfunktion f ( x 1 , … , x p ) = β 0 + β 1 x 1 +
das ein Modell des Mittelwerts der Antwortvariablen für eine gegebene Beobachtung von x 1 , … , x p sein könnte .
Die Frage ist , wie man eine Teilmenge des wählen s ungleich Null ist , und insbesondere, um als ein Vergleich der Signifikanztests im Vergleich zu Kreuzvalidierung .
Um die Terminologie glasklar zu machen, ist Signifikanzprüfung ein allgemeines Konzept, das in verschiedenen Kontexten unterschiedlich durchgeführt wird. Dies hängt zum Beispiel von der Wahl einer Teststatistik ab. Die Kreuzvalidierung ist in Wirklichkeit ein Algorithmus zur Schätzung des erwarteten Generalisierungsfehlers , der das wichtige allgemeine Konzept darstellt und von der Wahl einer Verlustfunktion abhängt.
Der erwartete Verallgemeinerungsfehler ist formal ein wenig technisch zu definieren, in Worten jedoch der erwartete Verlust eines angepassten Modells, wenn es für die Vorhersage eines unabhängigen Datensatzes verwendet wird , wobei die Erwartung über den für die Schätzung verwendeten Daten sowie den unabhängigen Daten liegt Set zur Vorhersage verwendet.
Wenn Sie lediglich Signifikanztests und ein schrittweises Verfahren zur Modellauswahl verwenden, können Sie davon ausgehen, dass Sie ein sehr starkes Modell mit signifikanten Prädiktoren haben, wenn Sie dies tatsächlich nicht tun. Sie erhalten möglicherweise zufällig starke Korrelationen, und diese Korrelationen können anscheinend verstärkt werden, wenn Sie andere unnötige Prädiktoren entfernen.
Das Auswahlverfahren behält natürlich nur die Variablen bei, die mit dem Ergebnis am stärksten korreliert sind, und während das schrittweise Verfahren voranschreitet, wird die Wahrscheinlichkeit, einen Fehler vom Typ I zu begehen, größer, als Sie sich vorstellen. Dies liegt daran, dass die Standardfehler (und damit die p-Werte) nicht angepasst werden, um die Tatsache zu berücksichtigen, dass die Variablen nicht zufällig für die Einbeziehung in das Modell ausgewählt wurden, und dass mehrere Hypothesentests durchgeführt wurden, um diese Menge auszuwählen.
David Freedman hat ein niedliches Papier, in dem er diese Punkte demonstriert, die " Ein Hinweis zum Screenen von Regressionsgleichungen " genannt werden. Die Zusammenfassung:
Eine mögliche Lösung für dieses Problem ist, wie Sie bereits erwähnt haben, die Verwendung einer Variante der Kreuzvalidierung. Wenn ich keinen guten wirtschaftlichen (mein Forschungsgebiet) oder statistischen Grund habe, meinem Modell zu glauben, ist dies mein bevorzugter Ansatz, um ein geeignetes Modell auszuwählen und Schlussfolgerungen zu ziehen.
Andere Befragte könnten erwähnen, dass schrittweise Vorgehensweisen unter Verwendung des AIC oder BIC einer Kreuzvalidierung asymptomatisch gleichkommen. Dies funktioniert nur, wenn die Anzahl der Beobachtungen im Verhältnis zur Anzahl der Prädiktoren groß wird. Im Zusammenhang mit vielen Variablen im Verhältnis zur Anzahl der Beobachtungen (Freedman sagt 1 Variable pro 10 oder weniger Beobachtungen) kann eine Auswahl auf diese Weise die oben diskutierten schlechten Eigenschaften aufweisen.
In Zeiten leistungsfähiger Computer sehe ich keinen Grund, die Kreuzvalidierung nicht als Modellauswahlverfahren für die schrittweise Auswahl zu verwenden.