Gängige datenbasierte Variablenauswahlverfahren (z. B. vorwärts, rückwärts, schrittweise, alle Teilmengen) führen tendenziell zu Modellen mit unerwünschten Eigenschaften, darunter:
- Koeffizienten von Null weg vorgespannt.
- Zu kleine Standardfehler und zu enge Konfidenzintervalle.
- Teststatistiken und p-Werte, die nicht die angegebene Bedeutung haben.
- Schätzungen der Modellanpassung sind zu optimistisch.
- Eingeschlossene Begriffe, die bedeutungslos sein können (z. B. Ausschluss von Begriffen niedrigerer Ordnung).
Die Auswahlverfahren für Variablen bleiben jedoch bestehen. Warum sind diese Verfahren angesichts der Probleme bei der Variablenauswahl erforderlich? Was motiviert sie?
Einige Vorschläge, um die Diskussion zu beginnen ....
- Der Wunsch nach interpretierbaren Regressionskoeffizienten? (In einem Modell mit vielen Infusionen fehlgeleitet?)
- Varianz durch irrelevante Variablen eliminieren?
- Unnötige Kovarianz / Redundanz zwischen den unabhängigen Variablen beseitigen?
- Reduzieren Sie die Anzahl der Parameterschätzungen (Leistungsprobleme, Stichprobengröße)
Gibt es noch andere Sind die Probleme, mit denen sich die Techniken zur Variablenauswahl befassen, wichtiger oder weniger wichtig als die Probleme, die die Verfahren zur Variablenauswahl verursachen? Wann sollten sie verwendet werden? Wann sollten sie nicht verwendet werden?