Nachdem ich Galit Shmuelis "To Explain or to Predict" (2010) gelesen habe, wundere ich mich über einen offensichtlichen Widerspruch. Es gibt drei Räumlichkeiten,
- AIC versus BIC-basierte Modellauswahl (Ende S. 300 - Beginn S. 301): Einfach ausgedrückt, AIC sollte zur Auswahl eines Modells verwendet werden, das zur Vorhersage vorgesehen ist , während BIC zur Auswahl eines Modells zur Erklärung verwendet werden sollte . Zusätzlich (nicht in der obigen Veröffentlichung) wissen wir, dass BIC unter bestimmten Bedingungen das wahre Modell aus der Menge der Kandidatenmodelle auswählt ; Das wahre Modell ist das, was wir in der erklärenden Modellierung suchen (Ende S. 293).
- Einfache Arithmetik: AIC wählt ein größeres Modell als BIC für Stichproben mit einer Größe von 8 oder größer aus (wobei aufgrund der unterschiedlichen Komplexitätsnachteile bei AIC gegenüber BIC erfüllt wird ).
- Das "wahre" Modell (dh das Modell mit den richtigen Regressoren und der richtigen Funktionsform, aber unvollständig geschätzten Koeffizienten) ist möglicherweise nicht das beste Modell für die Vorhersage (S. 307): Ein Regressionsmodell mit einem fehlenden Prädiktor ist möglicherweise ein besseres Prognosemodell - Die Einführung einer Verzerrung aufgrund des fehlenden Prädiktors kann durch die Verringerung der Varianz aufgrund von Ungenauigkeiten bei der Schätzung übergewichtet werden.
Die Punkte 1. und 2. legen nahe, dass größere Modelle für die Vorhersage besser geeignet sind als sparsamere Modelle. In der Zwischenzeit gibt Punkt 3. ein entgegengesetztes Beispiel, bei dem ein sparsameres Modell für die Vorhersage besser ist als ein größeres Modell. Ich finde das rätselhaft.
Fragen:
- Wie kann der scheinbare Widerspruch zwischen den Punkten {1. und 2.} und 3. erklärt / gelöst werden?
- Können Sie in Anbetracht von Punkt 3. eine intuitive Erklärung dafür geben, warum und wie ein größeres Modell, das von AIC ausgewählt wurde, für die Vorhersage tatsächlich besser ist als ein sparsameres Modell, das von BIC ausgewählt wurde?