Ich interessiere mich für die Modellauswahl in einer Zeitreiheneinstellung. Nehmen wir der Vollständigkeit halber an, ich möchte ein ARMA-Modell aus einem Pool von ARMA-Modellen mit unterschiedlichen Verzögerungsreihenfolgen auswählen. Die ultimative Absicht ist die Vorhersage .
Die Modellauswahl kann über erfolgen
- Kreuzvalidierung,
- Verwendung von Informationskriterien (AIC, BIC),
unter anderem Methoden.
Rob J. Hyndman bietet eine Möglichkeit zur Kreuzvalidierung für Zeitreihen . Bei relativ kleinen Stichproben kann die Stichprobengröße, die bei der Kreuzvalidierung verwendet wird, qualitativ von der ursprünglichen Stichprobengröße abweichen . Wenn die ursprüngliche Stichprobengröße beispielsweise 200 Beobachtungen beträgt, könnte man sich vorstellen, die Kreuzvalidierung zu starten, indem man die ersten 101 Beobachtungen auf 102, 103, ..., 200 Beobachtungen erweitert, um 100 Kreuzvalidierungsergebnisse zu erhalten. Es ist klar, dass ein Modell, das für 200 Beobachtungen einigermaßen sparsam ist, für 100 Beobachtungen zu groß sein kann und daher einen großen Validierungsfehler aufweist. Daher wird die Kreuzvalidierung wahrscheinlich systematisch zu sparsamen Modellen Vorschub leisten. Dies ist ein unerwünschter Effekt, da die Stichprobengrößen nicht übereinstimmen .
Eine Alternative zur Kreuzvalidierung ist die Verwendung von Informationskriterien für die Modellauswahl. Da mir die Prognose am Herzen liegt, würde ich AIC verwenden. Auch wenn AIC asymptotisch der Minimierung der Ein-Schritt-Prognose von MSE für Zeitreihenmodelle außerhalb der Stichprobe entspricht (gemäß diesem Beitrag von Rob J. Hyndman), bezweifle ich, dass dies hier seit der Stichprobe relevant ist Größen, die mir wichtig sind, sind nicht so groß ...
Frage: Sollte ich für kleine / mittlere Stichproben die AIC anstelle der Kreuzvalidierung für Zeitreihen wählen?