Ich habe historische Verkaufsdaten von einer Bäckerei (täglich, über 3 Jahre). Jetzt möchte ich ein Modell erstellen, um zukünftige Verkäufe vorherzusagen (unter Verwendung von Funktionen wie Wochentag, Wettervariablen usw.).
Wie soll ich den Datensatz für die Anpassung und Auswertung der Modelle aufteilen?
- Muss es sich um einen chronologischen Zug / Validierung / Test-Split handeln?
- Würde ich dann mit dem eingestellten Zug und der eingestellten Validierung Hyperparameter-Tuning durchführen?
- Ist (verschachtelte) Kreuzvalidierung eine schlechte Strategie für ein Zeitreihenproblem?
BEARBEITEN
Hier sind einige Links, die ich gefunden habe, nachdem ich der von @ ene100 vorgeschlagenen URL gefolgt bin:
- Rob Hyndman beschreibt "Rolling Forecasting Origin" in Theorie und Praxis (mit R-Code)
- andere Begriffe für rollierenden Prognoseursprung sind "Laufoptimierung" ( hier oder hier ), "rollierender Horizont" oder "sich bewegender Ursprung"
- es scheint, dass diese techniken in naher zukunft nicht in scikit-learn integriert werden, da „die nachfrage nach und die seminalität dieser techniken unklar sind“ ( hier angegeben ).
Und dies ist ein weiterer Vorschlag für Zeitreihenkreuzvalidierung.