Ich versuche, mithilfe der RF-Regression Vorhersagen über die Leistung einer Papierfabrik zu treffen.
Ich habe minutenweise Daten für die Eingaben (Rate und Menge des eingedrungenen Holzzellstoffs usw.) sowie für die Leistung der Maschine (produziertes Papier, von der Maschine aufgenommene Leistung) und möchte Vorhersagen für 10 Minuten treffen voraus auf die Leistungsvariablen.
Ich habe 12 Monate Daten, habe sie also in 11 Monate für das Trainingsset und den letzten Monat für das Testen unterteilt.
Bisher habe ich 10 neue Funktionen erstellt, deren Werte für jede der Leistungsvariablen um 1 bis 10 Minuten verzögert sind, und diese sowie die Eingaben verwendet, um Vorhersagen zu treffen. Die Leistung des Testsatzes war ziemlich gut (das System ist ziemlich vorhersehbar), aber ich mache mir Sorgen, dass mir etwas in meinem Ansatz fehlt.
In diesem Artikel geben die Autoren beispielsweise ihren Ansatz zum Testen der Vorhersagefähigkeit ihres zufälligen Waldmodells an:
Die Simulation wird fortgesetzt, indem iterativ eine neue Datenwoche hinzugefügt, ein neues Modell basierend auf den aktualisierten Daten trainiert und die Anzahl der Ausbrüche für die folgende Woche vorhergesagt wird
Wie unterscheidet sich dies von der Verwendung "späterer" Daten in der Zeitreihe als Test? Sollte ich mein RF-Regressionsmodell mit diesem Ansatz sowie mit dem Testdatensatz validieren? Ist diese Art von "autoregressivem" Ansatz zur zufälligen Waldregression für Zeitreihen gültig, und muss ich überhaupt so viele verzögerte Variablen erstellen, wenn ich an einer Vorhersage für 10 Minuten in der Zukunft interessiert bin?