Problem
Ich habe Zeitreihendaten, die von einer Maschine über zwei nicht zusammenhängende Zeiträume generiert wurden - ungefähr einen Monat im Jahr 2016 und einen weiteren Monat im Jahr 2018.
Von Domänenexperten wird angenommen, dass zu jedem Zeitpunkt Schritt eine beobachtete Variable Y ^ t durch einen anderen Satz beobachteter Variablen, X_1 ^ t, \ ldots, X_d ^ t, erklärt werden kann .
Wie kann ich testen, ob sich dieser Prozess im Laufe der Zeit geändert hat? Beachten Sie, dass ich nicht versuche zu testen, ob sich die Verteilung für die Variable im Laufe der Zeit geändert hat. Ich möchte testen, ob sich die Beziehung zwischen s und im Laufe der Zeit geändert hat.
Aktueller Ansatz
Angenommen, ich passe ein Zeitreihenmodell (z. B. einen Gaußschen Prozess) an die Daten von 2016 an, um mit , um den zugrunde liegenden Prozess zu modellieren, der .
Die Domain-Experten haben vorgeschlagen, dass wir vielleicht versuchen können, dieses Modell zu verwenden, um die Variablen mit den von 2018 vorherzusagen, und die Residuen irgendwie zu verwenden, um zu schließen, dass das Modell (das den Prozess im Jahr 2016 darstellt) ist oder ist 2018 nicht mehr dasselbe. Ich bin mir nicht sicher, wie ich nach diesem Punkt weitermachen soll.
Was ich überlege
Sollte ich testen, ob die Rückstände aus den Jahren 2016 und 2018 aus derselben Verteilung stammen, oder einen Anpassungstest mit einem Kolmogorov-Smirnov-Test durchführen? Mein Anliegen bei diesem Ansatz ist, dass die Out-of-Sample-Daten von 2018 wahrscheinlich größere Fehler aufweisen als die In-Sample-Trainingsdaten von 2016, sodass dieser Test wahrscheinlich zu falsch positiven Ergebnissen führen wird. Gibt es eine Möglichkeit, diesen Effekt anzupassen / zu berücksichtigen?
Sollte ich zwei Modelle einbauen, eines für 2016 und eines für 2018, und auf irgendeine Weise testen, ob diese beiden Modelle "gleich" oder "unterschiedlich" sind? Eine Möglichkeit besteht beispielsweise darin, die KL-Divergenz zwischen den beiden Gaußschen Prozessen zu berechnen, die jeweils an die Daten für 2016 und 2018 angepasst sind. Gibt es andere Vorschläge oder Probleme mit diesem Ansatz?
Ich habe einige Beiträge zur Integration gesehen. Aber ich verstehe dieses Konzept nicht ganz. Ist das relevant?
Wie könnte man sich dieser Art von Problem im Allgemeinen nähern? Ich habe versucht, online danach zu suchen, aber möglicherweise erhalte ich aufgrund mangelnder Genauigkeit meiner Abfrage (ich bin in diesem Bereich nicht vertraut) nicht viele relevante Ergebnisse. Ich schätze sogar einfache Hinweise / Kommentare zu den Themen / Stichwörtern, die gesucht werden sollen, oder Bücher / Papiere, die ich durchsehen muss.
Bitte beachten Sie, dass ich nach prinzipiellen (vorzugsweise statistischen) Ansätzen suche und nicht nach heuristischen Methoden. Gute Beispiele sind die Antworten, die den folgenden Chow-Test und seine Varianten vorschlagen.