Mehrere ARIMA-Modelle passen gut zu Daten. Wie bestimme ich die Reihenfolge? Richtiger Ansatz?

Ich habe zwei Zeitreihen (Parameter eines Modells für Männer und Frauen) und möchte ein geeignetes ARIMA-Modell identifizieren, um Prognosen zu erstellen. Meine Zeitreihe sieht aus wie:

Geben Sie hier die Bildbeschreibung ein

Die Darstellung und der ACF sind instationär (die Spitzen des ACF schneiden sehr langsam ab). Daher verwende ich Differenzierung und erhalte:

Geben Sie hier die Bildbeschreibung ein

Dieses Diagramm zeigt, dass die Reihe jetzt stationär sein könnte und die Anwendung des kpss-Tests und des adf-Tests diese Hypothese stützen.

Ausgehend von der Male-Reihe machen wir folgende Beobachtungen:

Die empirischen Autokorrelationen bei den Verzögerungen 1,4,5,26 und 27 unterscheiden sich signifikant von Null.
Der ACF schneidet ab (?), Aber ich bin besorgt über die relativ großen Spitzen bei Lag 26 und 27.
Nur die empirischen partiellen Autokorrelationen bei den Verzögerungen 1 und 2 unterscheiden sich signifikant von Null.

Allein aufgrund dieser Beobachtungen würde ich, wenn ich ein reines AR- oder MA-Modell für die differenzierte Zeitreihe wählen müsste, entweder ein AR (2) -Modell wählen, indem ich argumentiere, dass:

Wir haben keine signifikanten partiellen Autokorrelationen für eine Verzögerung von mehr als 2
Der ACF schneidet mit Ausnahme der Region um Lag 27 ab. (Sind diese wenigen Ausreißer allein ein Indikator dafür, dass ein gemischtes ARMA-Modell angemessen wäre?)

oder ein MA (1) -Modell, indem argumentiert wird, dass:

Die PACF schneidet deutlich ab
Wir haben für Verzögerungen größer 1 nur 4 Spitzen, die den kritischen Wert in der Größe überschreiten. Dies ist "nur" eine mehr als die 3 Spitzen (95% von 60), die außerhalb des gepunkteten Bereichs liegen dürfen.

Es gibt keine Charakteristik eines ARIMA (1,1,1) -Modells und die Auswahl der Ordnungen von p und q eines ARIMA-Modells aufgrund von ACF und PACF für p + q> 2 wird schwierig.

Die Verwendung von auto.arima () mit dem AIC-Kriterium (Soll ich AIC oder AICC verwenden?) Ergibt:

ARIMA (2,1,1) mit Drift; AIC = 280,2783
ARIMA (0,1,1) mit Drift; AIC = 280,2784
ARIMA (2,1,0) mit Drift; AIC = 281,437

Alle drei betrachteten Modelle zeigen Residuen des weißen Rauschens:

Geben Sie hier die Bildbeschreibung ein

Meine zusammengefassten Fragen sind:

Können Sie den ACF der Zeitreihe trotz der Spitzen um Lag 26 immer noch als Kürzung beschreiben?
Sind diese Ausreißer ein Indikator dafür, dass ein gemischtes ARMA-Modell geeigneter sein könnte?
Welches Informationskriterium soll ich wählen? AIC? AICC?
Die Residuen der drei Modelle mit dem höchsten AIC zeigen alle weißes Rauschverhalten, aber der Unterschied im AIC ist nur sehr gering. Sollte ich den mit den wenigsten Parametern verwenden, dh einen ARIMA (0,1,1)?
Ist meine Argumentation allgemein plausibel?
Sind ihre weiteren Möglichkeiten zu bestimmen, welches Modell besser sein könnte, oder sollte ich zum Beispiel die beiden mit dem höchsten AIC und Backtests durchführen, um die Plausibilität von Prognosen zu testen?

EDIT: Hier sind meine Daten:

-5.9112948202 -5.3429985122 -4.7382340534 -3.1129015623 -3.0350910288 -2.3218904871 -1.7926701792 -1.1417358384 -0.6665592055 -0.2907748318 0.2899480865 0.4637205370  0.5826312749  0.3869227286  0.6268379174  0.7439125292 0.7641139207  0.7613140511  3.0143912244 -0.7339255839  2.0109976796 0.8282394650 -2.5668367983  5.9826406394  1.9569198553  2.3860893476 2.0883339390  1.9761894580  2.2601997245  2.2464027995  2.5131158613 3.4564765529  4.2307335557  4.0298688374  3.7626317439  3.1026407174 2.1690168737  1.5617407254  2.6790460788  0.4652054768 -0.0501046517 -1.0157683791 -0.5113698054 -0.0180401353 -1.9471272198 -0.2550365250 -1.1269988523  0.5152074134  0.2362626753 -2.9978337017  1.4924705528 -1.4907767844 -0.5492041416 -0.7313021018 -0.6531515868 -0.4094159299 -0.5525401626 -0.0611454515 -0.5256272882 -1.1235247363 -1.7299848758 -1.3807763611 -1.6999054476 -4.3155973110 -4.7843298990

— Stats_L
quelle

1) Können Sie den ACF der Zeitreihe trotz der Spitzen um Lag 26 immer noch als Kürzung beschreiben?

26 und 27 legen mir nahe, dass die Daten wöchentlich eine Art Jahreszyklus der Bestellung 26 oder 52 sind

Sind diese Ausreißer ein Indikator dafür, dass ein gemischtes ARMA-Modell geeigneter sein könnte?

Wenn die beobachtete Reihe Ausreißer enthält, wird das ARIMA-Modell zu einem Übertragungsfunktionsmodell mit Dummy-Eingaben.

Ausreißer im acf / pacf sind normalerweise nicht interpretierbar. Verwenden Sie das acf / paf eines vorläufigen Modells, das vom dominanten acf / pacf abd vorgeschlagen wird, und dann ITERATE zu einem komplexeren Modell.

Welches Informationskriterium soll ich wählen? AIC? AICC? Die Residuen der drei Modelle mit dem höchsten AIC zeigen alle weißes Rauschverhalten, aber der Unterschied im AIC ist nur sehr gering. Sollte ich den mit den wenigsten Parametern verwenden, dh einen ARIMA (0,1,1)?

Keine, da sie auf einem Testsatz angenommener Modelle basiert.

Ist meine Argumentation allgemein plausibel? Vage Frage ... noch vage Antwort.

Sind ihre weiteren Möglichkeiten zu bestimmen, welches Modell besser sein könnte, oder sollte ich zum Beispiel die beiden mit dem höchsten AIC und Backtests durchführen, um die Plausibilität von Prognosen zu testen?

ITERIEREN Sie einfach (langsam!) Zu mehr / weniger komplizierten Modellen, die sowohl eine autoregressive Struktur als auch eine deterministische Struktur enthalten. Ein logisches Flussdiagramm finden Sie unter http://www.autobox.com/cms/index.php/blog/entry/build-or-make-your-own-arima-forecasting-mode

BEARBEITEN NACH DATENEMPFANG:

Ihr Kommentar hat mich in die Irre geführt. Sie haben das Wort Verzögerung von 26 verwendet, und ich habe fälschlicherweise verstanden, dass Sie über den ACF gesprochen haben, aber über den Zeitpunkt 26. Ein Datensatz kann auf verschiedene Weise instationär sein. Wenn sich der Mittelwert verschiebt, ist das Mittel gegen diese Nichtstationarität entbedeutend. In Ihrem Fall wird die Nichtstationarität durch zwei getrennte und unterschiedliche Trends und einen signifikanten Anstieg der Fehlervarianz verursacht. Beide Befunde werden vom Auge leicht unterstützt. Geben Sie hier die Bildbeschreibung ein

Ihre Daten sind nicht stationär, aber das Mittel gegen die Nichtstationarität Ihrer Daten im Mittel ist nicht differenzierend, sondern de-trending, da zwei Trends (1-29 und 30-65) über die Interventionserkennung gefunden werden. Darüber hinaus ist Ihre Fehlervarianz im Zeitraum 28 nicht stationär und nimmt signifikant zu, was durch Tsays Test auf nicht konstante Fehlervarianz festgestellt wurde. Siehe diese Referenz für beide Verfahren http://www.unc.edu/~jbhill/tsay.pdf . Nach Anpassung der beiden Trends und der Änderung der Fehlervarianz sowie einiger Impulse wurde ein einfaches AR (1) -Modell als angemessen befunden. Hier ist die Darstellung von Actual / Fit / Forecast. Die Gleichung Geben Sie hier die Bildbeschreibung ein ist hier mit Schätzergebnissen hier . Der Varianzänderungstest ist hier und die grafische Darstellung der Residuen des Modells ist hier. Ich habe AUTOBOX verwendet, eine Software, die ich entwickelt habe, um das Signal automatisch vom Rauschen zu trennen. Ihr Datensatz ist der "Aushängeschild" dafür, warum einfache ARIMA-Modellierung nicht weit verbreitet ist, weil einfache Methoden bei komplexen Problemen nicht funktionieren. Beachten Sie auch, dass die Änderung der Fehlervarianz nicht mit der Ebene der Beobachtungsreihen verknüpft werden kann, sodass Leistungstransformationen wie Protokolle nicht relevant sind, obwohl veröffentlichte Artikel Modelle präsentieren, die diese Struktur verwenden. Unter Protokoll- oder Quadratwurzel-Transformation für ARIMA finden Sie eine Erläuterung, wann Leistungstransformationen durchgeführt werden müssen.

Geben Sie hier die Bildbeschreibung ein

— IrishStat
quelle

Vielen Dank für die hilfreichen Kommentare. Leider repräsentiert die Zeitreihe geschätzte Parameter eines (Mortalitäts-) Modells für einen Bereich von Jahren. Daher denke ich nicht, dass saisonale Komponenten dieses Problem lösen können. Wenn Sie von einem einfachen vorläufigen Modell ausgehen und es dann zu einem komplexeren Modell iterieren: Wenn Sie den ACF und den PACF der Residuen der ARIMA (0,1,1) betrachten, zeigen sie das WN-Verhalten. Welche Art von Muster vermisse ich, die die Notwendigkeit eines komplexeren Modells hervorheben würde? Übrigens habe ich gerade meine Daten hinzugefügt.

— Stats_L

Vielen Dank für Ihre Bemühungen und Kommentare. Interessanterweise stellen die Parameter einen Kohorteneffekt von Mortalitätsmodellen dar, die in der Literatur üblicherweise als einfaches ARIMA-Modell (p, d, q) modelliert wurden, siehe z. B. pensions-institute.org/workingpapers/wp0801.pdf

— Stats_L

Das Schlüsselwort hier ist "einfach". Aktuare sind zwar begabte Mathematiker, aber in der Zeitreihenanalyse nicht unbedingt auf dem neuesten Stand der Technik. Eine gute Analyse präsentiert Tests auf Signifikanz und Suffizienz, die Tests auf Annahmen zeigen. Sie können diese Ergebnisse an die Autoren weitergeben und deren Feedback oder zumindest Anerkennung für die Erweiterung ihres Bewusstseins erhalten.

— IrishStat

Dies würde erklären, warum die Wahl eines bestimmten ARIMA-Modells (p, d, q) häufig nur auf AIC-Werten basiert (oder zumindest weitere Untersuchungen nicht detailliert erwähnt und beschrieben werden). Wenn Sie in den nächsten Tagen Zeit finden, würde mich Ihre Meinung zu meiner zweiten Zeitreihe, die ich vorhersagen muss, sehr interessieren und ob ein zufälliger Spaziergang mit Drift angemessen sein könnte. Es kann hier gefunden werden: stats.stackexchange.com/questions/161571/…

— Stats_L