Modellvergleich zwischen einem ARIMA-Modell und einem Regressionsmodell


8

Ich habe wirklich Probleme herauszufinden, wie man ARIMA- und Regressionsmodelle vergleicht. Ich verstehe, wie ARIMA-Modelle gegeneinander und verschiedene Arten von Regressionsmodellen (dh Regression gegen dynamische Regression mit AR-Fehlern) gegeneinander bewertet werden, sehe jedoch nicht viele Gemeinsamkeiten zwischen Bewertungsmetriken für ARIMA-Modelle und Regressionsmodelle.

Die einzigen zwei Metriken, die sie gemeinsam nutzen, sind SBC und AIC. Die ARIMA-Ausgabe erzeugt weder eine MSE-Stammzahl noch eine r ^ 2-Statistik. Ich bin mir nicht sicher, ob die Standardfehlerschätzung eines ARIMA-Modells direkt äquivalent (oder vergleichbar) mit irgendetwas innerhalb der Regressionsausgaben ist.

Wenn mich jemand in die richtige Richtung weisen könnte, wäre das großartig, da ich hier wirklich verwirrt bin. Ich habe das Gefühl, ich versuche Äpfel mit Orangen zu vergleichen.

Ich verwende übrigens SAS, um diese Analyse durchzuführen.

Antworten:


6

Wenn wir die ARIMAX-Modelle ausschließen, bei denen es sich um ARIMA mit Regressoren handelt, sind ARIMA- und Regressionsmodelle Modelle mit unterschiedlichen Ansätzen. ARIMA versucht, die Variable nur mit Informationen über die vergangenen Werte derselben Variablen zu modellieren. Regressionsmodelle hingegen modellieren die Variable mit den Werten anderer Variablen. Da diese Ansätze unterschiedlich sind, ist es natürlich, dass Modelle nicht direkt vergleichbar sind.

Da beide Modelle versuchen, eine Variable zu modellieren, erzeugen beide die modellierten Werte dieser Variablen. Die Frage des Modellvergleichs ist also identisch mit dem Vergleich modellierter Werte mit wahren Werten. Weitere Informationen dazu finden Sie im siebten Kapitel der Elemente des statistischen Lernens von Hastie et al. ist eine aufschlussreiche Lektüre.

Update: Beachten Sie, dass ich nicht befürworte, nur in Stichprobenanpassung zu vergleichen. Wenn Modelle unterschiedlich sind, besteht die natürliche Methode zum Vergleichen von Modellen darin, ihre Ausgaben zu vergleichen, ohne Rücksicht darauf, wie sie erhalten wurden.


1
"Da beide Modelle versuchen, eine Variable zu modellieren, erzeugen beide die modellierten Werte dieser Variablen. Die Frage des Modellvergleichs ist also identisch mit dem Vergleich modellierter Werte mit wahren Werten." <--- Ich werde die MSE der modellierten Werte mit den wahren Werten eines Teils der Daten außerhalb der Stichprobe vergleichen. Es scheint mir das Beste zu sein, dies zu tun.
Brett

1

Sie können die MSE / AIC / BIC des Arima-Modells verwenden und mit der MSE / AIC / BIC des Regressionsmodells vergleichen. Stellen Sie einfach sicher, dass die Anzahl der angepassten Werte gleich ist, da Sie sonst möglicherweise einen Fehler machen. Wenn das ARIMA-Modell beispielsweise eine Verzögerungsstruktur von beispielsweise sp + p aufweist (eine saisonale Differenz der Ordnung sp und eine autoregressive Struktur der Ordnung p), verlieren Sie die ersten sp + p-Datenpunkte und nur NOB-SP-P-Werte sind tatsächlich angepasst. Wenn das Regressionsmodell keine Verzögerungen aufweist, haben Sie NOB-Anpassungspunkte oder weniger, abhängig von Ihrer Spezifikation der verzögerten Werte für die Eingaben. Man muss also erkennen, dass die MSEs möglicherweise nicht auf denselben historischen tatsächlichen Werten liegen. Ein Ansatz wäre, Berechnen Sie die MSE des Regressionsmodells anhand der letzten NOB-SP-P-Werte, um die Modelle gleichzustellen. Vielleicht möchten Sie GOOGLE " Zum Schluss würde man normalerweise niemals nur ein Regressionsmodell mit Zeitreihen anpassen, da dies Informationen in den Verzögerungen der Kausalen und den Verzögerungen der abhängigen Variablen sein können, die den Schritt von der Regression zu einem Übertragungsfunktionsmodell, auch bekannt als ARMAX-Modell, rechtfertigen. Wenn Sie nicht STEP-UP wären, würden eine oder mehrere der Gauusschen Annahmen ungültig, was Ihre F / T-Tests bedeutungslos und irrelevant macht. Darüber hinaus kann es zu Verstößen gegen die Konstanz des Fehlerterms kommen, die die Einbeziehung von Pegelverschiebungen / lokalen Zeittrends und entweder eines Impulses oder einer saisonalen Impulsvariablen erfordern, um den Fehlerprozess mit einem "Mittelwert von 0,0 überall" zu versehen. Zum Schluss würde man normalerweise niemals nur ein Regressionsmodell mit Zeitreihen anpassen, da dies Informationen in den Verzögerungen der Kausalen und den Verzögerungen der abhängigen Variablen sein können, die den Schritt von der Regression zu einem Übertragungsfunktionsmodell, auch bekannt als ARMAX-Modell, rechtfertigen. Wenn Sie nicht STEP-UP wären, würden eine oder mehrere der Gauusschen Annahmen ungültig, was Ihre F / T-Tests bedeutungslos und irrelevant macht. Darüber hinaus kann es zu Verstößen gegen die Konstanz des Fehlerterms kommen, die die Einbeziehung von Pegelverschiebungen / lokalen Zeittrends und entweder eines Impulses oder einer saisonalen Impulsvariablen erfordern, um den Fehlerprozess mit einem "Mittelwert von 0,0 überall" zu versehen. t STEP-UP, dann würden eine oder mehrere der Gauusschen Annahmen ungültig, was Ihre F / T-Tests bedeutungslos und irrelevant macht. Darüber hinaus kann es zu Verstößen gegen die Konstanz des Fehlerterms kommen, die die Einbeziehung von Pegelverschiebungen / lokalen Zeittrends und entweder eines Impulses oder einer saisonalen Impulsvariablen erfordern, um den Fehlerprozess mit einem "Mittelwert von 0,0 überall" zu versehen. t STEP-UP, dann würden eine oder mehrere der Gauusschen Annahmen ungültig, was Ihre F / T-Tests bedeutungslos und irrelevant macht. Darüber hinaus kann es zu Verstößen gegen die Konstanz des Fehlerterms kommen, die die Einbeziehung von Pegelverschiebungen / lokalen Zeittrends und entweder eines Impulses oder einer saisonalen Impulsvariablen erfordern, um den Fehlerprozess mit einem "Mittelwert von 0,0 überall" zu versehen.


3
Die angegebenen AIC-Werte sind möglicherweise auch nicht vergleichbar, da unterschiedliche Konstanten weggelassen werden.
Rob Hyndman

1

Eine Kreuzvalidierung wäre hier wahrscheinlich gut. Dazu teilen Sie Ihren Datensatz in 2 Teile. Sie verwenden den ersten Teil, um beide Modelle anzupassen, und verwenden dann das angepasste Modell, um den zweiten Teil vorherzusagen. Dies kann als Annäherung an einen vollständig bayesianischen Ansatz zur Modellauswahl gerechtfertigt werden. Wir haben die Wahrscheinlichkeit eines ModellsMi

p(d1d2...dN|MiI)=p(d1|MiI)×p(d2|d1MiI)×p(d3|d1d2MiI)×..
..×p(dN|d1d2...dN1MiI)

Was heuristisch als Folge von Vorhersagen und dann des Lernens aus Fehlern gesehen werden kann. Sie sagen den ersten Datenpunkt ohne Training voraus. Anschließend sagen Sie den zweiten Datenpunkt voraus, nachdem Sie mit dem ersten das Modell kennengelernt haben. Anschließend sagen Sie den dritten Datenpunkt voraus, nachdem Sie die ersten beiden verwendet haben, um mehr über das Modell zu erfahren, und so weiter. Wenn Sie nun einen ausreichend großen Datensatz haben, werden die Parameter des Modells über eine bestimmte Datenmenge hinaus gut bestimmt, und wir haben für einen Wert :k

p(dk+2|d1....dkdk+1MiI)p(dk+2|d1....dkMiI)

Das Modell kann nicht mehr über die Parameter "lernen" und sagt im Grunde nur anhand der ersten Beobachtungen voraus . Daher würde ich (die Größe der ersten Gruppe) so wählen , dass es groß genug ist, damit Sie das Modell genau anpassen können. - Datenpunkte pro Parameter sind wahrscheinlich ausreichend. Sie möchten auch groß genug wählen , damit die Abhängigkeit in die ignoriert wird, die Approximation nicht unbrauchbar macht.kk2030kdk+1...dN

Dann würde ich einfach die Wahrscheinlichkeiten jeder Vorhersage bewerten und ihr Verhältnis nehmen, das als Wahrscheinlichkeitsverhältnis interpretiert wird. Wenn das Verhältnis etwa beträgt , ist keines der Modelle besonders besser als das andere. Wenn es weit von ist, bedeutet dies, dass eines der Modelle das andere übertrifft. ein Verhältnis von unter 5 ist schwach, 10 ist stark, 20 ist sehr stark und 100 ist entscheidend (entsprechender Kehrwert für kleine Zahlen).11

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.