Ich habe einen Abschluss in Wirtschaftswissenschaften und studiere derzeit einen Master in Datentechnik. Während ich die lineare Regression (LR) und dann die Zeitreihenanalyse (TS) studierte, kam mir eine Frage in den Sinn. Warum eine völlig neue Methode erstellen, dh Zeitreihen (ARIMA), anstatt mehrere lineare Regressionen zu verwenden und verzögerte Variablen hinzuzufügen (wobei die Reihenfolge der Verzögerungen mit ACF und PACF bestimmt wird)? Deshalb schlug der Lehrer vor, dass ich einen kleinen Aufsatz über das Thema schreibe. Ich würde nicht mit leeren Händen nach Hilfe suchen, also recherchierte ich zu diesem Thema.
Ich wusste bereits, dass bei Verwendung von LR die OLS-Regression falsch ist, wenn die Gauß-Markov-Annahmen verletzt werden, und dass dies bei Verwendung von Zeitreihendaten (Autokorrelation usw.) der Fall ist. (Eine andere Frage dazu ist die Annahme des GM, dass die unabhängigen Variablen normal verteilt sein sollten - oder nur die abhängige Variable, die von den unabhängigen abhängig ist?)
Ich weiß auch, dass bei der Verwendung einer verteilten Verzögerungsregression, die ich hier vorschlage, und der Verwendung von OLS zur Schätzung von Parametern Multikollinearität zwischen Variablen (offensichtlich) auftreten kann, sodass Schätzungen falsch wären.
In einem ähnlichen Beitrag über TS und LR sagte @IrishStat:
Ein Regressionsmodell ist ein spezieller Fall eines Übertragungsfunktionsmodells, das auch als dynamisches Regressionsmodell oder XARMAX-Modell bezeichnet wird. Der hervorstechende Punkt ist die Modellidentifikation in Zeitreihen, dh die geeigneten Unterschiede, die geeigneten Verzögerungen der X, die geeignete ARIMA-Struktur, die geeignete Identifizierung nicht spezifizierter deterministischer Strukturen wie Impulse, Pegelverschiebungen, lokale Zeittrends, saisonale Impulse und Inkorporation Änderungen von Parametern oder Fehlervarianz müssen berücksichtigt werden.
(Ich habe auch seinen Artikel in Autobox über Box Jenkins vs LR gelesen.) Aber dies löst meine Frage immer noch nicht (oder zumindest klärt es nicht die unterschiedlichen Mechanismen von RL und TS für mich).
Es ist offensichtlich, dass auch bei verzögerten Variablen OLS-Probleme auftreten und diese weder effizient noch korrekt sind. Bestehen diese Probleme jedoch bei maximaler Wahrscheinlichkeit weiterhin? Ich habe gelesen, dass ARIMA durch die maximale Wahrscheinlichkeit geschätzt wird. Wenn also LR mit Verzögerungen mit ML anstelle von OLS geschätzt wird, liefert dies die "richtigen" Koeffizienten (nehmen wir an, dass wir auch verzögerte Fehlerterme einschließen, wie ein MA der Ordnung q).
Kurz gesagt, ist das Problem OLS? Ist das Problem mit ML gelöst?