Unterschiedliche AIC-Definitionen


12

Aus Wikipedia gibt es eine Definition von Akaikes Informationskriterium (AIC) als , wobei die Anzahl der Parameter und die log-Wahrscheinlichkeit des Modells ist.AIC=2k2logLklogL

Unsere Ökonometrie stellt jedoch an einer angesehenen Universität fest, dass . Hier ist die geschätzte Varianz für die Fehler in einem ARMA-Modell und die Anzahl der Beobachtungen im Zeitreihendatensatz.AIC=log(σ^2)+2kTσ^2T

Ist die letztere Definition gleichbedeutend mit der ersten, aber einfach auf ARMA-Modelle abgestimmt? Oder gibt es einen Konflikt zwischen den beiden Definitionen?


3
Für die Aufzeichnung: Kriterium Singular, Plural. (Entsprechend bearbeitet.)
Nick Cox

Antworten:


15

Die Formel, die Sie aus Ihren Notizen zitieren, ist nicht genau AIC.

AIC ist .-2LogL+2k

Hier werde ich eine ungefähre Ableitung skizzieren, die klar genug macht, was los ist.

Wenn Sie ein Modell mit unabhängigen normalen Fehlern mit konstanter Varianz haben,

Lσ-ne-12σ2εich2

die unter maximaler Wahrscheinlichkeit geschätzt werden kann als

(σ^2)-n/2e-12nσ^2/σ^2(σ^2)-n/2e-12n(σ^2)-n/2

(Unter der Annahme, dass die Schätzung von die ML-Schätzung ist)σ2

So (bis durch eine Konstante zu verschieben)-2LogL+2k=nLogσ^2+2k

Wenn nun im ARMA-Modell im Vergleich zu p und q wirklich groß ist, kann die Wahrscheinlichkeit durch ein solches Gauß-Gerüst angenähert werden (z. B. können Sie den ARMA ungefähr als einen längeren AR und eine Bedingung mit genügend Bedingungen schreiben, um diesen AR zu schreiben als Regressionsmodell), also mit T anstelle von n :TpqTn

AICTlogσ^2+2k

daher

AIC/Tlogσ^2+2k/T

Wenn Sie nun einfach AICs vergleichen , spielt diese Division durch keine Rolle, da sie die Reihenfolge der AIC-Werte nicht ändert.T

Wenn Sie AIC jedoch für einen anderen Zweck verwenden, der sich auf den tatsächlichen Wert der Unterschiede in AIC stützt (z. B. für die von Burnham und Anderson beschriebene Multimodell-Inferenz), ist dies von Bedeutung.

Zahlreiche ökonometrische Texte scheinen diese AIC / T-Form zu verwenden. Seltsamerweise scheinen einige Bücher auf Hurvich und Tsai 1989 oder Findley 1985 für diese Form Bezug zu nehmen, aber Hurvich & Tsai und Findley scheinen die ursprüngliche Form zu diskutieren (obwohl ich nur einen indirekten Hinweis darauf habe, was Findley gerade tut, also gibt es vielleicht einen etwas in Findley drauf).

Eine solche Skalierung kann aus einer Vielzahl von Gründen erfolgen - zum Beispiel können Zeitreihen, insbesondere Hochfrequenz-Zeitreihen, sehr lang sein und gewöhnliche AICs können dazu neigen, unhandlich zu werden, insbesondere wenn sehr klein ist. (Es gibt einige andere mögliche Gründe, aber da ich den Grund dafür wirklich nicht kenne, gehe ich nicht alle möglichen Gründe durch.)σ2

Vielleicht möchten Sie sich Rob Hyndmans Liste der Fakten und Irrtümer des AIC ansehen , insbesondere die Punkte 3 bis 7. Einige dieser Punkte könnten dazu führen, dass Sie zumindest ein wenig vorsichtig sind, wenn Sie sich zu stark auf die Annäherung nach der Gaußschen Wahrscheinlichkeit verlassen, aber Vielleicht gibt es eine bessere Rechtfertigung, als ich hier anbiete.

Ich bin mir nicht sicher, ob es einen guten Grund gibt, diese Annäherung an die Log-Wahrscheinlichkeit anstelle des tatsächlichen AIC zu verwenden, da heutzutage viele Zeitreihenpakete dazu neigen, die tatsächliche Log-Wahrscheinlichkeit für ARMA-Modelle zu berechnen (/ maximieren). Es scheint wenig Grund zu geben, es nicht zu benutzen.


1
Früher oder später wird jede Diskussion über ein * IC zu "Dies ist das Kriterium, das Sie verwenden sollten, mit der Ausnahme, dass es unter solchen Umständen oft die falsche Antwort gibt". Nur ironisch zu sein, überhaupt nicht kritisch gegenüber einer typisch hilfreichen Antwort. Dies ist genau wie im echten Leben, wo eine generische Maxime wie "Liebe alle" normalerweise vorübergehend durch andere Ratschläge außer Kraft gesetzt wird, wenn jemand versucht, Sie zu schlagen oder abzureißen.
Nick Cox

1
n

2

Ich glaube, dass dies auf der Annahme normaler Fehler beruht. In der Ökonometrie arbeiten Sie mit Asymptotik, insbesondere in Zeitreihenanwendungen mit AIC. Folglich sollte die normale Annahme asymptotisch gelten, um dieses (asymptotische) Modellauswahlschema zu rechtfertigen.

ln(L)=-(T/2)ln(2π)-(T/2)ln(σ2)-(1/2σ2)(xich-μ)E(X)=μVeinr(X)=σ2x1,...,xT

LTln(σ2)(1/σ2)(Tσ^2)σ^2=T1(xix¯)σ2(1/σ2)(Tσ^2)=(1/σ^2)(Tσ^2)

AIC=2k+Tln(σ2)+11TTAICAIC/T

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.