Ich würde argumentieren, dass zumindest bei der Diskussion linearer Modelle (wie AR-Modelle) angepasste R.2 und AIC nicht so unterschiedlich sind.
Betrachten Sie die Frage, ob in
y = X 1 ( n × K 1 ) β 1 + X 2 ( n × K 2 ) β 2 + ϵ enthalten sein soll.
Dies entspricht dem Vergleich der Modelle
M 1X.2
y= X.1( n × K.1)β1+ X.2( n × K.2)β2+ ϵ
wobei
E(u|X1,X2)=0 ist. Wir sagen, dass
M2das
wahre Modell ist,wenn
β2≠0 ist. Beachten Sie, dass
M1⊂M2 ist. Die Modelle sind somit
verschachtelt. Ein Modellauswahlprozedur
MM.1M.2::::y= X.1β1+ uy= X.1β1+ X.2β2+ u ,
E.( u | X.1, X.2) = 0M.2β2≠ 0M.1⊂ M.2M.ˆ ist eine datenabhängige Regel, die das plausibelste von mehreren Modellen auswählt.
M.ˆ
limn → ∞P.( M.ˆ= M.1| M.1)limn → ∞P.( M.ˆ= M.2| M.2)==11
Betrachten Sie das angepasste . Das heißt, wählen Sie wenn . Da in monoton abnimmt , entspricht diese Prozedur der Minimierung von . Dies entspricht wiederum der Minimierung von . Für ausreichend großes kann letzteres als
whereR.2M.1R.¯21> R.¯22R.¯2s2s2Log( s2)n
log(s2)==≈≈log(σˆ2nn−K)log(σˆ2)+log(1+Kn−K)log(σˆ2)+Kn−Klog(σˆ2)+Kn,
σˆ2ist der ML-Schätzer der Fehlervarianz. Die Modellauswahl basierend auf entspricht daher asymptotisch der Auswahl des Modells mit dem kleinsten
. Dieses Verfahren ist inkonsistent.
R¯2log(σˆ2)+K/n
Satz :
limn→∞P(R¯21>R¯22|M1)<1
Beweis :
wobei die vorletzte Zeile folgt, da die Statistik die LR-Statistik im linearen Regressionsfall ist, der einem asymptotischen folgt Nullverteilung. QED
P(R¯21>R¯22|M1)≈=≈=→<P(log(s21)<log(s22)|M1)P(nlog(s21)<nlog(s22)|M1)P(nlog(σˆ21)+K1<nlog(σˆ22)+K1+K2|M1)P(n[log(σˆ21)−log(σˆ22)]<K2|M1)P(χ2K2<K2)1,
χ2K2
Betrachten Sie nun Akaikes Kriterium
Daher tauscht der AIC auch die Reduzierung der SSR durch zusätzliche Regressoren gegen die "Strafzeit" aus , "die in die entgegengesetzte Richtung zeigt. Wählen Sie also wenn
, andernfalls .
AIC=log(σˆ2)+2Kn
M1AIC1<AIC2M2
Es ist ersichtlich, dass der auch inkonsistent ist, indem der obige Beweis in Zeile drei mit . Das angepasste und der wählen daher mit positiver Wahrscheinlichkeit das "große" Modell , selbst wenn das wahre Modell ist.AICP(nlog(σˆ21)+2K1<nlog(σˆ22)+2(K1+K2)|M1)R2AICM2M1
Da der Nachteil für die Komplexität in AIC etwas größer ist als für angepasstes , ist es möglicherweise weniger anfällig für eine Überauswahl. Und es hat andere nette Eigenschaften (Minimierung der KL-Divergenz zum wahren Modell, wenn dies nicht in der Gruppe der betrachteten Modelle enthalten ist), die in meinem Beitrag nicht behandelt werden.R2