Leider wird dies eine eher unbefriedigende Antwort sein ...
Zunächst verwenden Sie normalerweise für die AIC-Berechnung die Maximum-Likelihood-Schätzung von die verzerrt wäre. Das würde sich also auf reduzieren und letztendlich würde sich die Berechnung auf reduzieren . Zweitens verweise ich Sie auf den Wikipedia-Artikel über AIC, insbesondere im Abschnitt über Äquivarianzfälle . Wie Sie dort sehen, ist es klar, dass die meisten Ableitungen eine Konstante weglassen . Diese Konstante ist für Modellvergleichszwecke irrelevant und wird daher weggelassen. Es ist etwas üblich, widersprüchliche Ableitungen von AIC zu sehen, genau wegen dieses Problems. Zum Beispiel geben Johnson & Wicherns Applied Multivariate Statistical Analysis, 6. Ausgabe , AIC wie folgt an:σ 2 = R S S.σ2σ2= R S.S.n1 + 2 dnC.n log( R S.S.N.) + 2 d (Kap. 7.6), was eindeutig nicht der Definition von James et al. du benutzt. Kein Buch ist per se falsch . Nur Leute, die verschiedene Konstanten verwenden. Im Fall von James et al. Buch es scheint, dass sie diesen Punkt nicht anspielen. In anderen Büchern z. Ravishanker und Dey's Ein erster Kurs in linearer Modelltheorie Dies ist umso tiefer, als die Autoren schreiben:
A ichC.( p )= - 2 l ( y;; X., β^M.L., σ^2M.L.) + 2 p= - N.Log( σ^2M.L.) / 2 - N./ 2+2p( 7.5.10 )
was interessanterweise auch nicht gleichzeitig wahr sein kann. Wie Burnham & Anderson (1998) Chapt 2.2 schreiben: " Im speziellen Fall der kleinsten Quadrate (LS) Schätzung mit normalerweise Fehler verteilt ist , und abgesehen von einem beliebigen additiven Konstante kann AIC als eine einfache Funktion der Restsumme von Quadraten ausgedrückt werden . "; B & A schlägt dieselbe AIC-Variante vor, die J & W verwendet. Was Sie durcheinander bringt, ist diese bestimmte Konstante (und die Tatsache, dass Sie die ML-Schätzung nicht für die Residuen verwendet haben). Wenn ich mir M. Bishops Mustererkennung und maschinelles Lernen (2006) anschaue, finde ich eine noch widersprüchlichere Definition als:
A ichC.= l ( D | wM.L.) - M.( 1,73 )
Das ist lustig, weil es nicht nur den Multiplikator aus dem Originalpapier weglässt, sondern auch die Zeichen taumelt, damit die AIC-basierte Auswahl als Maximierungsproblem verwendet werden kann ...
Ich würde empfehlen, bei der altmodischen Definition bleiben, wenn Sie theoretische Ableitungen durchführen möchten. Dies ist der, den Akaike in seiner Originalarbeit angibt. Alle anderen Zwischenformeln neigen dazu, chaotisch zu sein und / oder implizite Annahmen zu treffen. Wenn es ein Trost ist, haben Sie "nichts falsch gemacht".- 2 log( L ) + 2 p