Sie können die beiden Modelle nicht vergleichen, da sie nicht dieselbe Variable modellieren (wie Sie sich selbst richtig erkennen). Trotzdem sollte AIC beim Vergleich von verschachtelten und nicht verschachtelten Modellen funktionieren.
Noch eine Erinnerung, bevor wir fortfahren: Eine Gaußsche Log-Wahrscheinlichkeit ist gegeben durch
log(L(θ))=−|D|2log(2π)−12log(|K|)−12(x−μ)TK−1(x−μ),
ist die Kovarianzstruktur Ihres Modells, | D | die Anzahl der Punkte in Ihren Datensätzen, μ die mittlere Antwort und x Ihre abhängige Variable.K|D|μx
Insbesondere wird berechnet, dass der AIC gleich , wobei k die Anzahl der festen Effekte in Ihrem Modell und L Ihre Wahrscheinlichkeitsfunktion ist [1]. Es vergleicht praktisch den Kompromiss zwischen Varianz ( 2 k ) und Bias ( 2 log ( L ) ) in Ihren Modellannahmen. Als solches würde es in Ihrem Fall zwei verschiedene Log-Likelihood-Strukturen vergleichen, wenn es um den Bias-Term geht. Das liegt daran, dass Sie, wenn Sie Ihre log-Wahrscheinlichkeit praktisch berechnen, zwei Terme betrachten: einen Fit-Term, der mit - 1 bezeichnet wird2k−2log(L)kL2k2log(L)und ein Komplexitätsabzugsterm, der mit-1 bezeichnet ist−12(x−μ)TK−1(x−μ). Daher sehen Sie, dass Ihr Fit-Term zwischen den beiden Modellen völlig unterschiedlich ist. Im ersten Fall vergleichen Sie die Residuen der Rohdaten und im anderen Fall die Residuen der protokollierten Daten.−12log(|K|)
Neben Wikipedia wird AIC auch definiert, um Folgendes gleichzusetzen: [3]; Diese Form macht noch deutlicher, warum verschiedene Modelle mit unterschiedlichen abhängigen Variablen nicht vergleichbar sind. Das RSS ist in beiden Fällen einfach unvergleichlich zwischen den beiden.|D|log(RSS|D|)+2k
Akaikes Originalpapier [4] ist eigentlich ziemlich schwer zu fassen (glaube ich). Es basiert auf der KL-Divergenz (ungefährer Unterschied zwischen zwei Verteilungen) und zeigt auf, wie Sie die unbekannte wahre Verteilung Ihrer Daten approximieren und diese mit der Verteilung der Daten vergleichen können, die Ihr Modell annimmt. Das ist der Grund, warum "ein kleinerer AIC-Score besser ist" . Sie sind näher an der ungefähren tatsächlichen Verteilung Ihrer Daten.
Um alles zusammen zu bringen, sind die offensichtlichen Dinge, die bei der Verwendung von AIC zu beachten sind, drei [2,5]:
Sie können es nicht zum Vergleichen von Modellen verschiedener Datensätze verwenden.
Sie sollten für alle Kandidatenmodelle die gleichen Antwortvariablen verwenden.
Du solltest haben , weil sonst nicht tun Sie gut asymptotisch Konsistenz erhalten.|D|>>k
Es tut uns leid, Ihnen die schlechten Nachrichten zu überbringen, aber die Verwendung von AIC, um zu zeigen, dass Sie eine abhängige Variable einer anderen vorziehen, ist statistisch gesehen keine gute Sache. Überprüfen Sie die Verteilung Ihrer Residuen in beiden Modellen. Wenn der Fall der protokollierten Daten normalverteilte Residuen enthält und der Fall der Rohdaten nicht, verfügen Sie über alle Begründungen, die Sie jemals benötigen könnten. Möglicherweise möchten Sie auch überprüfen, ob Ihre Rohdaten einem Lognormal entsprechen. Dies ist möglicherweise auch eine ausreichende Begründung.
Für strenge mathematische Annahmen ist das Spiel KL Divergenz und Informationstheorie ...
Ah, und einige Referenzen:
- http://en.wikipedia.org/wiki/Akaike_information_criterion
- Akaike-Informationskriterium, Shuhua Hu, (Präsentation S. 17-18)
- Applied Multivariate Statistical Analysis, Johnson & Wichern, 6. Aufl. (S. 386-387)
- Ein neuer Blick auf die statistische Modellidentifikation, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
- Modellauswahl-Tutorial Nr. 1: Akaikes Informationskriterium, D. Schmidt und E. Makalic (Präsentation S.39)