Voraussetzungen für den AIC-Modellvergleich


26

Was genau sind die Voraussetzungen, die erfüllt sein müssen, damit der AIC-Modellvergleich funktioniert?

Ich bin gerade auf diese Frage gekommen, als ich einen Vergleich so anstellte:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

Auf diese Weise habe ich die logTransformation von Variablen begründet usili. Aber ich weiß nicht, ob ich AIC-Modelle vergleichen kann, wenn zum Beispiel die abhängige Variable unterschiedlich ist?

Die ideale Antwort wäre die Liste der Voraussetzungen (mathematische Annahmen).

Antworten:


29

Sie können die beiden Modelle nicht vergleichen, da sie nicht dieselbe Variable modellieren (wie Sie sich selbst richtig erkennen). Trotzdem sollte AIC beim Vergleich von verschachtelten und nicht verschachtelten Modellen funktionieren.

Noch eine Erinnerung, bevor wir fortfahren: Eine Gaußsche Log-Wahrscheinlichkeit ist gegeben durch

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

ist die Kovarianzstruktur Ihres Modells, | D | die Anzahl der Punkte in Ihren Datensätzen, μ die mittlere Antwort und x Ihre abhängige Variable.K|D|μx

Insbesondere wird berechnet, dass der AIC gleich , wobei k die Anzahl der festen Effekte in Ihrem Modell und L Ihre Wahrscheinlichkeitsfunktion ist [1]. Es vergleicht praktisch den Kompromiss zwischen Varianz ( 2 k ) und Bias ( 2 log ( L ) ) in Ihren Modellannahmen. Als solches würde es in Ihrem Fall zwei verschiedene Log-Likelihood-Strukturen vergleichen, wenn es um den Bias-Term geht. Das liegt daran, dass Sie, wenn Sie Ihre log-Wahrscheinlichkeit praktisch berechnen, zwei Terme betrachten: einen Fit-Term, der mit - 1 bezeichnet wird2k2log(L)kL2k2log(L)und ein Komplexitätsabzugsterm, der mit-1 bezeichnet ist12(xμ)TK1(xμ). Daher sehen Sie, dass Ihr Fit-Term zwischen den beiden Modellen völlig unterschiedlich ist. Im ersten Fall vergleichen Sie die Residuen der Rohdaten und im anderen Fall die Residuen der protokollierten Daten.12log(|K|)

Neben Wikipedia wird AIC auch definiert, um Folgendes gleichzusetzen: [3]; Diese Form macht noch deutlicher, warum verschiedene Modelle mit unterschiedlichen abhängigen Variablen nicht vergleichbar sind. Das RSS ist in beiden Fällen einfach unvergleichlich zwischen den beiden.|D|log(RSS|D|)+2k

Akaikes Originalpapier [4] ist eigentlich ziemlich schwer zu fassen (glaube ich). Es basiert auf der KL-Divergenz (ungefährer Unterschied zwischen zwei Verteilungen) und zeigt auf, wie Sie die unbekannte wahre Verteilung Ihrer Daten approximieren und diese mit der Verteilung der Daten vergleichen können, die Ihr Modell annimmt. Das ist der Grund, warum "ein kleinerer AIC-Score besser ist" . Sie sind näher an der ungefähren tatsächlichen Verteilung Ihrer Daten.

Um alles zusammen zu bringen, sind die offensichtlichen Dinge, die bei der Verwendung von AIC zu beachten sind, drei [2,5]:

  1. Sie können es nicht zum Vergleichen von Modellen verschiedener Datensätze verwenden.

  2. Sie sollten für alle Kandidatenmodelle die gleichen Antwortvariablen verwenden.

  3. Du solltest haben , weil sonst nicht tun Sie gut asymptotisch Konsistenz erhalten.|D|>>k

Es tut uns leid, Ihnen die schlechten Nachrichten zu überbringen, aber die Verwendung von AIC, um zu zeigen, dass Sie eine abhängige Variable einer anderen vorziehen, ist statistisch gesehen keine gute Sache. Überprüfen Sie die Verteilung Ihrer Residuen in beiden Modellen. Wenn der Fall der protokollierten Daten normalverteilte Residuen enthält und der Fall der Rohdaten nicht, verfügen Sie über alle Begründungen, die Sie jemals benötigen könnten. Möglicherweise möchten Sie auch überprüfen, ob Ihre Rohdaten einem Lognormal entsprechen. Dies ist möglicherweise auch eine ausreichende Begründung.

Für strenge mathematische Annahmen ist das Spiel KL Divergenz und Informationstheorie ...

Ah, und einige Referenzen:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. Akaike-Informationskriterium, Shuhua Hu, (Präsentation S. 17-18)
  3. Applied Multivariate Statistical Analysis, Johnson & Wichern, 6. Aufl. (S. 386-387)
  4. Ein neuer Blick auf die statistische Modellidentifikation, H. Akaike, IEEE Transactions on Automatic Control 19 (6): 716–723 (1974)
  5. Modellauswahl-Tutorial Nr. 1: Akaikes Informationskriterium, D. Schmidt und E. Makalic (Präsentation S.39)

Vielen Dank! Ich habe die Mathematik nicht verstanden, aber ich habe den Kern der Botschaft verstanden. Können Sie jedoch bitte alle für den AIC-Modellvergleich erforderlichen Voraussetzungen auflisten? Nur um sicherzugehen, dass ich beim nächsten Mal keinen Fehler mehr machen werde. Ich gehe und überprüfe sie eins nach dem anderen.
Neugierig

1
|D|pL(θ)θp(x|θ)
usεr11852 sagt Reinstate Monic

1
Vielen Dank, dass Sie der Antwort eine Liste dieser drei Annahmen hinzugefügt haben! Das habe ich gebraucht.
Neugierig

1
Schauen Sie sich Ihre Antwort noch einmal an: Ihr Punkt 1. "Sie können damit nicht Modelle verschiedener Datensätze vergleichen" . Was meinst du mit "Datensatz"? Was ist, wenn ich den Satz abhängiger Variablen ändere? Ich denke, dass in diesem Fall AIC noch vergleichbar sein sollte? Können Sie bitte Ihre Antwort aktualisieren, um dies zu klären?
Neugierig

1
RSSμx

11

uu0iyi12ilog(yi)uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)


Ich verstehe nicht, was Sie mit Ihrem Versuch machen, AIC irgendwie zu "korrigieren" und was Sie tatsächlich davon haben (wie Sie Ihr Ergebnis interpretieren). Wie auch immer, beschäftigen Sie sich nicht damit, es spielt keine Rolle, da es sich bei meiner Frage um etwas völlig anderes handelte: Was sind die allgemeinen Voraussetzungen dafür, dass der AIC (tatsächlich, unkorrigiert) vernünftig vergleichbar ist? Konzentrieren Sie sich nicht auf dieses Beispiel, es ist nur ein Beispiel für die allgemeine Sache.
Neugierig

1
2log(p(y|θ))x=g(y)x=log(y)AIC() Ihnen verwendete Funktion berücksichtigt dies nicht.

@probabilityislogic: Haben Sie akademische Referenzen für Ihren Vorschlag (AIC (uu0) + 2 * Summe (log (usili)), damit ich sie in akademischen Schriften zitieren kann? Vielen Dank.
KuJ

3

Entnommen aus Akaike 1978

Dieser Auszug aus Akaike 1978 enthält ein Zitat zur Unterstützung der Lösung von @probabilityislogic.

Akaike, H. 1978. Zur Wahrscheinlichkeit eines Zeitreihenmodells. Zeitschrift der Royal Statistical Society. Series D (The Statistician) 27: 217 & ndash; 235.


1
Es tut mir leid, ich verstehe nicht, was "Transformation einer Variablen" ist und wie es mit meiner Frage zusammenhängt. Bitte erklären Sie, danke
Curious
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.