Testen der AIC-Differenz zweier nicht verschachtelter Modelle


12

Der springende Punkt von AIC oder einem anderen Informationskriterium ist, dass weniger besser ist. Wenn ich also zwei Modelle M1 habe: y = a0 + XA + e und M2: y = b0 + ZB + u, und wenn der AIC des ersten (A1) kleiner ist als der des zweiten (A2), dann hat M1 eine bessere Anpassung aus informationstheoretischer Sicht. Aber gibt es einen Cutoff-Benchmark für den Unterschied A1-A2? Wie viel weniger ist eigentlich weniger? Mit anderen Worten, gibt es einen anderen Test für (A1-A2) als nur Augapfel?

Edit: Peter / Dmitrij ... Danke für die Antwort. Tatsächlich ist dies ein Fall, in dem meine Sachkenntnis mit meiner statistischen Sachkenntnis in Konflikt steht. Im Wesentlichen besteht das Problem NICHT in der Wahl zwischen zwei Modellen, sondern in der Überprüfung, ob zwei Variablen, von denen ich weiß, dass sie weitgehend äquivalent sind, äquivalente Informationsmengen hinzufügen (tatsächlich eine Variable im ersten Modell und ein Vektor im zweiten. Denken Sie an den Fall von eine Reihe von Variablen im Vergleich zu einem Index von ihnen.). Wie Dmitrij betonte, scheint der Cox-Test die beste Wahl zu sein. Aber gibt es eine Möglichkeit, den Unterschied zwischen den Informationsinhalten der beiden Modelle tatsächlich zu testen?


Sie könnten auch interessiert sein an Wagonmakers et al. (2004). Bewertung der Modellnachahmung mithilfe des parametrischen Bootstraps. Journal of Mathematical Psychology, 48 , 28-50. ( pdf ).
gung - Reinstate Monica

Antworten:


13

Ist die Frage der Neugier, dh Sie sind mit meiner Antwort hier nicht zufrieden ? Wenn nicht...

Die weitere Untersuchung dieser kniffligen Frage ergab, dass es eine häufig verwendete Faustregel gibt, die besagt, dass zwei Modelle nicht durch das Kriterium unterscheiden sind, wenn die Differenz | A I C 1 - A I C 2 | < 2 . Das selbe, das Sie tatsächlich in Wikipedia's Artikel über A I C lesen werden (beachten Sie, dass der Link anklickbar ist!). Nur für diejenigen, die nicht auf die Links klicken:AIC|AIC1AIC2|<2AIC

schätzt die relative Unterstützung für ein Modell. Um dies in der Praxis anzuwenden, beginnen wir mit einer Reihe von Kandidatenmodellen und ermitteln dann die entsprechenden A I C -Werteder Modelle. Bestimmen Sie als nächstes den minimalen A I C -Wert. Die Auswahl eines Modells kann dann wie folgt erfolgen.AICAICAIC

Als grobe Faustregel mit Modellen ihrer innerhalb 1 - 2 der minimalen substanzielle Unterstützung haben und Berücksichtigung finden sollte Rückschlüsse zu machen. Modelle mit einem A I C innerhalb von etwa 4 bis 7 des Minimums haben eine erheblich geringere Unterstützung, während Modelle mit einem A I C > 10 über dem Minimum entweder im Wesentlichen keine Unterstützung haben und möglicherweise aus weiteren Überlegungen herausgenommen werden oder zumindest einige nicht erklären erhebliche strukturelle Abweichungen in den Daten.AIC12AIC47AIC>10

Ein allgemeinerer Ansatz lautet wie folgt:

Bezeichne die - Werte der Kandidatenmodelle von A I C 1 , A I C 2 , A I C 3 , ... , A I C R . Sei A I C m i n das Minimum dieser Werte. Dann e ( A I C m i n - A I C i ) / 2AICAIC1AIC2,AIC3,,AICRAICmine(AICminAICi)/2kann als relative Wahrscheinlichkeit interpretiert werden, dass das te Modell den (erwarteten geschätzten) Informationsverlust minimiert.i

Angenommen, der Kandidatensatz enthält drei Modelle mit den -Werten 100 , 102 und 110 . Dann ist das zweite Modell e ( 100 - 102 ) / 2 = 0,368- mal so wahrscheinlich wie das erste Modell, um den Informationsverlust zu minimieren, und das dritte Modell ist e ( 100 - 110 ) / 2 = 0,007AIC100102110e(100102)/2=0.368e(100110)/2=0.007Mal so wahrscheinlich wie das erste Modell, um den Informationsverlust zu minimieren. In diesem Fall lassen wir das dritte Modell möglicherweise aus der weiteren Betrachtung aus und nehmen einen gewichteten Durchschnitt der ersten beiden Modelle mit den Gewichten bzw. 0,368 . Die statistische Inferenz würde dann auf dem gewichteten Multimodell basieren.10.368

Eine nette Erklärung und nützliche Vorschläge, meiner Meinung nach. Nur keine Angst davor zu lesen, was anklickbar ist!

In Außerdem , beachten Sie nochmals, ist weniger bevorzugt , für große Datenmengen. Zusätzlich zu B I C kann Sie nützlich Bias-korrigierte Version anzuwenden A I C Kriterium A I C C (Sie können so Code oder verwenden Sie die Formel A I C C = A I C + 2 p ( p + 1 )AICBICAICAICcR , wobeipdie Anzahl der geschätzten Parameter ist). Die Faustregel ist jedoch dieselbe. AICc=AIC+2p(p+1)np1p


Hallo Dmitrij ... Ich wusste, dass du das sehen würdest. Tatsächlich hat Ihre Antwort auf die ursprüngliche Frage diesen Zug ins Rollen gebracht. Ich dachte, das wäre eine interessante eigenständige Frage. Das Problem, mit dem ich mich auseinandersetze, ist, dass statistische Tests (einschließlich des Cox-Tests) häufig durchgeführt werden und Sie daher die Unterschiede zwischen zwei Modellen auf einem vordefinierten Signifikanzniveau testen können. Aber AIC / BIC basieren auf der Wahrscheinlichkeit, und es scheint mir, dass die Zahlen nur als Faustregel direkt verglichen werden können. Da IC-Maße abhängig von der Skala sind, kann ein absoluter Wert (2) problematisch sein, nein?
user3671

@user, Der absolute Wert ist unproblematisch. Sie können sich für einen Vorschlag zur relativen Wahrscheinlichkeit entscheiden, sodass Sie wahrscheinlich sicherer sind als ein netter Wert von 2 . Mit Skaleneffekt meinen Sie, wenn das Kriterium in kleinen Stichproben weniger verzerrt und in großen konsistent ist? Versuchen Sie konsistent B I C statt und A I C c für kleine Proben wird auch eine gute Alternative. Faustregel sind noch verwendbar. 22BICAICc
Dmitrij Celov

1
@DmitrijCelov (vor einiger Zeit +1) nette Antwort - danke für das Einfügen des Textes, da Wikipedia nicht mehr die in den ersten beiden Absätzen behandelten Punkte hat. Der entfernte Absatz wurde als p zitiert. 446: Burnham, K. P., and Anderson, D.R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, 2nd ed. Springer-Verlag. ISBN 0-387-95364-7. und die Wiki-Seite vor der Überarbeitung ist da
James Stanley

Ich sollte beachten, dass ich das Burnham-Buch nicht gelesen habe und dass die alte Wiki-Referenz den zitierten Text als Paraphrase vorschlug. Zur Info, die Wiki-Seite wurde am 16:52, 15. April 2011 bearbeitet.
James Stanley

Könnten Sie vielleicht bei dieser Anschlussfrage helfen? stats.stackexchange.com/questions/349883/…
Tripartio

8

Ich denke, dies könnte ein Versuch sein, das zu bekommen, was Sie nicht wirklich wollen.

Modellauswahl ist keine Wissenschaft. Außer in seltenen Fällen gibt es kein perfektes oder gar ein "wahres" Modell. Es gibt selten ein "bestes" Modell. Diskussionen von AIC vs. AICc vs. BIC vs. SBC vs. Ich denke, die Idee ist, ein paar gute Modelle zu bekommen. Sie wählen dann aus, basierend auf einer Kombination aus fundiertem Fachwissen und statistischen Ideen. Wenn Sie keine fundierte Fachkenntnis haben (selten; viel seltener als die meisten Leute annehmen), wählen Sie den niedrigsten AIC (oder AICc oder was auch immer). In der Regel verfügen Sie jedoch über ein gewisses Fachwissen. Warum untersuchen Sie diese speziellen Variablen?


2
+1 zur Hervorhebung des Bedarfs an statistischem und inhaltlichem Fachwissen.
chl
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.