Soweit ich das beurteilen kann, gibt es keinen großen Unterschied zwischen AIC und BIC. Sie sind beide mathematisch bequeme Näherungen, die man machen kann, um Modelle effizient zu vergleichen. Wenn sie Ihnen unterschiedliche "beste" Modelle liefern, bedeutet dies wahrscheinlich, dass Sie eine hohe Modellunsicherheit haben, was wichtiger ist, als sich Gedanken darüber zu machen, ob Sie AIC oder BIC verwenden sollten. Ich persönlich mag BIC besser, weil es mehr (weniger) eines Modells fragt, ob es mehr (weniger) Daten für seine Parameter hat - ähnlich wie ein Lehrer, der nach einem höheren (niedrigeren) Leistungsstandard fragt, wenn sein Schüler mehr (weniger) hat ) Zeit, sich mit dem Thema vertraut zu machen. Für mich scheint dies nur die intuitive Aufgabe zu sein. Aber dann bin ich sicher, dass es auch für AIC aufgrund seiner einfachen Form ebenso intuitive und überzeugende Argumente gibt.
Wenn Sie nun eine Annäherung vornehmen, gibt es sicherlich einige Bedingungen, unter denen diese Annäherungen Unsinn sind. Dies ist sicherlich bei AIC zu beobachten, wo es viele "Anpassungen" (AICc) gibt, um bestimmte Bedingungen zu berücksichtigen, die die ursprüngliche Annäherung schlecht machen. Dies gilt auch für die BIC, da es verschiedene andere genauere (aber immer noch effiziente) Methoden gibt, z. B. die vollständige Laplace-Approximation von Gemischen aus Zellners g-Priors (die BIC ist eine Annäherung an die Laplace-Approximationsmethode für Integrale).
Ein Ort, an dem sie beide Mist sind, ist, wenn Sie wesentliche vorherige Informationen über die Parameter in einem bestimmten Modell haben. AIC und BIC bestrafen Modelle, bei denen Parameter teilweise bekannt sind, unnötigerweise im Vergleich zu Modellen, bei denen Parameter aus den Daten geschätzt werden müssen.
Eine Sache, die ich für wichtig halte, ist, dass BIC nicht annimmt, dass ein "wahres" Modell existiert, a) oder b) im Modellsatz enthalten ist. BIC ist einfach eine Annäherung an eine integrierte Wahrscheinlichkeit (D = Daten, M = Modell, A = Annahmen). Nur durch Multiplikation mit einer vorherigen Wahrscheinlichkeit und anschließende Normalisierung erhalten Sie . BIC stellt einfach dar, wie wahrscheinlich die Daten waren, wenn der Satz, der durch das Symbol impliziert wird, wahr ist. Aus logischer Sicht wird also jeder Vorschlag, der näherungsweise zum BIC führen würde, von den Daten gleichermaßen unterstützt. Wenn ich also und als Sätze sageP(D|M,A)P(M|D,A)MMA
Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best
Und dann weiterhin die gleichen Wahrscheinlichkeitsmodelle zuweisen (gleiche Parameter, gleiche Daten, gleiche Annäherungen usw.), bekomme ich den gleichen Satz von BIC-Werten. Nur wenn man dem logischen Buchstaben "M" eine eindeutige Bedeutung beimisst, gerät man in irrelevante Fragen über "das wahre Modell" (Echos von "die wahre Religion"). Das einzige, was M "definiert", sind die mathematischen Gleichungen, die es in ihren Berechnungen verwenden - und dies wird kaum jemals eine einzige Definition herausgreifen. Ich könnte auch eine Vorhersage über M machen ("das i-te Modell liefert die besten Vorhersagen"). Ich persönlich kann nicht sehen, wie sich dadurch die Wahrscheinlichkeit ändert und wie gut oder schlecht der BIC sein wird (AIC auch in dieser Hinsicht - obwohl AIC auf einer anderen Herleitung basiert).
Und außerdem, was ist mit der Aussage falsch? Wenn das wahre Modell in der Menge ist, die ich betrachte, dann gibt es eine 57% ige Wahrscheinlichkeit, dass es Modell B ist . Scheint mir vernünftig, oder Sie könnten die "weichere" Version wählen, da die Wahrscheinlichkeit, dass Modell B das Beste aus der Menge ist, die in Betracht gezogen wird, bei 57% liegt
Ein letzter Kommentar: Ich denke, Sie werden ungefähr so viele Meinungen über AIC / BIC finden, wie es Leute gibt, die über sie Bescheid wissen.