Gibt es einen Grund, den AIC oder den BIC dem anderen vorzuziehen?


222

Sowohl der AIC als auch der BIC sind Methoden zur Bewertung der Modellanpassung, die für die Anzahl der geschätzten Parameter bestraft werden. Wie ich es verstehe, bestraft BIC Modelle mehr für freie Parameter als AIC. Gibt es neben einer Präferenz, die auf der Stringenz der Kriterien basiert, andere Gründe, AIC gegenüber BIC vorzuziehen oder umgekehrt?


1
Ich halte es für angemessener, diese Diskussion als "Merkmalsauswahl" oder "Kovariatenauswahl" zu bezeichnen. Für mich ist die Modellauswahl viel umfassender und beinhaltet die Spezifikation der Fehlerverteilung, der Form der Verknüpfungsfunktion und der Form der Kovariaten. Wenn wir über AIC / BIC sprechen, befinden wir uns normalerweise in einer Situation, in der alle Aspekte der Modellbildung außer der Auswahl der Kovariaten festgelegt sind.

6
Die Entscheidung, welche spezifischen Kovariaten in ein Modell einbezogen werden sollen, erfolgt in der Regel nach dem Begriff Modellauswahl, und es gibt eine Reihe von Büchern mit Modellauswahl im Titel, die in erster Linie darüber entscheiden, welche Modellkovariaten / -parameter in das Modell einbezogen werden sollen.
Michael Chernick

Ich weiß nicht, ob Ihre Frage speziell auf die Phylogenie (Bioinformatik) zutrifft, aber wenn ja, kann diese Studie einige Gedanken zu diesem Aspekt liefern
tlorin

Bei der zusammengeführten Frage wird auch nach KIC gefragt . Bitte aktualisieren Sie den Fragentext und geben Sie eine Definition von KIC an, vorzugsweise mit Link.
smci

1
@smci Ich habe stats.stackexchange.com/questions/383923/… hinzugefügt , damit Leute bei Interesse Fragen zum KIC beantworten können.
Russellpierce

Antworten:


179

Ihre Frage impliziert, dass AIC und BIC versuchen, dieselbe Frage zu beantworten, was jedoch nicht zutrifft. Der AIC versucht, das Modell auszuwählen, das eine unbekannte, hochdimensionale Realität am besten beschreibt. Dies bedeutet, dass die Realität niemals in der Menge der in Betracht gezogenen Kandidatenmodelle enthalten ist. Im Gegenteil, BIC versucht, das WAHRE Modell unter den Kandidaten zu finden. Ich finde es ziemlich seltsam, dass die Realität in einem der Modelle instanziiert ist, die die Forscher auf diesem Weg gebaut haben. Dies ist ein echtes Problem für BIC.

Dennoch gibt es viele Forscher, die sagen, BIC sei besser als AIC, wobei Modellwiederherstellungssimulationen als Argument dienen. Diese Simulationen bestehen aus der Generierung von Daten aus den Modellen A und B und der anschließenden Anpassung beider Datensätze an die beiden Modelle. Eine Überanpassung tritt auf, wenn das falsche Modell besser zu den Daten passt als das Generieren. Bei diesen Simulationen geht es darum zu sehen, wie gut AIC und BIC diese Überanpassungen korrigieren. In der Regel deuten die Ergebnisse darauf hin, dass AIC zu liberal ist und immer noch häufig ein komplexeres, falsches Modell einem einfacheren, wahren Modell vorzieht. Auf den ersten Blick scheinen diese Simulationen wirklich gute Argumente zu sein, aber das Problem dabei ist, dass sie für AIC bedeutungslos sind. Wie ich bereits sagte, geht AIC nicht davon aus, dass eines der getesteten Kandidatenmodelle tatsächlich zutrifft. Laut AIC sind alle Modelle Annäherungen an die Realität, und die Realität sollte niemals eine geringe Dimensionalität haben. Zumindest niedriger als einige der Kandidatenmodelle.

Meine Empfehlung ist, sowohl AIC als auch BIC zu verwenden. Meistens stimmen sie über das bevorzugte Modell überein, wenn sie dies nicht tun, melden Sie es einfach.

Wenn Sie mit AIC und BIC unzufrieden sind und Zeit zum Investieren haben, schlagen Sie nach unter Minimum Description Length (MDL), einem völlig anderen Ansatz, der die Einschränkungen von AIC und BIC überwindet. Es gibt verschiedene Maßnahmen, die sich aus MDL ergeben, wie die normalisierte maximale Wahrscheinlichkeit oder die Fisher Information-Annäherung. Das Problem bei MDL ist, dass es mathematisch anspruchsvoll und / oder rechenintensiv ist.

Wenn Sie sich jedoch an einfache Lösungen halten möchten, ist die Implementierung von Parametric Bootstrap eine gute Methode zur Bewertung der Modellflexibilität (insbesondere, wenn die Anzahl der Parameter gleich ist und AIC und BIC unbrauchbar werden). Hier ist ein Link zu einem Artikel darüber.

Einige Leute hier befürworten die Verwendung der Kreuzvalidierung. Ich persönlich habe es benutzt und habe nichts dagegen, aber das Problem dabei ist, dass die Wahl unter den Stichprobenregel (Auslassen, K-Falz, usw.) nicht prinzipiell ist.


7
Unterschied kann aus rein mathematischen Standpunkt betrachtet werden - BIC als asymptotische Entwicklung von log P abgeleitet wurde (Daten) in dem echten Modellparameter abgetastet werden nach beliebigen Stand nirgends verschwindenden wurde in ähnlicher Weise mit AIC wahren Parameter gehalten fixiert abgeleitet
Yaroslav Bulatovs

4
Sie sagten, dass "es viele Forscher gibt, die sagen, dass BIC besser ist als AIC, wobei Modellwiederherstellungssimulationen als Argument verwendet werden. Diese Simulationen bestehen darin, Daten aus den Modellen A und B zu generieren und dann beide Datensätze mit den beiden Modellen zu kombinieren." Würden Sie so freundlich sein, auf einige Referenzen hinzuweisen? Ich bin neugierig auf sie! :)
deps_stats

2
Ich glaube nicht an die Aussagen in diesem Beitrag.
user9352

16
(-1) Gute Erklärung, aber ich möchte eine Behauptung anfechten. @ Dave Kellen Könnten Sie bitte einen Hinweis geben, wo die Idee, dass das WAHRE Modell im Set für BIC sein muss? Ich möchte dies untersuchen, da die Autoren in diesem Buch überzeugend nachweisen, dass dies nicht der Fall ist.
gui11aume

2
Tolle Antwort, aber ich bin nicht einverstanden mit der Aussage "Realität sollte niemals eine geringe Dimensionalität haben". Dies hängt davon ab, auf welche "Wissenschaft" Sie Ihre Modelle anwenden
David

76

Obwohl sowohl AIC als auch BIC von der Schätzung der maximalen Wahrscheinlichkeit abhängen und freie Parameter bestrafen, um Überanpassung zu bekämpfen, führen sie auf eine Weise zu einem erheblich unterschiedlichen Verhalten. Schauen wir uns eine häufig vorgestellte Version der Methoden an (deren Ergebnisse die Festlegung von normalverteilten Fehlern und anderen gut verhaltenden Annahmen beinhalten):

  • AIC = -2 * ln (Likelihood) + 2 * k,

und

  • BIC = -2 · ln (Wahrscheinlichkeit) + ln (N) · k,

wo:

  • k = Modellfreiheitsgrade
  • N = Anzahl der Beobachtungen

Das beste Modell in der verglichenen Gruppe ist dasjenige, das diese Werte in beiden Fällen minimiert. Offensichtlich hängt der AIC nicht direkt von der Stichprobengröße ab. Darüber hinaus stellt AIC im Allgemeinen die Gefahr dar, dass es zu einer Überanpassung kommt, während BIC die Gefahr darstellt, dass es zu einer Unteranpassung kommt, einfach aufgrund der Bestrafung freier Parameter (2 * k in AIC; ln (N) * k in BIC). Diachron, wenn Daten eingegeben und die Scores neu berechnet werden, ist BIC bei relativ niedrigem N (7 und weniger) toleranter gegenüber freien Parametern als AIC, bei höherem N jedoch weniger tolerant (da der natürliche Logarithmus von N 2 überwindet).

Zusätzlich zielt AIC darauf ab, das bestmögliche Approximationsmodell für den unbekannten Datenerzeugungsprozess zu finden (durch Minimieren der erwarteten geschätzten KL-Divergenz ). Als solches konvergiert es nicht in der Wahrscheinlichkeit zum wahren Modell (vorausgesetzt, es ist eines in der bewerteten Gruppe vorhanden), wohingegen der BIC konvergiert, wenn N gegen unendlich tendiert.

Wie bei vielen methodologischen Fragen hängt es also davon ab, was Sie tun möchten, welche anderen Methoden zur Verfügung stehen und ob eines der beschriebenen Merkmale (Konvergenz, relative Toleranz für freie Parameter, Minimierung der erwarteten KL-Divergenz) ), sprechen Sie mit Ihren Zielen.


8
gute Antwort. Eine mögliche Alternative zu AIC und BIC ist, dass AIC sagt, dass "Störeffekte" mit zunehmender Stichprobengröße nicht leichter zu erkennen sind (oder dass es uns egal ist, ob Störeffekte in das Modell einfließen). BIC sagt, dass dies der Fall ist. Aus OLS-Sicht wird der Effekt in AIC ungefähr "signifikant" (dh das größere Modell wird bevorzugt), wenn die t-Statistik größer ist als , wenn die t-Statistik größer ist Größer als|t|>2|t|>log(n)
Wahrscheinlichkeitsrechnung

2
Gute Antwort, +1. Mir gefällt besonders die Einschränkung, ob das wahre Modell tatsächlich in der bewerteten Gruppe vorhanden ist. Ich würde argumentieren, dass "das wahre Modell" nie vorhanden ist. (Box & Draper sagte, dass "alle Modelle falsch sind, aber einige nützlich", und Burnham & Anderson nennt dies "Tapering-Effekt-Größen".) Deshalb bin ich unbeeindruckt von der Konvergenz des BIC unter unrealistischen Annahmen und mehr von den Zielen des AIC in bester Näherung unter den Modellen, die wir tatsächlich betrachten.
Stephan Kolassa

68

Meine schnelle Erklärung ist

  • AIC eignet sich am besten zur Vorhersage, da es asymptotisch der Kreuzvalidierung entspricht.
  • Der BIC eignet sich am besten zur Erklärung, da er eine konsistente Schätzung des zugrunde liegenden Datenerzeugungsprozesses ermöglicht.

AIC ist gleichbedeutend mit K-facher Kreuzvalidierung, BIC ist gleichbedeutend mit Level-One-Out-Kreuzvalidierung. Beide Sätze gelten jedoch nur für den Fall einer linearen Regression.

5
mbq, es ist AIC / LOO (nicht LKO oder K-fach) und ich glaube nicht, dass der Beweis in Stone 1977 auf linearen Modellen beruhte. Ich kenne die Details des BIC-Ergebnisses nicht.
Ars

11
ars ist richtig. Es ist AIC = LOO und BIC = K-fach, wobei K eine komplizierte Funktion der Stichprobengröße ist.
Rob Hyndman

Glückwunsch, du hast mich erwischt. Ich hatte es eilig, das zu schreiben, und deshalb habe ich diesen Fehler gemacht. Offensichtlich hat Rob ihn so geschrieben. Trotzdem ist es von Shao 1995, wo angenommen wurde, dass das Modell linear ist. Ich werde Stone analysieren, trotzdem denke ich, dass Sie vielleicht Recht haben, da LOO in meinem Bereich einen ebenso schlechten Ruf hat wie verschiedene * ICs.

Die Beschreibung auf Wikipedia ( en.wikipedia.org/wiki/… ) lässt es so erscheinen, als ob eine K-fache Kreuzvalidierung eine Art wiederholte Simulation ist, um die Stabilität der Parameter abzuschätzen. Ich kann sehen, warum erwartet wird, dass AIC mit LOO stabil ist (da LOO gründlich durchgeführt werden kann), aber ich verstehe nicht, warum der BIC mit K-fach stabil ist, es sei denn, K ist ebenfalls vollständig. Ist der Wert für K aufgrund der komplexen Formel erschöpfend? Oder passiert etwas anderes?
Russellpierce

16

Meiner Erfahrung nach führt BIC zu einer schwerwiegenden Unteranpassung, und AIC funktioniert in der Regel gut, wenn das Ziel darin besteht, die prädiktive Diskriminierung zu maximieren.


1
Super verspätet, aber da dies bei Google immer noch einen hohen Rang einnimmt, haben Sie etwas dagegen, den Bereich, in dem Sie arbeiten, näher zu erläutern? Ich bin nur neugierig, ob es einen Domain-Effekt gibt, den wir uns ansehen sollten.
verybadatthis

@verybadatthis: Klinische Biostatistik (nur Google "Frank Harrell", er hat eine Webpräsenz)
Ben Bolker

13

Eine informative und zugängliche "Ableitung" von AIC und BIC durch Brian Ripley finden Sie hier: http://www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley gibt einige Anmerkungen zu den Annahmen hinter den mathematischen Ergebnissen. Im Gegensatz zu einigen anderen Antworten betont Ripley, dass AIC auf der Annahme basiert, dass das Modell wahr ist. Wenn das Modell nicht wahr ist, wird eine allgemeine Berechnung ergeben, dass die "Anzahl der Parameter" durch eine kompliziertere Menge ersetzt werden muss. Einige Referenzen finden Sie in den Folien von Ripleys. Es ist jedoch zu beachten, dass für die lineare Regression (streng genommen mit einer bekannten Varianz) die im Allgemeinen kompliziertere Menge vereinfacht wird, um gleich der Anzahl von Parametern zu sein.


3
(+1) Ripley ist jedoch in dem Punkt falsch, in dem er sagt, dass die Modelle verschachtelt sein müssen. Es gibt keine solche Einschränkung für die ursprüngliche Herleitung von Akaike oder, um klarer zu sein, für die Herleitung unter Verwendung des AIC als Schätzer der Kullback-Leibler-Divergenz. Tatsächlich zeige ich in einer Arbeit, an der ich arbeite, etwas "empirisch", dass der AIC sogar für die Modellauswahl von Kovarianzstrukturen verwendet werden kann (unterschiedliche Anzahl von Parametern, eindeutig nicht verschachtelte Modelle). Aus den Tausenden von Simulationen von Zeitreihen, die ich mit verschiedenen Kovarianzstrukturen durchgeführt habe, ist in keiner davon der AIC falsch ...
Néstor

... wenn "das richtige" Modell tatsächlich in der Modellmenge enthalten ist (dies impliziert jedoch auch, dass für die Modelle, an denen ich arbeite, die Varianz des Schätzers sehr gering ist ... aber das ist nur eine technische Detail).
Néstor

1
@ Néstor, da stimme ich zu. Der Punkt, an dem die Modelle verschachtelt sind, ist seltsam.
NRH

3
Bei der Auswahl von Kovarianzstrukturen für longitudinale Daten (Modelle mit gemischten Effekten oder verallgemeinerte kleinste Quadrate) kann AIC leicht die falsche Struktur finden, wenn es mehr als 3 Kandidatenstrukturen gibt. Wenn mehr als 3 vorhanden sind, müssen Sie den Bootstrap oder andere Mittel verwenden, um die Modellunsicherheit auszugleichen, die durch die Verwendung von AIC zur Auswahl der Struktur verursacht wird.
Frank Harrell

8

Tatsächlich besteht der einzige Unterschied darin, dass BIC AIC-erweitert ist, um die Anzahl der Objekte (Stichproben) zu berücksichtigen. Ich würde sagen, dass, obwohl beide recht schwach sind (im Vergleich zu beispielsweise Kreuzvalidierung), es besser ist, AIC zu verwenden, als mehr Leute mit der Abkürzung vertraut sind - in der Tat habe ich noch nie eine Arbeit oder ein Programm gesehen, in dem BIC wäre verwendet werden (trotzdem gebe ich zu, dass ich auf Probleme eingestellt bin, bei denen solche Kriterien einfach nicht funktionieren).

Bearbeiten: AIC und BIC entsprechen der Kreuzvalidierung, sofern zwei wichtige Annahmen vorliegen: Wenn sie definiert sind, das Modell also mit maximaler Wahrscheinlichkeit eins ist und wenn Sie nur an der Modellleistung für Trainingsdaten interessiert sind. Wenn einige Daten zu einer Art Konsens zusammengefasst werden, sind sie vollkommen in Ordnung.
Wenn Sie eine Prognosemaschine für ein reales Problem erstellen, ist die erste falsch, da Ihr Trainingssatz nur einen Teil der Informationen zu dem Problem darstellt, mit dem Sie sich befassen, sodass Sie Ihr Modell einfach nicht optimieren können. Der zweite ist falsch, da Sie erwarten, dass Ihr Modell die neuen Daten verarbeiten wird, für die Sie nicht einmal erwarten können, dass der Trainingssatz repräsentativ ist. Und zu diesem Zweck wurde der Lebenslauf erfunden; das Verhalten des Modells zu simulieren, wenn es mit unabhängigen Daten konfrontiert wird. Bei der Modellauswahl gibt Ihnen CV nicht nur die ungefähre Qualität, sondern auch die Verteilung der Qualitätsannäherung an. Daher hat es den großen Vorteil, dass es sagen kann: "Ich weiß nicht, welche neuen Daten auch kommen werden, beide können es sein." besser."


Bedeutet das, dass der BIC für bestimmte Stichprobengrößen möglicherweise weniger streng ist als der AIC?
Russellpierce

1
Stringent ist hier kein gutes Wort, sondern toleranter für Parameter. Dennoch, yup, für die allgemeinen Definitionen (mit natürlichem Protokoll) passiert dies für 7 und weniger Objekte.

AIC ist asymptotisch gleichbedeutend mit Kreuzvalidierung.
Rob Hyndman

5
@mbq - Ich verstehe nicht, wie Kreuzvalidierung das Problem der "Unrepräsentativität" überwindet. Wenn Ihre Trainingsdaten nicht repräsentativ für die Daten sind, die Sie in Zukunft erhalten werden, können Sie alle gewünschten Daten gegenseitig validieren, sie sind jedoch nicht repräsentativ für den "Generalisierungsfehler", mit dem Sie tatsächlich konfrontiert werden (als "die") true "Neue Daten werden nicht durch den nicht modellierten Teil der Trainingsdaten dargestellt.) Es ist wichtig, einen repräsentativen Datensatz zu erhalten, wenn Sie gute Vorhersagen treffen möchten.
Wahrscheinlichkeitslogik

1
@mbq - Mein Punkt ist, dass Sie IC-basierte Auswahl basierend auf einer Alternative, die das Problem nicht behebt, anscheinend "vorsichtig ablehnen". Die Kreuzvalidierung ist gut (obwohl sich die Berechnung lohnt?), Aber nicht repräsentative Daten können nicht mithilfe eines datengesteuerten Prozesses verarbeitet werden. Zumindest nicht zuverlässig. Sie müssen über vorherige Informationen verfügen, aus denen hervorgeht, wie sie nicht repräsentativ sind (oder allgemeiner, welche logischen Zusammenhänge die "nicht repräsentativen" Daten mit den tatsächlichen zukünftigen Daten haben, die Sie beobachten werden).
Wahrscheinlichkeitsrechnung

5

Wie Sie bereits erwähnt haben, sind AIC und BIC Methoden, um Modelle mit mehr Regressorvariablen zu bestrafen. Bei diesen Methoden wird eine Straffunktion verwendet, die von der Anzahl der Parameter im Modell abhängt.

  • Bei Anwendung von AIC ist die Straffunktion z (p) = 2 p .

  • Bei der Anwendung von BIC ist die Straffunktion z (p) = p ln ( n ), was darauf beruht, dass die Strafe als aus früheren Informationen abgeleitet interpretiert wird (daher der Name Bayesian Information Criterion).

Wenn n groß ist, führen die beiden Modelle zu sehr unterschiedlichen Ergebnissen. Dann wendet der BIC eine viel größere Strafe für komplexe Modelle an und führt daher zu einfacheren Modellen als der AIC. Wie jedoch in Wikipedia auf BIC angegeben :

Es sollte beachtet werden, dass sich der BIC in vielen Anwendungen einfach auf die Auswahl der maximalen Wahrscheinlichkeit reduziert, da die Anzahl der Parameter für die interessierenden Modelle gleich ist.


4
Beachten Sie, dass AIC auch ML entspricht, wenn sich die Dimension nicht ändert. Ihre Antwort lässt es scheinen, als ob dies nur für BIC ist.
Wahrscheinlichkeitsrechnung

5

Soweit ich das beurteilen kann, gibt es keinen großen Unterschied zwischen AIC und BIC. Sie sind beide mathematisch bequeme Näherungen, die man machen kann, um Modelle effizient zu vergleichen. Wenn sie Ihnen unterschiedliche "beste" Modelle liefern, bedeutet dies wahrscheinlich, dass Sie eine hohe Modellunsicherheit haben, was wichtiger ist, als sich Gedanken darüber zu machen, ob Sie AIC oder BIC verwenden sollten. Ich persönlich mag BIC besser, weil es mehr (weniger) eines Modells fragt, ob es mehr (weniger) Daten für seine Parameter hat - ähnlich wie ein Lehrer, der nach einem höheren (niedrigeren) Leistungsstandard fragt, wenn sein Schüler mehr (weniger) hat ) Zeit, sich mit dem Thema vertraut zu machen. Für mich scheint dies nur die intuitive Aufgabe zu sein. Aber dann bin ich sicher, dass es auch für AIC aufgrund seiner einfachen Form ebenso intuitive und überzeugende Argumente gibt.

Wenn Sie nun eine Annäherung vornehmen, gibt es sicherlich einige Bedingungen, unter denen diese Annäherungen Unsinn sind. Dies ist sicherlich bei AIC zu beobachten, wo es viele "Anpassungen" (AICc) gibt, um bestimmte Bedingungen zu berücksichtigen, die die ursprüngliche Annäherung schlecht machen. Dies gilt auch für die BIC, da es verschiedene andere genauere (aber immer noch effiziente) Methoden gibt, z. B. die vollständige Laplace-Approximation von Gemischen aus Zellners g-Priors (die BIC ist eine Annäherung an die Laplace-Approximationsmethode für Integrale).

Ein Ort, an dem sie beide Mist sind, ist, wenn Sie wesentliche vorherige Informationen über die Parameter in einem bestimmten Modell haben. AIC und BIC bestrafen Modelle, bei denen Parameter teilweise bekannt sind, unnötigerweise im Vergleich zu Modellen, bei denen Parameter aus den Daten geschätzt werden müssen.

Eine Sache, die ich für wichtig halte, ist, dass BIC nicht annimmt, dass ein "wahres" Modell existiert, a) oder b) im Modellsatz enthalten ist. BIC ist einfach eine Annäherung an eine integrierte Wahrscheinlichkeit (D = Daten, M = Modell, A = Annahmen). Nur durch Multiplikation mit einer vorherigen Wahrscheinlichkeit und anschließende Normalisierung erhalten Sie . BIC stellt einfach dar, wie wahrscheinlich die Daten waren, wenn der Satz, der durch das Symbol impliziert wird, wahr ist. Aus logischer Sicht wird also jeder Vorschlag, der näherungsweise zum BIC führen würde, von den Daten gleichermaßen unterstützt. Wenn ich also und als Sätze sageP(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

Und dann weiterhin die gleichen Wahrscheinlichkeitsmodelle zuweisen (gleiche Parameter, gleiche Daten, gleiche Annäherungen usw.), bekomme ich den gleichen Satz von BIC-Werten. Nur wenn man dem logischen Buchstaben "M" eine eindeutige Bedeutung beimisst, gerät man in irrelevante Fragen über "das wahre Modell" (Echos von "die wahre Religion"). Das einzige, was M "definiert", sind die mathematischen Gleichungen, die es in ihren Berechnungen verwenden - und dies wird kaum jemals eine einzige Definition herausgreifen. Ich könnte auch eine Vorhersage über M machen ("das i-te Modell liefert die besten Vorhersagen"). Ich persönlich kann nicht sehen, wie sich dadurch die Wahrscheinlichkeit ändert und wie gut oder schlecht der BIC sein wird (AIC auch in dieser Hinsicht - obwohl AIC auf einer anderen Herleitung basiert).

Und außerdem, was ist mit der Aussage falsch? Wenn das wahre Modell in der Menge ist, die ich betrachte, dann gibt es eine 57% ige Wahrscheinlichkeit, dass es Modell B ist . Scheint mir vernünftig, oder Sie könnten die "weichere" Version wählen, da die Wahrscheinlichkeit, dass Modell B das Beste aus der Menge ist, die in Betracht gezogen wird, bei 57% liegt

Ein letzter Kommentar: Ich denke, Sie werden ungefähr so ​​viele Meinungen über AIC / BIC finden, wie es Leute gibt, die über sie Bescheid wissen.


4

AIC sollte selten verwendet werden, da es nur asymptotisch gültig ist. Es ist fast immer besser AICc (AIC mit einem verwenden c orrection für endliche Stichprobengröße). AIC neigt zu Überparametrisierung: Dieses Problem wird mit AICc stark verringert. Die Hauptausnahme bei der Verwendung von AICc ist, wenn die zugrunde liegenden Verteilungen stark leptokurtisch sind. Weitere Informationen hierzu finden Sie im Buch Model Selection von Burnham & Anderson.


1
Sie sagen also, dass AIC Modelle für Parameter nicht ausreichend bestraft, sodass die Verwendung als Kriterium zu einer Überparametrisierung führen kann. Sie empfehlen stattdessen die Verwendung von AICc. Um dies im Zusammenhang mit meiner ersten Frage zu verdeutlichen: Gibt es einen Grund, AICc anstelle von BIC zu verwenden, da BIC bereits strenger als AIC ist?
Russellpierce

1
Was Sie unter AIC verstehen, ist asymptotisch gültig. Wie von John Taylor hervorgehoben, ist AIC inkonsistent. Ich denke, dass seine Kommentare, die AIC und BIC gegenüberstellen, die besten sind. Ich sehe die beiden nicht als Kreuzvalidierung. Sie haben alle eine nette Eigenschaft, die sie normalerweise bei einem Modell mit weniger als der maximalen Anzahl von Variablen erreichen. Aber sie können alle verschiedene Modelle auswählen.
Michael Chernick

4

AIC und BIC sind Informationskriterien für den Vergleich von Modellen. Jeder versucht, Modellanpassung und Sparsamkeit auszugleichen, und jeder bestraft anders für die Anzahl der Parameter.

AIC ist ein ähnliches Informationskriterium. Die Formel lautet wobei die Anzahl der Parameter und die maximale Wahrscheinlichkeit ist. Mit dieser Formel ist kleiner besser. (Ich erinnere mich, dass einige Programme das Gegenteil von ausgeben , aber ich erinnere mich nicht an die Details.)

AIC=2k2ln(L)
kL2ln(L)2k

BIC ist das Bayesian Information Criterion, die Formel lautet und bevorzugt sparsamere Modelle als AIC

BIC=kln(n)2ln(L)

Ich habe noch nichts von KIC gehört.


Ich habe auch nichts von KIC gehört, aber für AIC und BIC werfen Sie einen Blick auf die verknüpfte Frage oder suchen Sie nach AIC. stats.stackexchange.com/q/577/442
Henrik

1
(Diese Antwort wurde aus einer Duplikat-Frage zusammengeführt, in der auch die Interpretation von "KIC"
erfragt wurde

3
Die Modelle müssen nicht verschachtelt sein, um mit AIC oder BIC verglichen zu werden.
Makro

1

Sehr kurz:

  • AIC minimiert ungefähr den Vorhersagefehler und ist asymptotisch äquivalent zur Auslass-1-Kreuzvalidierung (LOOCV) (Stone 1977). Es ist jedoch nicht konsistent, was bedeutet, dass selbst bei einer sehr großen Datenmenge ( wird unendlich) und wenn das wahre Modell zu den Kandidatenmodellen gehört, die Wahrscheinlichkeit der Auswahl des wahren Modells auf der Grundlage des AIC-Kriteriums nicht gegen 1 gehen würde Stattdessen würden zu viele Funktionen beibehalten.n
  • Der BIC ist eine Annäherung an die integrierte Grenzwahrscheinlichkeit , die bei einem flachen Prior der Suche nach dem Modell entspricht, das maximiert. . Sein Vorteil ist, dass es konsistent ist, was bedeutet, dass bei einer sehr großen Datenmenge ( wird unendlich) und wenn das wahre Modell zu den Kandidatenmodellen gehört, die Wahrscheinlichkeit, das wahre Modell basierend auf dem BIC-Kriterium auszuwählen, sich 1 annähert Dies würde die Prognoseleistung leicht beeinträchtigen, wenn klein wäre. BIC ist auch gleichbedeutend mit Leave-k-out-Kreuzvalidierung (LKOCV) mit mitP(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=Stichprobengröße (Shao 1997). Es gibt jedoch viele verschiedene Versionen des BIC, die darauf hinauslaufen, unterschiedliche Annäherungen an die marginale Wahrscheinlichkeit vorzunehmen oder unterschiedliche Prioritäten anzunehmen. Anstatt beispielsweise eine vorherige Uniform aller möglichen Modelle wie im ursprünglichen BIC zu verwenden, verwendet EBIC eine vorherige Uniform von Modellen fester Größe ( Chen & Chen 2008 ), während BICq eine Bernouilli-Verteilung verwendet, in der die vorherige Wahrscheinlichkeit für jeden einzubeziehenden Parameter angegeben ist .

Beachten Sie, dass Sie im Kontext von L0-bestraften GLMs (bei denen Sie die logarithmische Wahrscheinlichkeit Ihres Modells auf der Grundlage von Lambda * der Anzahl der Koeffizienten ungleich Null, dh der L0-Norm Ihrer Modellkoeffizienten, bestrafen) das AIC- oder BIC-Ziel direkt optimieren können , als für AIC und für BIC, was im l0ara R-Paket gemacht wird. Für mich ist dies sinnvoller als das, was sie z. B. bei LASSO oder elastischer Netzregression in GLMNET tun , wo auf die Optimierung eines Ziels (LASSO oder elastische Netzregression) die Anpassung der Regularisierungsparameter auf der Grundlage eines anderen folgt Zielsetzung (die z. B. den Kreuzvalidierungs-Vorhersagefehler, AIC oder BIC minimiert).lambda=2lambda=log(n)

Syed (2011) auf Seite 10 stellt fest, dass der AIC die Kullback-Leibler-Divergenz zwischen dem Näherungsmodell und dem wahren Modell minimiert. Die Kullback-Leibler-Divergenz ist keine Abstandsmaß zwischen Verteilungen, aber tatsächlich ein Maß für den Informationsverlust, wenn das ungefähre Modell zur Modellierung der Bodenrealität verwendet wird. Bei der einmaligen Kreuzvalidierung wird eine maximale Datenmenge für das Training verwendet, um eine Vorhersage für eine Beobachtung zu treffen ,n1Beobachtungen als Ersatz für das ungefähre Modell in Bezug auf die einzelne Beobachtung, die „Realität“ darstellt. Wir können uns das so vorstellen, dass wir die maximale Menge an Informationen lernen, die aus den Daten zur Schätzung des Verlusts gewonnen werden können. Bei unabhängigen und identisch verteilten Beobachtungen führt die Durchführung dieser über mögliche Validierungssätze zu einer asymptotisch unbefangenen Schätzung.n

Es ist zu beachten, dass der LOOCV-Fehler auch analytisch aus den Residuen und der Diagonale der Hutmatrix berechnet werden kann , ohne dass tatsächlich eine Kreuzvalidierung durchgeführt werden muss. Dies wäre immer eine Alternative zum AIC als asymptotische Annäherung an den LOOCV-Fehler.

Verweise

Stone M. (1977) Eine asymptotische Äquivalenz der Modellwahl durch Kreuzvalidierung und Akaikes Kriterium. Zeitschrift der Royal Statistical Society Reihe B. 39, 44–7.

Shao J. (1997) Eine asymptotische Theorie zur linearen Modellauswahl. Statistica Sinica 7, 221 & ndash; 242.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.