Versucht BIC, ein echtes Modell zu finden?

Diese Frage ist ein Follow-up oder ein Versuch, mögliche Verwirrung in Bezug auf ein Thema zu beseitigen, das ich und viele andere aufgrund des Unterschieds zwischen AIC und BIC als etwas schwierig empfinde. In einer sehr netten Antwort von @ Dave Kellen zu diesem Thema ( /stats//a/767/30589 ) lesen wir:

Ihre Frage impliziert, dass AIC und BIC versuchen, dieselbe Frage zu beantworten, was jedoch nicht zutrifft. AIC versucht, das Modell auszuwählen, das eine unbekannte, hochdimensionale Realität am besten beschreibt. Dies bedeutet, dass die Realität niemals in der Menge der in Betracht gezogenen Kandidatenmodelle enthalten ist. Im Gegenteil, BIC versucht, das WAHRE Modell unter den Kandidaten zu finden. Ich finde es ziemlich seltsam, dass die Realität in einem der Modelle instanziiert ist, die die Forscher auf diesem Weg gebaut haben. Dies ist ein echtes Problem für BIC.

In einem Kommentar unten von @ gui11aume lesen wir:

(-1) Gute Erklärung, aber ich möchte eine Behauptung anfechten. @ Dave Kellen Könnten Sie bitte einen Hinweis geben, wo die Idee, dass das WAHRE Modell im Set für BIC sein muss? Ich möchte dies untersuchen, da die Autoren in diesem Buch überzeugend nachweisen, dass dies nicht der Fall ist. - gui11aume 27. Mai 12 um 21:47 Uhr

Es scheint, dass diese Behauptung von Schwarz selbst stammt (1978), obwohl die Behauptung nicht notwendig war: Von denselben Autoren (wie bei @ gui11aume) lesen wir aus ihrem Artikel "Multimodell-Inferenz: AIC und BIC in der Modellauswahl verstehen" ( Burnham und Anderson, 2004):

Geht die Ableitung von BIC von der Existenz eines wahren Modells aus oder wird bei Verwendung von BIC das wahre Modell in der Modellmenge angenommen? (Die Ableitung von Schwarz spezifizierte diese Bedingungen.) ... Die Antwort ... nein. Das heißt, der BIC (als Grundlage für eine Annäherung an ein bestimmtes Bayes'sches Integral) kann abgeleitet werden, ohne dass angenommen wird, dass das der Ableitung zugrunde liegende Modell wahr ist (siehe z. B. Cavanaugh und Neath 1999; Burnham und Anderson 2002: 293-5). Bei der Anwendung von BIC muss die Modellmenge natürlich nicht das (nicht vorhandene) wahre Modell enthalten, das die vollständige Realität darstellt. Darüber hinaus bedeutet die Konvergenz der Wahrscheinlichkeit des vom BIC ausgewählten Modells zu einem Zielmodell (unter der Idealisierung einer iid-Stichprobe) nicht logisch, dass dieses Zielmodell die wahre datenerzeugende Verteilung sein muss.

Daher denke ich, dass es eine Diskussion oder eine Klarstellung (falls mehr benötigt wird) zu diesem Thema wert ist. Momentan haben wir nur einen Kommentar von @ gui11aume (danke!) Unter einer sehr hoch bewerteten Antwort bezüglich des Unterschieds zwischen AIC und BIC.

model-selection aic bic

— Erosennin
quelle

Um die Frage besser zu fokussieren, könnte AIC möglicherweise aus dem Titel entfernt werden, da es sich, wenn ich richtig verstehe, um die Frage handelt, ob das wahre Modell im Kandidatensatz enthalten sein muss, wenn BIC verwendet wird.

— Juho Kokkala

@JuhoKokkala: Ich stimme zu.

— Erosennin

Für mich ist das Fazit, dass BIC in den meisten praktischen Anwendungen zu einer Unteranpassung führt und AIC die wahrscheinliche Leistung des Modells bei neuen Daten, die nicht zur Verfügung stehen, korrekter beurteilt. Egal, ob Sie AIC oder BIC verwenden, wenn Sie beispielsweise aus 3 konkurrierenden Modellen / Funktionssätzen auswählen, das resultierende Modell kann zu stark angepasst werden. AIC und BIC funktionieren am besten, wenn die Anzahl potenzieller Modelle niedrig ist oder die Modelle durch eine geringe Anzahl von Parametern (z. B. Strafen) verbunden sind.

— Frank Harrell

Vielen Dank an @Erosennin für die Referenz. Ich verstehe jetzt, woher die Idee kommt, dass das WAHRE Modell eingeschlossen werden muss.

— gui11aume

@FrankHarrell: Können Sie erklären, was Sie unter "praktischen Anwendungen" verstehen? Wenn ich Burnham und Anderson richtig verstehe, scheint es, dass BIC zu einer Unteranpassung führt, wenn die Daten knapp sind. Wenn wir viele Daten haben, wird BIC tatsächlich nach einem quasi-wahren Modell suchen, das komplexer als AIC ist. AIC und BIC haben unterschiedliche "Zielmodelle". Ich würde eine Ausarbeitung dessen, was Sie sagen, lieben, wenn ich nur auf einen Artikel / ein Buch hinweisen würde.

— Erosennin

Das Informationskriterium von Schwarz (1978) wurde mit dem Merkmal entworfen, dass es asymptotisch das Modell mit der höheren hinteren Wahrscheinlichkeit auswählt, dh das Modell mit der höheren Wahrscheinlichkeit, wenn die Daten unter gleichen Prioritäten gegeben sind. Also ungefähr wobei bezeichnet "asymptotisch äquivalent" und ist der Posterior des Modells dem Daten . Ich sehe nicht ein, wie dieses Ergebnis davon abhängen würde, ob Modell 1 wahr ist (gibt es überhaupt ein wahres Modell in einem Bayes'schen Rahmen?).

\frac{p (M_{1} | y)}{p (M_{2} | y)} > 1 \overset{EIN}{\sim} S ich C (M_{1}) < S ich C (M_{2})

$\frac{p(M_1|y)}{p(M_2|y)} > 1 \overset{A}{\sim} SIC(M_1) < SIC(M_2)$

\overset{A}{\sim}

$\overset{A}{\sim}$

p (M_{j} | y)

$p(M_j|y)$

j

$j$

y

$y$

Was meiner Meinung nach für die Verwirrung verantwortlich ist, ist, dass der SIC die andere nette Eigenschaft hat, dass er unter bestimmten Bedingungen das "wahre" Modell asymptotisch auswählt, wenn sich das letztere innerhalb des Modelluniversums befindet. Sowohl AIC als auch SIC sind Spezialfälle des Kriteriums wobei ist der Log - Likelihood - Schätzungen der Parameter , ist die Anzahl der Parameter und ist die Probengröße. Wenn das Modelluniversum aus linearen Gaußschen Modellen besteht, kann gezeigt werden, dass wir Folgendes benötigen:

ich C (k) = - \frac{2}{T} l (\hat{θ}; y) + k G (T)

$IC(k) = -\frac{2}{T} \mathcal{l}(\hat{\theta};y) + k g(T)$

l (\hat{θ}; y)

$\mathcal{l}(\hat{\theta};y)$

\hat{θ}

$\hat{\theta}$

k

$k$

T

$T$

G (T) \to 0 wie \infty

$g(T) \to 0 \; \text{as} \;\infty$ dass der IC kein Modell auswählt, das kleiner ist als das wahre Modell mit der Wahrscheinlichkeit eins und damit der IC mit Wahrscheinlichkeit eins kein Modell auswählt, das größer als das wahre Modell ist. Wir haben das Damit erfüllt SIC beide Bedingungen, während AIC die erste, aber nicht die zweite Bedingung erfüllt. Eine leicht zugängliche Darstellung dieser Merkmale und eine Diskussion der praktischen Auswirkungen finden Sie in Kapitel 6 dieses Buches .

T G (T) \to \infty wie \infty

$Tg(T) \to \infty \; \text{as} \;\infty$

G_{EIN ich C} (T) = \frac{2}{T}, G_{S ich C} (T) = \frac{\ln T}{T}

$g_{AIC}(T) = \frac{2}{T},\;\; g_{SIC}(T) = \frac{\ln{T}}{T}$

Elliott, G. und A. Timmermann (2016, April). Wirtschaftsprognose. Princeton University Press.

Schwarz, Gideon. "Schätzen der Dimension eines Modells." Die Annalen der Statistik 6.2 (1978): 461-464.

— Matthias Schmidtblaicher
quelle