Warum werden Informationskriterien (nicht angepasstes

9

In Zeitreihenmodellen wie ARMA-GARCH werden zur Auswahl einer geeigneten Verzögerung oder Reihenfolge des Modells verschiedene Informationskriterien wie AIC, BIC, SIC usw. verwendet.

Meine Frage ist sehr einfach: Warum verwenden wir nicht angepasstes , um ein geeignetes Modell auszuwählen? Wir können ein Modell auswählen, das zu einem höheren Wert des angepassten . Weil sowohl das angepasste als auch das Informationskriterium eine zusätzliche Anzahl von Regressoren im Modell bestrafen, wobei erstere und später den Wahrscheinlichkeitswert bestrafen. $R^2$ $R^2$ $R^2$ $R^2$

— Neeraj
quelle

Ich vermisse möglicherweise etwas in den Antworten (unten), aber R-Quadrate sowie angepasste R-Quadrate sind für die relativ begrenzte Klasse von OLS-geschätzten Modellen geeignet, während AICs, BICs usw. für die breitere Klasse von verallgemeinerten linearen Modellen geeignet sind Modelle vielleicht mit ML oder einer Variante geschätzt.

— Mike Hunter

12

Ich würde argumentieren, dass zumindest bei der Diskussion linearer Modelle (wie AR-Modelle) angepasste $R^2$ und AIC nicht so unterschiedlich sind.

Betrachten Sie die Frage, ob in Dies entspricht dem Vergleich der Modelle $X_2$

y = \underset{(n \times K_{1})}{X_{1}} β_{1} + \underset{(n \times K_{2})}{X_{2}} β_{2} + ϵ

$y=\underset{(n\times K_1)}{X_1}\beta_1+\underset{(n\times K_2)}{X_2}\beta_2+\epsilon$

wobei

. Wir sagen, dass

daswahre Modell ist,wenn

. Beachten Sie, dass

. Die Modelle sind somitverschachtelt. Ein Modellauswahlprozedur

\begin{array}{rcl} M_{1} & : & y = X_{1} β_{1} + u \\ M_{2} & : & y = X_{1} β_{1} + X_{2} β_{2} + u, \end{array}

$\begin{eqnarray*} \mathcal{M}_1&:&y=X_1\beta_1+u\\ \mathcal{M}_2&:&y=X_1\beta_1+X_2\beta_2+u, \end{eqnarray*}$

E (u | X_{1}, X_{2}) = 0

$E(u|X_1,X_2)=0$

M_{2}

$\mathcal{M}_2$

β_{2} \neq 0

$\beta_2\neq0$

M_{1} \subset M_{2}

$\mathcal{M}_1\subset\mathcal{M}_2$

\hat{M}

$\widehat{\mathcal{M}}$ ist eine datenabhängige Regel, die das plausibelste von mehreren Modellen auswählt.

$\widehat{\mathcal{M}}$

\begin{array}{rcl} lim_{n \to \infty} P (\hat{M} = M_{1} | M_{1}) & = & 1 \\ lim_{n \to \infty} P (\hat{M} = M_{2} | M_{2}) & = & 1 \end{array}

$\begin{eqnarray*} \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_1|\mathcal{M}_1\bigr)&=&1\\ \lim_{n\rightarrow\infty}P\bigl(\widehat{\mathcal{M}}=\mathcal{M}_2|\mathcal{M}_2\bigr)&=&1 \end{eqnarray*}$

Betrachten Sie das angepasste . Das heißt, wählen Sie wenn . Da in monoton abnimmt , entspricht diese Prozedur der Minimierung von . Dies entspricht wiederum der Minimierung von . Für ausreichend großes kann letzteres als where $R^2$ $\mathcal{M}_1$ $\bar{R}^2_1>\bar{R}^2_2$ $\bar{R}^2$ $s^2$ $s^2$ $\log(s^2)$ $n$

\begin{array}{rcl} \log (s^{2}) & = & \log ({\hat{σ}}^{2} \frac{n}{n - K}) \\ = & \log ({\hat{σ}}^{2}) + \log (1 + \frac{K}{n - K}) \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n - K} \\ \approx & \log ({\hat{σ}}^{2}) + \frac{K}{n}, \end{array}

$\begin{eqnarray*} \log(s^2)&=&\log\left(\widehat{\sigma}^2\frac{n}{n-K}\right) \\ &=&\log(\widehat{\sigma}^2)+\log\left(1+\frac{K}{n-K}\right) \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n-K} \\ &\approx&\log(\widehat{\sigma}^2)+\frac{K}{n}, \end{eqnarray*}$

{\hat{σ}}^{2}

$\widehat{\sigma}^2$ ist der ML-Schätzer der Fehlervarianz. Die Modellauswahl basierend auf entspricht daher asymptotisch der Auswahl des Modells mit dem kleinsten . Dieses Verfahren ist inkonsistent.

{\bar{R}}^{2}

$\bar{R}^2$

\log ({\hat{σ}}^{2}) + K / n

$\log(\widehat{\sigma}^2)+K/n$

Satz :

lim_{n \to \infty} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) < 1

$\lim_{n\rightarrow\infty}P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)<1$

Beweis : wobei die vorletzte Zeile folgt, da die Statistik die LR-Statistik im linearen Regressionsfall ist, der einem asymptotischen folgt Nullverteilung. QED

\begin{array}{rcl} P ({\bar{R}}_{1}^{2} > {\bar{R}}_{2}^{2} | M_{1}) & \approx & P (\log (s_{1}^{2}) < \log (s_{2}^{2}) | M_{1}) \\ = & P (n \log (s_{1}^{2}) < n \log (s_{2}^{2}) | M_{1}) \\ \approx & P (n \log ({\hat{σ}}_{1}^{2}) + K_{1} < n \log ({\hat{σ}}_{2}^{2}) + K_{1} + K_{2} | M_{1}) \\ = & P (n [\log ({\hat{σ}}_{1}^{2}) - \log ({\hat{σ}}_{2}^{2})] < K_{2} | M_{1}) \\ \to & P (χ_{K_{2}}^{2} < K_{2}) \\ < & 1, \end{array}

$\begin{eqnarray*} P\bigl(\bar{R}^2_1>\bar{R}^2_2|\mathcal{M}_1\bigr)&\approx&P\bigl(\log(s^2_1)<\log(s^2_2)|\mathcal{M}_1\bigr) \\ &=&P\bigl(n\log(s^2_1)<n\log(s^2_2)|\mathcal{M}_1\bigr) \\ &\approx&P(n\log(\widehat{\sigma}^2_1)+K_1<n\log(\widehat{\sigma}^2_2)+K_1+K_2|\mathcal{M}_1) \\ &=&P(n[\log(\widehat{\sigma}^2_1)-\log(\widehat{\sigma}^2_2)]<K_2|\mathcal{M}_1) \\ &\rightarrow&P(\chi^2_{K_2}<K_2) \\ &<&1, \end{eqnarray*}$

χ_{K_{2}}^{2}

$\chi^2_{K_2}$

Betrachten Sie nun Akaikes Kriterium Daher tauscht der AIC auch die Reduzierung der SSR durch zusätzliche Regressoren gegen die "Strafzeit" aus , "die in die entgegengesetzte Richtung zeigt. Wählen Sie also wenn , andernfalls .

A I C = \log ({\hat{σ}}^{2}) + 2 \frac{K}{n}

$AIC=\log(\widehat{\sigma}^2)+2\frac{K}{n}$

M_{1}

$\mathcal{M}_1$

A I C_{1} < A I C_{2}

$AIC_1<AIC_2$

M_{2}

$\mathcal{M}_2$

Es ist ersichtlich, dass der auch inkonsistent ist, indem der obige Beweis in Zeile drei mit . Das angepasste und der wählen daher mit positiver Wahrscheinlichkeit das "große" Modell , selbst wenn das wahre Modell ist. $AIC$ $P(n\log(\widehat{\sigma}^2_1)+2K_1<n\log(\widehat{\sigma}^2_2)+2(K_1+K_2)|\mathcal{M}_1)$ $R^2$ $AIC$ $\mathcal{M}_2$ $\mathcal{M}_1$

Da der Nachteil für die Komplexität in AIC etwas größer ist als für angepasstes , ist es möglicherweise weniger anfällig für eine Überauswahl. Und es hat andere nette Eigenschaften (Minimierung der KL-Divergenz zum wahren Modell, wenn dies nicht in der Gruppe der betrachteten Modelle enthalten ist), die in meinem Beitrag nicht behandelt werden. $R^2$

— Christoph Hanck
quelle

1

Tolle Antwort: nicht zu schwer, aber trotzdem genau! Wenn es gestern dort gewesen wäre, hätte ich meine nicht gepostet.

— Richard Hardy

Was ist mit dem ARMA-GARCH-Fall? Wie würde sich bei der Auswahl der Begriffe amung MA und GARCH verhalten?

R_{a d j}^{2}

$R^2_{adj}$

— Zachary Blumenfeld

Ich würde es nicht wagen zu sagen. Wie Sie erklären, ist nicht einmal klar, was R2 für die Passform eines solchen Modells bedeutet.

— Christoph Hanck

5

Die Strafe in ergibt nicht die schönen Eigenschaften in Bezug auf die Modellauswahl, wie sie vom AIC oder BIC aufgestellt wurden. Die Strafe in reicht aus, um einem unvoreingenommenen Schätzer der Population wenn keiner der Regressoren tatsächlich zum Modell gehört (gemäß Dave Giles 'Blog-Posts "In What Sense" ist das "angepasste" R-Quadrat unvoreingenommen? " und " Mehr zu den Eigenschaften des "angepassten" Bestimmungskoeffizienten " ); jedoch ist keine optimale Modellwähler. $R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$ $R^2$ $R^2_{adj}$

(Es könnte einen Beweis durch Widerspruch geben: Wenn AIC in einem Sinne optimal ist und BIC in einem anderen optimal ist und keinem von beiden äquivalent ist, dann ist in beiden nicht optimal dieser beiden Sinne.) $R^2_{adj}$ $R^2_{adj}$

— Richard Hardy
quelle

R^{2}

$R^2$

R^{2} a d j

$R^2{adj}$

S S R

$SSR$

Adressiert dies tatsächlich den ursprünglichen Beitrag oder meine Antwort? Auf jeden Fall stimme ich Ihren Punkten zu.

— Richard Hardy

R_{a d j}^{2}

$R^2_{adj}$

S S T - S S R

$SST-SSR$

S S T

$SST$

R^{2}

$R^2$

— Zachary Blumenfeld