Was bedeutet das Akaike Information Criterion (AIC) eines Modells?

Ich habe hier einige Fragen darüber gesehen, was es in Laienbegriffen bedeutet, aber diese sind zu Laien für meinen Zweck hier. Ich versuche mathematisch zu verstehen, was der AIC-Score bedeutet.

Gleichzeitig möchte ich keinen strengen Beweis, der mich die wichtigeren Punkte nicht erkennen lässt. Wenn dies zum Beispiel ein Kalkül wäre, wäre ich mit unendlich vielen Zahlen zufrieden, und wenn dies eine Wahrscheinlichkeitstheorie wäre, wäre ich glücklich ohne Maßtheorie.

Mein Versuch

Wenn ich hier lese , ist und ein Teil meiner eigenen Notation sugar $\text{AIC}_{m,D}$ das AIC-Kriterium des Modells $m$ für Datensatz $D$ wie folgt:

{AIC}_{m, D} = 2 k_{m} - 2 \ln (L_{m, D})

$\text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D})$ wobei

k_{m}

$k_m$ ist die Anzahl der Parameter des Modells

m

$m$ und

L_{m, D}

$L_{m,D}$ ist die Maximum - Likelihood - Funktionswert des Modells

m

$m$ auf dataSet

D

$D$ .

Hier ist mein Verständnis dessen, was das oben Gesagte impliziert:

m = \underset{θ}{arg max} Pr (D | θ)

$m = \underset{\theta}{\text{arg max}\,} \Pr(D|\theta)$

Diesen Weg:

$k_m$ ist die Anzahl der Parameter von . $m$
$L_{m,D} = \Pr(D|m) = \mathcal{L}(m|D)$ .

Lassen Sie uns nun AIC umschreiben:

\begin{aligned} {AIC}_{m, D} = & 2 k_{m} - 2 \ln (L_{m, D}) \\ = & 2 k_{m} - 2 \ln (Pr (D | m)) \\ = & 2 k_{m} - 2 \log_{e} (Pr (D | m)) \end{aligned}

$\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2k_m - 2 \ln(\Pr(D|m))\\ =& 2k_m - 2 \log_e(\Pr(D|m))\\ \end{split}$

Offensichtlich ist die Wahrscheinlichkeit, den Datensatz unter Modell . Je besser das Modell zum Datensatz passt , größer wird und kleiner wird der Term . $\Pr(D|m)$ $D$ $m$ $m$ $D$ $\Pr(D|m)$ $-2\log_e(\Pr(D|m))$

AIC belohnt also eindeutig Modelle, die zu ihren Datensätzen passen (weil kleiner besser ist). $\text{AIC}_{m,D}$

Andererseits bestraft der Term Modelle mit mehr Parametern, indem er vergrößert. $2k_m$ $\text{AIC}_{m,D}$

Mit anderen Worten, AIC scheint eine Maßnahme zu sein, die:

Belohnt logarithmisch genaue Modelle (die besser zu passen ). ZB wird eine Steigerung der Fitness von auf mehr belohnt als eine Steigerung der Fitness von auf . Dies ist in der folgenden Abbildung dargestellt. $D$ $0.4$ $0.5$ $0.8$ $0.9$
Belohnt die lineare Reduzierung von Parametern. Eine Verringerung der Parameter von auf wird also so belohnt, wie sie die Verringerung von auf belohnt . $9$ $8$ $2$ $1$

Mit anderen Worten, AIC definiert einen Kompromiss zwischen der Wichtigkeit der Einfachheit und der Wichtigkeit der Fitness .

Mit anderen Worten, AIC scheint folgendes nahezulegen:

Die Bedeutung von Fitness nimmt ab.
Aber die Wichtigkeit der Einfachheit nimmt nie ab, sondern ist immer konstant wichtig.

F1: Aber eine Frage ist: Warum sollten wir uns für diesen speziellen Kompromiss zwischen Fitness und Einfachheit interessieren?

F2: Warum und warum ? Warum nicht einfach: dh sollte aus Ihrer Sicht Ebenso nützlich für und sollte in der Lage sein, verschiedene Modelle relativ zu vergleichen (es ist nur nicht mit skaliert ; brauchen wir das?). $2k$ $2 \log_e(\ldots)$

\begin{aligned} {AIC}_{m, D} = & 2 k_{m} - 2 \ln (L_{m, D}) \\ = & 2 (k_{m} - \ln (L_{m, D})) \\ \frac{{AIC}_{m, D}}{2} = & k_{m} - \ln (L_{m, D}) \\ {AIC}_{m, D, SIMPLE} = & k_{m} - \ln (L_{m, D}) \end{aligned}

$\begin{split} \text{AIC}_{m,D} =& 2k_m - 2 \ln(L_{m,D})\\ =& 2(k_m - \ln(L_{m,D}))\\ \frac{\text{AIC}_{m,D}}{2} =& k_m - \ln(L_{m,D})\\ \text{AIC}_{m,D,\text{SIMPLE}} =& k_m - \ln(L_{m,D})\\ \end{split}$

{AIC}_{m, D, SIMPLE}

$\text{AIC}_{m,D,\text{SIMPLE}}$

{AIC}_{m, D}

$\text{AIC}_{m,D}$

2

$2$

Frage 3: In welcher Beziehung steht dies zur Informationstheorie? Könnte jemand dies aus einem informationstheoretischen Ansatz ableiten?

— Höhlenmensch
quelle

Was bedeutet Ihre Notation in ? Implizieren Sie etwas über die Modellwahl dort? Was Sie oben hatten, bedeutet nicht wirklich, dass Sie bei AIC ein Modell auswählen müssen. Q2, wie Sie sagen, ist etwas ziemlich willkürlich in einem gewissen Sinne, sondern kommt aus machen AIC eine Schätzung für die Kullback-Leibler - Divergenz, die für Q1 auf die Antwort bezieht sich auch und gibt einige Bedeutung Mengen wie .

m = \arg max_{θ} P r (D | θ)

$m=\arg \max_\theta Pr(D|\theta)$

\exp (({AIC}_{m} - min ({AIC}_{1}, \dots, {AIC}_{M})) / 2)

$\exp((\text{AIC}_m-\min(\text{AIC}_1,\ldots,\text{AIC}_M))/2)$

— Björn

{arg max}_{θ} Pr (D | θ)

$\text{arg max}_{\theta} \Pr(D|\theta)$ bedeutet, dass Sie so lange nach vielen suchen, bis Sie eine finden, die die Wahrscheinlichkeit minimiert . Jedes ist ein Tupel / Vektor von Parametern, die unser Modell definieren, das versucht, Datensatz zu erklären . Im Wesentlichen heißt es also: Wir haben Datensatz , wie groß ist die Wahrscheinlichkeit, dass er von einem durch parametrisierten Modell generiert wurde ? Unser Modell ist im Wesentlichen , das dieses Maximierungsproblem löst.

θ

$\theta$

Pr (D | θ)

$\Pr(D|\theta)$

θ

$\theta$

D

$D$

D

$D$

θ

$\theta$

m

$m$

θ

$\theta$

— Höhlenmensch

Entschuldigung, aber schauen Sie sich mehrere Modelle an (da Sie schreiben ), oder sprechen Sie über die maximale Wahrscheinlichkeitsschätzung ? Es ist auch zu beachten, dass die Wahrscheinlichkeit ist, dass der Datenport unter dem gegebenen Modell und für die gegebenen Parameter entstanden ist, und nicht die Wahrscheinlichkeit, dass die Daten von diesem durch parametrisierten Modell erzeugt wurden .

m = \dots

$m=\ldots$

\hat{θ} := \arg max_{θ} P_{given model} (D | θ)

$\hat{\theta} := \arg\max_\theta P_\text{given model}(D|\theta)$

P_{given model} (D | θ)

$P_\text{given model}(D|\theta)$

θ

$\theta$

— Björn

MLE ist was ich meine. Aber ich versuche nur zu sagen, dass die Parameter tuple so umfassend sind, dass sie auch das Modell definieren. Ich kann auch mehrere Modelle haben, z. B. jedes mit einem anderen AIC-Score . Ich mache nur diese Notation, weil ich denke, dass es einfacher ist. Liege ich furchtbar falsch oder verwirre ich das unnötig? (und danke, dass Sie mich über die Bedeutung der MLE korrigiert haben)

θ

$\theta$

m_{1}, m_{2}

$m_1,m_2$

{AIC}_{1}, {AIC}_{2}

$\text{AIC}_1, \text{AIC}_2$

— Höhlenmensch

Eine Ableitung des AIC als Annäherung an den erwarteten KL-Informationsverlust findet sich in Pawitan (2001), Aller Wahrscheinlichkeit nach ,

— Kapitel

Antworten:

Diese Frage von Caveman ist beliebt, aber es gab monatelang keine versuchten Antworten bis zu meiner kontroversen . Es kann sein, dass die unten stehende tatsächliche Antwort an sich nicht umstritten ist, sondern lediglich, dass die Fragen "geladene" Fragen sind, da das Feld (zumindest für mich) von Ministranten von AIC und BIC besetzt zu sein scheint, die es lieber nutzen würden OLS als die Methoden der jeweils anderen. Sehen Sie sich alle aufgeführten Annahmen und Einschränkungen für Datentypen und Analysemethoden an und kommentieren Sie sie. Repariere das, trage bei. Bisher haben einige sehr kluge Leute dazu beigetragen, so dass nur langsame Fortschritte erzielt werden. Ich nehme die Beiträge von Richard Hardy und GeoMatt22, die freundlichen Worte von Antoni Parellada und die tapferen Versuche von Cagdas Ozgenc und Ben Ogorek zur Kenntnis, die KL-Divergenz mit einer tatsächlichen Divergenz in Beziehung zu setzen.

Bevor wir beginnen, lassen Sie uns überprüfen, was AIC ist. Eine Quelle hierfür sind die Voraussetzungen für den AIC-Modellvergleich und eine andere stammt von Rob J. Hyndman . Im Einzelnen wird berechnet, dass der AIC gleich ist

2 k - 2 \log (L (θ)),

$2k - 2 \log(L(\theta))\,,$

Dabei ist die Anzahl der Parameter im Modell und die Wahrscheinlichkeitsfunktion. AIC vergleicht den Kompromiss zwischen Varianz ( ) und Verzerrung ( ) anhand von Modellannahmen. Aus Fakten und Irrtümern des AIC , Punkt 3 "Der AIC geht nicht davon aus, dass die Residuen Gaußsch sind. Es ist nur so, dass die Gaußsche Wahrscheinlichkeit am häufigsten verwendet wird. Wenn Sie jedoch eine andere Verteilung verwenden möchten, fahren Sie fort." Der AIC ist die bestrafte Wahrscheinlichkeit, unabhängig davon, welche Wahrscheinlichkeit Sie wählen. Um beispielsweise AIC für verteilte Residuen von Student's-t aufzulösen, könnten wir die Maximum-Likelihood-Lösung für Student's-t verwenden . Das $k$ $L(\theta)$ $2k$ $2\log(L(\theta))$ Die üblicherweise für AIC angewendete log-Wahrscheinlichkeit wird von der Gaußschen log-Wahrscheinlichkeit abgeleitet und ist gegeben durch

\log (L (θ)) = - \frac{| D |}{2} \log (2 π) - \frac{1}{2} \log (| K |) - \frac{1}{2} (x - μ)^{T} K^{- 1} (x - μ),

$\log(L(\theta)) =-\frac{|D|}{2}\log(2\pi) -\frac{1}{2} \log(|K|) -\frac{1}{2}(x-\mu)^T K^{-1} (x-\mu),$

$K$ ist die Kovarianzstruktur des Modells,die Stichprobengröße; die Anzahl der Beobachtungen in den Datensatz, die Durchschnittsantwort und die abhängige Variable. Beachten Sie, dass AIC die Stichprobengröße nicht korrigieren muss, da AIC nicht zum Vergleichen von Datensätzen verwendet wird, sondern nur für Modelle, die denselben Datensatz verwenden. Wir müssen also nicht untersuchen, ob die Stichprobengrößenkorrektur korrekt durchgeführt wurde oder nicht, aber wir müssten uns darüber Gedanken machen, wenn wir die AIC auf irgendeine Weise verallgemeinern könnten, damit sie zwischen Datensätzen nützlich ist. Ähnlich wird viel über , um eine asymptotische Effizienz sicherzustellen. Eine minimalistische Sichtweise könnte AIC nur als "Index" betrachten, was $|D|$ $\mu$ $x$ $K>>|D|>2$ $K>|D|$ relevant undirrelevant. Dies wurde jedoch in der Form beachtet, dass eine geänderte AIC für nicht viel größer alsgenannt AIC siehe zweiten Absatz der Antwort auf Q2 unten. Diese Verbreitung von "Maßnahmen" bestärkt nur die Vorstellung, dass AIC ein Index ist. Es ist jedoch Vorsicht geboten, wenn das Wort "i" verwendet wird, da einige AIC-Befürworter die Verwendung des Wortes "Index" mit der gleichen Vorliebe gleichsetzen, die mit der Bezugnahme auf ihre Ontogenese als außerehelich verbunden sein könnte. $K>>|D|$ $K$ $|D|$ $_c$

F1: Aber eine Frage ist: Warum sollten wir uns für diesen speziellen Kompromiss zwischen Fitness und Einfachheit interessieren?

Antworte in zwei Teilen. Zuerst die konkrete Frage. Sie sollten sich nur darum kümmern, dass es so definiert wurde. Wenn Sie es vorziehen, gibt es keinen Grund, kein CIC zu definieren. Als Informationskriterium für Höhlenbewohner wird es keine AIC sein, aber die CIC würde dieselben Antworten wie die AIC liefern. Dies hat keinen Einfluss auf den Kompromiss zwischen Anpassungsgüte und Einfachheit. Jede Konstante, die auch einmal als AIC-Multiplikator hätte verwendet werden können, müsste ausgewählt und eingehalten werden, da es keinen Referenzstandard zur Durchsetzung einer absoluten Skala gibt. Das Festhalten an einer Standarddefinition ist jedoch nicht willkürlich in dem Sinne, dass Platz für eine und nur eine Definition oder "Konvention" für eine Größe wie AIC ist, die nur auf einer relativen Skala definiert wird. Siehe auch AIC-Annahme Nr. 3 unten.

Die zweite Antwort auf diese Frage bezieht sich auf die Besonderheiten des AIC-Kompromisses zwischen Anpassungsgüte und Einfachheit, unabhängig davon, wie der konstante Multiplikator gewählt worden wäre. Was bewirkt eigentlich den "Kompromiss"? Dies hat unter anderem zur Folge, dass der Freiheitsgrad an die Anzahl der Parameter in einem Modell angepasst wird. Dies führte dazu, dass ein "neuer" AIC mit dem Namen AIC wie folgt definiert wurde: $_c$

\begin{aligned} A I C_{c} & = A I C + \frac{2 k (k + 1)}{n - k - 1} \\ = \frac{2 k n}{n - k - 1} - 2 \ln (L) \end{aligned},

$\begin{align}AIC_c &= AIC + \frac{2k(k + 1)}{n - k - 1}\\ &= \frac{2kn}{n-k-1} - 2 \ln{(L)}\end{align} \,,$

Dabei ist die Stichprobengröße. Da sich die Gewichtung beim Vergleich von Modellen mit unterschiedlicher Parameteranzahl nun geringfügig unterscheidet, wählt AIC Modelle anders als AIC selbst aus und ist identisch mit AIC, wenn die beiden Modelle unterschiedlich sind, aber dieselbe Parameteranzahl aufweisen. Andere Methoden wählen Modelle auch anders aus, z. B. "Das BIC- Kriterium bestraft freie Parameter im Allgemeinen stärker als das Akaike-Informationskriterium, obwohl es davon abhängt ..." Die Unentbehrlichkeit von Parameterwerten ist unterschiedlich und unter bestimmten Umständen der Verwendung von AIC vorzuziehen $n$ $_c$ . Im Allgemeinen hat jede Methode zur Beurteilung der Angemessenheit eines Modells ihre Vor- und Nachteile. Mein Rat wäre, die Leistung einer Modellauswahlmethode auf ihre Anwendung auf die Datenregressionsmethode gründlicher zu testen als die Modelle selbst zu testen. Gibt es Grund zu zweifeln? Ja, bei der Erstellung oder Auswahl von Modelltests sollte vorsichtig vorgegangen werden, um methodisch angemessene Methoden auszuwählen. AIC ist nützlich für eine Untergruppe von Modellbewertungen, dazu siehe Q3, weiter unten. Zum Beispiel kann das Extrahieren von Informationen mit Modell A am besten mit Regressionsmethode 1 und für Modell B mit Regressionsmethode 2 durchgeführt werden, wobei Modell B und Methode 2 manchmal nicht-physikalische Antworten liefern und keine der beiden Regressionsmethoden MLR ist.

Q3 Wie hat das mit der Informationstheorie :

MLR-Annahme Nr. 1. AIC basiert auf den Annahmen der Anwendbarkeit der maximalen Wahrscheinlichkeit (Maximum Likelihood, MLR) auf ein Regressionsproblem. Es gibt nur einen Umstand, in dem die gewöhnliche Regression der kleinsten Quadrate und die Maximum-Likelihood-Regression als gleich bezeichnet wurden. Dies ist der Fall, wenn die Residuen der linearen Regression der kleinsten Quadrate (OLS) normalverteilt sind und MLR eine Gaußsche Verlustfunktion hat. In anderen Fällen der linearen OLS-Regression, der nichtlinearen OLS-Regression und der nicht-Gaußschen Verlustfunktion können sich MLR und OLS unterscheiden. Es gibt viele andere Regressionsziele als OLS oder MLR oder sogar Anpassungsgüte, und häufig hat eine gute Antwort wenig damit zu tun, z. B. für die meisten inversen Probleme. Es gibt häufig zitierte Versuche (z. B. 1100-mal), AIC für Quasi-Likelihood zu verallgemeinern, sodass die Abhängigkeit von der maximalen Likelihood-Regression gelockert wird, um allgemeinere Verlustfunktionen zuzulassen . Darüber hinaus ist MLR für Student's-t, obwohl nicht in geschlossener Form, robust konvergierend . Da Student-t-Restverteilungen sowohl allgemeiner als auch allgemeiner als auch einschließlich der Gaußschen Bedingungen sind, sehe ich keinen besonderen Grund, die Gaußsche Annahme für AIC zu verwenden.

MLR-Annahme Nr. 2. MLR ist ein Versuch, die Anpassungsgüte zu quantifizieren. Es wird manchmal angewendet, wenn es nicht angemessen ist. Zum Beispiel für getrimmte Entfernungsdaten, wenn das verwendete Modell nicht getrimmt ist. Die Anpassungsgüte ist in Ordnung und gut, wenn wir eine vollständige Informationsabdeckung haben. In Zeitreihen verfügen wir normalerweise nicht über ausreichend schnelle Informationen, um vollständig zu verstehen, welche physischen Ereignisse anfänglich auftreten, oder unsere Modelle sind möglicherweise nicht vollständig genug, um sehr frühe Daten zu untersuchen. Noch beunruhigender ist, dass man mangels Daten die Passgenauigkeit oftmals nicht sehr spät testen kann. Daher modelliert die Anpassungsgüte möglicherweise nur 30% der Flächenanpassung unter der Kurve. In diesem Fall beurteilen wir ein extrapoliertes Modell anhand der Position der Daten und untersuchen nicht, was dies bedeutet. Um zu extrapolieren, Wir müssen uns nicht nur die Anpassungsgüte der "Beträge" ansehen, sondern auch die Ableitungen der Beträge, bei denen wir keine Extrapolationsgüte haben. Daher finden Anpassungstechniken wie B-Splines Verwendung, da sie die Daten besser vorhersagen können, wenn die Ableitungen angepasst sind, oder alternativ inverse Problembehandlungen, z. B. eine schlecht positionierte integrale Behandlung über den gesamten Modellbereich, wie das adaptive Tikhonov zur Fehlerausbreitung Regularisierung.

Ein weiteres kompliziertes Problem sind die Daten, die uns Aufschluss darüber geben, wie wir damit umgehen sollen. Was wir für die Anpassungsgüte benötigen (falls zutreffend), sind die Residuen, die Abstände in dem Sinne sind, dass eine Standardabweichung ein Abstand ist. Das heißt, die Anpassungsgüte wäre nicht sehr sinnvoll, wenn ein Residuum, das doppelt so lang wie eine einzelne Standardabweichung ist, nicht auch zwei Standardabweichungen lang wäre. Die Auswahl von Datentransformationen sollte untersucht werden, bevor eine Modellauswahl- / Regressionsmethode angewendet wird. Wenn die Daten einen proportionalen Typfehler aufweisen, ist es normalerweise nicht unangemessen, den Logarithmus vor der Auswahl einer Regression zu verwenden, da dann Standardabweichungen in Abstände umgewandelt werden. Alternativ können wir die zu minimierende Norm ändern, um passende proportionale Daten aufzunehmen. Gleiches gilt für die Poisson-Fehlerstruktur, Wir können entweder die Quadratwurzel der Daten nehmen, um den Fehler zu normalisieren, oder unsere Norm für die Anpassung ändern. Es gibt Probleme, die viel komplizierter oder sogar unlösbar sind, wenn wir die Anpassungsnorm nicht ändern können, z. B. Poisson-Zählstatistik aus dem Zerfall von Kernmaterial, wenn der Radionuklid-Zerfall eine exponentielle zeitbasierte Assoziation zwischen den Zähldaten und der tatsächlichen Masse herbeiführt Ich strahlte diese Zählungen aus, wenn es keinen Zerfall gegeben hätte. Warum? Wenn wir die Zählraten zurückkorrigieren, haben wir keine Poisson-Statistiken mehr und Residuen (oder Fehler) von der Quadratwurzel der korrigierten Zählraten sind keine Entfernungen mehr. Wenn wir dann einen Anpassungstest für zerfallskorrigierte Daten (z. B. AIC) durchführen möchten, müssten wir dies auf eine Weise tun, die meinem bescheidenen Selbst unbekannt ist. Offene Frage an die Leserschaft, ob wir auf MLR bestehen, Können wir die Norm ändern, um den Fehlertyp der Daten zu berücksichtigen (wünschenswert), oder müssen wir die Daten immer umwandeln, um die Verwendung von MLR zu ermöglichen (nicht so nützlich)? Hinweis: AIC vergleicht keine Regressionsmethoden für ein einzelnes Modell, sondern verschiedene Modelle für dieselbe Regressionsmethode.

AIC-Annahme Nr. 1. Es scheint, dass MLR nicht auf normale Residuen beschränkt ist, siehe zum Beispiel diese Frage zu MLR und Student's-t . Als nächstes nehmen wir an, dass MLR für unser Problem geeignet ist, damit wir dessen Verwendung für den theoretischen Vergleich von AIC-Werten verfolgen können. Als nächstes nehmen wir an, dass 1) vollständige Informationen vorliegen, 2) die gleiche Art der Verteilung von Residuen (z. B. beide normal, beide Student's t ) für mindestens 2 Modelle. Das heißt, wir haben einen Unfall, dass zwei Modelle jetzt die Art der Verteilung von Residuen haben sollten. Könnte das passieren? Ja, wahrscheinlich, aber bestimmt nicht immer.

AIC-Annahme Nr. 2. AIC bezieht sich auf den negativen Logarithmus der Größe (Anzahl der Parameter im Modell geteilt durch die Kullback-Leibler-Divergenz ). Ist diese Annahme notwendig? In den allgemeinen Verlustfunktionen wird eine andere "Divergenz" verwendet. Dies führt uns zu der Frage, ob dieses andere Maß allgemeiner ist als die KL-Divergenz. Warum verwenden wir es nicht auch für AIC?

Die nicht übereinstimmenden Informationen für AIC aus der Kullback-Leibler-Divergenz lauten: "Obwohl ... die Kullback-Leibler-Divergenz häufig als Methode zur Messung des Abstands zwischen Wahrscheinlichkeitsverteilungen verwendet wird, ist sie keine echte Metrik." Wir werden gleich sehen, warum.

Das KL-Argument erreicht den Punkt, an dem der Unterschied zwischen zwei Dingen, dem Modell (P) und den Daten (Q), besteht

D_{K L} (P ‖ Q) = \int_{X} \log (\frac{d P}{d Q}) \frac{d P}{d Q} d Q,

$D_{\mathrm{KL}}(P\|Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q \,,$

was wir als die Entropie von P relativ zu Q erkennen.

AIC-Annahme Nr. 3. Die meisten Formeln, die die Kullback-Leibler-Divergenz betreffen, gelten unabhängig von der Basis des Logarithmus. Der konstante Multiplikator könnte mehr Bedeutung haben, wenn AIC mehr als einen Datensatz gleichzeitig in Beziehung setzt. Wenn beim Vergleichen von Methoden so ist, wie es dann werden alle positiven Zahlen immer noch . Da dies willkürlich ist, ist es auch nicht unangemessen, die Konstante als Definitionssache auf einen bestimmten Wert zu setzen. $AIC_{data,model 1}<AIC_{data,model 2}$ $<$

AIC-Annahme Nr. 4. Das heißt, dass AIC die Shannon-Entropie oder Selbstinformation misst . "Wir müssen wissen, dass" Entropie das ist, was wir für eine Informationsmetrik benötigen? "

Um zu verstehen, was "Selbstinformation" ist, müssen wir Informationen in einem physischen Kontext normalisieren, wie es jeder tun wird. Ja, ich möchte, dass ein Informationsmaß physikalische Eigenschaften hat. Wie würde das in einem allgemeineren Kontext aussehen?

Die Gibbs-Gleichung für freie Energie ( $\Delta G = ΔH – TΔS$ ) bezieht sich die Energieänderung auf die Enthalpieänderung abzüglich der absoluten Temperatur multipliziert mit der Entropieänderung. Die Temperatur ist ein Beispiel für eine erfolgreiche Art von normalisiertem Informationsgehalt, denn wenn ein heißer und ein kalter Baustein in einer thermisch geschlossenen Umgebung miteinander in Kontakt gebracht werden, fließt Wärme zwischen ihnen. Wenn wir uns jetzt darauf konzentrieren, ohne zu viel nachzudenken, sagen wir, dass Wärme die Information ist. Aber es sind die relativen Informationen, die das Verhalten eines Systems vorhersagen. Informationen fließen, bis das Gleichgewicht erreicht ist, aber das Gleichgewicht von was? Temperatur, das ist was, nicht Wärme, wie bei der Teilchengeschwindigkeit bestimmter Teilchenmassen, ich spreche nicht von molekularer Temperatur, ich spreche von der Bruttotemperatur von zwei Steinen, die unterschiedliche Massen haben können, aus unterschiedlichen Materialien bestehen, unterschiedliche Dichten haben usw. und nichts davon muss ich wissen, alles was ich wissen muss ist, dass die Brutto-Temperatur das ist, was sich ausgleicht. Wenn also ein Baustein heißer ist, hat er einen höheren relativen Informationsgehalt und, wenn er kälter ist, einen geringeren.

Nun, wenn mir gesagt wird, dass ein Stein mehr Entropie als der andere hat, was dann? Das allein sagt nicht voraus, ob es Entropie gewinnt oder verliert, wenn es in Kontakt mit einem anderen Ziegelstein gebracht wird. Ist Entropie allein ein nützliches Informationsmaß? Ja, aber nur, wenn wir denselben Baustein mit sich selbst vergleichen, also den Begriff "Selbstinformation".

Daraus ergibt sich die letzte Einschränkung: Um KL-Divergenz verwenden zu können, müssen alle Bausteine identisch sein. Was AIC somit zu einem atypischen Index macht, ist, dass es nicht zwischen Datensätzen (z. B. verschiedenen Bausteinen) portierbar ist, was keine besonders wünschenswerte Eigenschaft ist, die durch Normalisieren des Informationsgehalts angesprochen werden könnte. Ist die KL-Divergenz linear? Vielleicht ja vielleicht nein. Das spielt jedoch keine Rolle, wir müssen keine Linearität annehmen, um AIC zu verwenden, und zum Beispiel ist die Entropie selbst meiner Meinung nach nicht linear mit der Temperatur verbunden. Mit anderen Worten, wir brauchen keine lineare Metrik, um Entropieberechnungen durchzuführen.

Eine gute Informationsquelle zu AIC ist diese Arbeit . Auf der pessimistischen Seite heißt es: "An sich hat der Wert des AIC für einen bestimmten Datensatz keine Bedeutung." Optimistisch ist, dass Modelle mit engen Ergebnissen durch Glätten unterschieden werden können, um Konfidenzintervalle festzulegen, und vieles mehr.

— Carl
quelle

Können Sie den Hauptunterschied zwischen der neuen und der alten gelöschten Antwort angeben? Es scheint eine gewisse Überschneidung zu geben.

— Richard Hardy

Ich war gerade dabei, meine Antwort für einige Stunden zu bearbeiten, als sie gelöscht wurde. Es gab eine Menge Änderungen im Vergleich zu dem Zeitpunkt, zu dem ich angefangen habe, als es noch in Arbeit war, viel gelesen und nachgedacht habe, und meine Kollegen auf dieser Website scheinen sich nicht darum zu kümmern, helfen aber nicht, irgendetwas zu beantworten. AIC scheint zu gut für eine kritische Überprüfung, wie kann ich es wagen? Ich habe meine Bearbeitung abgeschlossen und erneut veröffentlicht. Ich möchte wissen, was an meiner Antwort falsch ist. Ich habe hart daran gearbeitet und versucht, ehrlich zu sein, und niemand anderes hat sich darum gekümmert.

— Carl

Reg dich nicht auf. Meine ersten Erfahrungen hier waren ebenfalls frustrierend, aber später lernte ich, Fragen angemessen zu stellen. Einen neutralen Ton zu halten und strenge Meinungen zu vermeiden, die nicht auf harten Fakten beruhen, wäre meiner Meinung nach ein guter erster Schritt. (Ich habe Ihre Frage übrigens positiv bewertet, zögere aber immer noch über die Antwort.)

— Richard Hardy

+1 Nur für deine Präambel. Jetzt lese ich die Antwort weiter.

— Antoni Parellada

@AntoniParellada Sie haben geholfen, indem Sie die Frage nicht gelöscht haben, was ich sehr schätze. Es war schwierig, durch AIC zu arbeiten, und ich brauche Hilfe dabei. Sicher, einige meiner Erkenntnisse sind gut, aber ich habe auch eine Hufkrankheit im Mund, die andere besser fangen können als ich.

— Carl

AIC ist eine Schätzung des doppelten modellgetriebenen additiven Terms zur erwarteten Kullback-Leibler-Divergenz zwischen der wahren Verteilung und dem approximierenden parametrischen Modell . $f$ $g$

KL-Divergenz ist ein Thema in der Informationstheorie und funktioniert intuitiv (wenn auch nicht rigoros) als Maß für den Abstand zwischen zwei Wahrscheinlichkeitsverteilungen. In meiner nachstehenden Erklärung beziehe ich mich auf diese Folien von Shuhua Hu. Diese Antwort muss noch zitiert werden, um das "Schlüsselergebnis" zu erhalten.

Die KL-Divergenz zwischen dem wahren Modell und dem approximierenden Modell ist $f$ $g_{\theta}$

d (f, g_{θ}) = \int f (x) \log (f (x)) d x - \int f (x) \log (g_{θ} (x)) d x

$d(f, g_{\theta}) = \int f(x) \log(f(x)) dx -\int f(x) \log(g_{\theta}(x)) dx$

Da die Wahrheit unbekannt ist, werden Daten aus erzeugt und die Schätzung der maximalen Wahrscheinlichkeit ergibt den Schätzer . Das Ersetzen von durch in den obigen Gleichungen bedeutet, dass sowohl der zweite Term in der KL-Divergenzformel als auch die KL-Divergenz selbst nun Zufallsvariablen sind. Das "Schlüsselergebnis" in den Folien ist, dass der Durchschnitt des zweiten additiven Terms in Bezug auf durch eine einfache Funktion der Likelihood-Funktion (ausgewertet am MLE) und , der Dimension von , geschätzt werden kann : $y$ $f$ $\hat{\theta}(y)$ $\theta$ $\hat{\theta}(y)$ $y$ $L$ $k$ $\theta$

- E_{y} [\int f (x) \log (g_{\hat{θ} (y)} (x)) d x] \approx - \log (L (\hat{θ} (y))) + k .

$-\text{E}_y\left[\int f(x) \log(g_{\hat{\theta}(y)}(x)) \, dx \right] \approx -\log(L(\hat{\theta}(y))) + k.$

AIC ist als das Doppelte der obigen Erwartung (HT @ Carl) definiert, und kleinere (negativere) Werte entsprechen kleineren geschätzten KL-Abweichungen zwischen der wahren Verteilung und der modellierten Verteilung . $f$ $g_{\hat{\theta}(y)}$

— Ben Ogorek
quelle

Wie Sie wissen, ist der Begriff Abweichung, wenn er auf die logarithmische Wahrscheinlichkeit angewendet wird, umgangssprachlich und ungenau. Ich habe die Diskussion darüber weggelassen, weil nur Monotonie erforderlich ist, damit AIC-Differenzen einen Vergleichswert und keine Linearität haben. Daher sehe ich keine Relevanz darin, zu sehr zu versuchen, etwas zu "visualisieren", das wahrscheinlich nicht vorhanden ist und sowieso nicht benötigt wird.

— Carl

Ich verstehe Ihren Standpunkt, dass der letzte Absatz einen roten Hering hinzufügt, und mir ist klar, dass niemand davon überzeugt sein muss, dass 2 * x der gleiche Rang wie x ist. Wäre es fair zu sagen, dass die Menge "nach Konvention" mit 2 multipliziert wird?

— Ben Ogorek

Sowas in der Art. Persönlich würde ich für "definiert als" stimmen, weil es ursprünglich so gewählt wurde. Oder um dies in eine zeitliche Perspektive zu bringen: Jede Konstante, die hätte verwendet werden können, einschließlich einer Konstante, müsste ausgewählt und eingehalten werden, da es keinen Referenzstandard zur Durchsetzung einer Skala gibt.

— Carl

Ein einfacher Gesichtspunkt für Ihre ersten beiden Fragen ist, dass die AIC mit der erwarteten Fehlerrate außerhalb der Stichprobe des Maximum-Likelihood-Modells zusammenhängt. Das AIC-Kriterium basiert auf der Beziehung (Elemente der statistischen Lerngleichung 7.27) Dabei ist nach Ihrer Notation die Anzahl der Parameter im Modell deren maximaler Wahrscheinlichkeitswert .

- 2 E [\ln P r (D | θ)] \approx - \frac{2}{N} E [\ln L_{m, D}] + \frac{2 k_{m}}{N} = \frac{1}{N} E [{A I C}_{m, D}]

$-2 \, \mathrm{E}[\ln \mathrm{Pr}(D|\theta)] \approx -\frac{2}{N} \, \mathrm{E}[\ln L_{m,D}] + \frac{2k_m}{N} = \frac{1}{N} E[\mathrm{AIC}_{m,D}]$

k_{m}

$k_m$

m

$m$

L_{m, D}

$L_{m,D}$

Der Ausdruck auf der linken Seite ist die erwartete "Fehler" -Rate außerhalb der Stichprobe des Maximum-Likelihood-Modells , wobei das Protokoll der Wahrscheinlichkeit als Fehlermetrik verwendet wird. Der -2-Faktor ist die traditionelle Korrektur, die zum Konstruieren der Abweichung verwendet wird (nützlich, da in bestimmten Situationen eine Chi-Quadrat-Verteilung verwendet wird). $m = \{ \theta \}$

Die rechte Hand besteht aus der "Fehler" in der Stichprobe, die aus der maximierten Log-Wahrscheinlichkeit geschätzt wird, plus dem Term , der den Optimismus der maximierten Log-Wahrscheinlichkeit korrigiert, der die Freiheit hat, die Daten etwas zu übertreffen. $2k_m/N$

Somit ist der AIC eine Schätzung der "Fehler" -Rate (Abweichung) mal außerhalb der Stichprobe . $N$

— jwimberley
quelle