AIC und BIC werden verwendet, z. B. bei schrittweiser Regression. Sie sind tatsächlich Teil einer größeren Klasse von "Heuristiken", die auch verwendet werden. Beispielsweise wird das DIC (Deviance Information Criterion) häufig bei der Auswahl von Bayes'schen Modellen verwendet.
Grundsätzlich handelt es sich jedoch um "Heuristiken". Es kann zwar gezeigt werden, dass sowohl die AIC als auch die BIC asymptotisch zu Kreuzvalidierungsansätzen konvergieren (ich denke, die AIC geht in Richtung eines ausschließlichen Lebenslaufs und die BIC in Richtung eines anderen Ansatzes, aber ich bin nicht sicher), aber sie sind bekannt unter- bzw. überbestraft. Mit AIC erhalten Sie häufig ein Modell, das komplizierter ist als es sein sollte, während Sie mit BIC häufig ein Modell erhalten, das zu simpel ist.
Da beide mit dem Lebenslauf zusammenhängen, ist der Lebenslauf häufig die bessere Wahl, da diese Probleme nicht auftreten.
Schließlich gibt es die Frage der Anzahl der Parameter, die für BIC und AIC erforderlich sind. Mit allgemeinen Funktionsapproximatoren (z. B. KNNs) für reelle Eingaben ist es möglich, Parameter zu "verbergen", dh eine reelle Zahl zu konstruieren, die die gleichen Informationen wie zwei reelle Zahlen enthält (z. B. daran zu denken, die Ziffern zu schneiden). Wie viele Parameter sind in diesem Fall tatsächlich vorhanden? Auf der anderen Seite können bei komplizierteren Modellen Einschränkungen für Ihre Parameter bestehen, beispielsweise können Sie nur Parameter wie (siehe z . B. hier ). Oder Sie sind möglicherweise nicht identifizierbar. In diesem Fall ergeben mehrere Werte der Parameter tatsächlich dasselbe Modell. In all diesen Fällen ergibt das einfache Zählen von Parametern keine geeignete Schätzung.θ1> θ2
Da viele moderne Algorithmen für maschinelles Lernen diese Eigenschaften aufweisen (dh universelle Approximation, unklare Anzahl von Parametern, Nichtidentifizierbarkeit), sind AIC und BIC für dieses Modell weniger nützlich, als es auf den ersten Blick erscheinen mag.
EDIT :
Einige weitere Punkte, die geklärt werden könnten:
- Es scheint, als wäre es falsch, das Mapping durch Verschachtelung von Ziffern als einen Bruch zwischen (siehe hier ). Die Details, warum dies kein Bijection ist, sind jedoch etwas schwer zu verstehen. Wir brauchen jedoch eigentlich kein Bijection, damit diese Idee funktioniert (eine Ablehnung ist genug).R → RN
- Nach dem Beweis von Cantor (1877) muss es eine Diskrepanz zwischen . Obwohl diese Bijektion nicht explizit definiert werden kann, kann ihre Existenz bewiesen werden (dies erfordert jedoch das unbewiesene Axiom der Wahl). Diese Bijektion kann weiterhin in einem theoretischen Modell verwendet werden (es ist möglicherweise nicht möglich, dieses Modell tatsächlich in einem Computer zu implementieren), um einen einzelnen Parameter in eine beliebige Anzahl von Parametern zu entpacken.R → RN
- Wir brauchen die Zuordnung zwischen nicht wirklich , um eine Bijektion zu sein. Jede surjektive Funktion reicht aus, um mehrere Parameter aus einem einzigen zu entpacken. Es kann gezeigt werden, dass solche Überlegungen als Grenzen für eine Folge anderer Funktionen existieren (sogenannte raumfüllende Kurven , z . B. Peano-Kurve ).R → RNR → RN
- Weil weder der Beweis von Cantor konstruktiv ist (er beweist einfach die Existenz der Bijektion ohne Angabe eines Beispiels), noch die raumfüllenden Kurven (weil sie nur als Grenzen konstruktiver Objekte existieren und daher selbst nicht konstruktiv sind), das Argument I gemacht ist nur ein theoretischer Beweis. Theoretisch könnten wir einem Modell einfach weiterhin Parameter hinzufügen, um den BIC unter einen beliebigen Wert (auf dem Trainingssatz) zu reduzieren. In einer tatsächlichen Modellimplementierung müssen wir jedoch die raumfüllende Kurve approximieren, sodass uns ein Approximationsfehler möglicherweise davon abhält, dies tatsächlich zu tun (ich habe dies nicht wirklich getestet).
- Da all dies das Axiom der Wahl erfordert, wird der Beweis ungültig, wenn Sie dieses Axiom nicht akzeptieren (obwohl die meisten Mathematiker dies tun). Das heißt, in der konstruktiven Mathematik ist dies möglicherweise nicht möglich, aber ich weiß nicht, welche Rolle die konstruktive Mathematik für die Statistik spielt.
- Die Identifizierbarkeit ist untrennbar mit der funktionalen Komplexität verbunden. Nimmt man einfach ein identifizierbares Parameter-Modell und fügt einen überflüssigen Parameter hinzu (z. B. nirgendwo verwendet), so wird das neue Modell nicht identifizierbar. Im Wesentlichen ist ein mit Hilfe eines Modells, das die Komplexität des besitzt , ein Problem zu lösen , die Komplexität hat . Ähnliches gilt für andere Formen der Nichtidentifizierbarkeit. Nehmen wir zum Beispiel den Fall nicht identifizierbarer Parameterpermutationen. In diesem Fall wird ein Modell verwendet, das die Komplexität von . Das eigentliche Problem besteht jedoch nur in der Komplexität einer Menge von Äquivalenzklassen überNRN+ 1RNRNRN. Dies ist jedoch nur ein informelles Argument, ich kenne keine formale Behandlung dieses Begriffs der "Komplexität".