Warum wird das Akaike-Informationskriterium beim maschinellen Lernen nicht häufiger verwendet?

Ich bin gerade auf das "Akaike-Informationskriterium" gestoßen und habe diese große Menge an Literatur zur Modellauswahl bemerkt (auch Dinge wie BIC scheinen zu existieren).

Warum nutzen moderne Methoden des maschinellen Lernens diese Auswahlkriterien für BIC- und AIC-Modelle nicht?

— Echo
quelle

weil niemand die wahrscheinlichkeiten berechnet?

— Aksakal

Was meinen Sie mit "zeitgemäßen Methoden des maschinellen Lernens"? Soweit ich AIC verwendet habe, werden BIC häufig verwendet.

— Ferdi

Auch warum die -1? Denken Sie daran, es gibt keine dummen Fragen - jede Frage versucht, Licht in das Universum zu bringen

— Echo

@echo: Ich habe nicht abgelehnt, aber ich denke, Ihre Frage würde sich verbessern, wenn Sie den Hauptanspruch (dass Methoden des maschinellen Lernens diese BIC- und AIC-Modellauswahlkriterien ausnutzen) begründen / unterstützen könnten

— user603 15.11.17

@Aksakal Danke. Ich denke, es ist besser, wenn Fragen, die sich auf einen umfassenden Claim beziehen, diesen Claim auslösen. Ich meine in der Regel.

— user603

AIC und BIC werden verwendet, z. B. bei schrittweiser Regression. Sie sind tatsächlich Teil einer größeren Klasse von "Heuristiken", die auch verwendet werden. Beispielsweise wird das DIC (Deviance Information Criterion) häufig bei der Auswahl von Bayes'schen Modellen verwendet.

Grundsätzlich handelt es sich jedoch um "Heuristiken". Es kann zwar gezeigt werden, dass sowohl die AIC als auch die BIC asymptotisch zu Kreuzvalidierungsansätzen konvergieren (ich denke, die AIC geht in Richtung eines ausschließlichen Lebenslaufs und die BIC in Richtung eines anderen Ansatzes, aber ich bin nicht sicher), aber sie sind bekannt unter- bzw. überbestraft. Mit AIC erhalten Sie häufig ein Modell, das komplizierter ist als es sein sollte, während Sie mit BIC häufig ein Modell erhalten, das zu simpel ist.

Da beide mit dem Lebenslauf zusammenhängen, ist der Lebenslauf häufig die bessere Wahl, da diese Probleme nicht auftreten.

Schließlich gibt es die Frage der Anzahl der Parameter, die für BIC und AIC erforderlich sind. Mit allgemeinen Funktionsapproximatoren (z. B. KNNs) für reelle Eingaben ist es möglich, Parameter zu "verbergen", dh eine reelle Zahl zu konstruieren, die die gleichen Informationen wie zwei reelle Zahlen enthält (z. B. daran zu denken, die Ziffern zu schneiden). Wie viele Parameter sind in diesem Fall tatsächlich vorhanden? Auf der anderen Seite können bei komplizierteren Modellen Einschränkungen für Ihre Parameter bestehen, beispielsweise können Sie nur Parameter wie (siehe z . B. hier ). Oder Sie sind möglicherweise nicht identifizierbar. In diesem Fall ergeben mehrere Werte der Parameter tatsächlich dasselbe Modell. In all diesen Fällen ergibt das einfache Zählen von Parametern keine geeignete Schätzung. $\theta_1 > \theta_2$

Da viele moderne Algorithmen für maschinelles Lernen diese Eigenschaften aufweisen (dh universelle Approximation, unklare Anzahl von Parametern, Nichtidentifizierbarkeit), sind AIC und BIC für dieses Modell weniger nützlich, als es auf den ersten Blick erscheinen mag.

EDIT :

Einige weitere Punkte, die geklärt werden könnten:

Es scheint, als wäre es falsch, das Mapping durch Verschachtelung von Ziffern als einen Bruch zwischen (siehe hier ). Die Details, warum dies kein Bijection ist, sind jedoch etwas schwer zu verstehen. Wir brauchen jedoch eigentlich kein Bijection, damit diese Idee funktioniert (eine Ablehnung ist genug). $\mathbb{R}\rightarrow\mathbb{R}^N$
Nach dem Beweis von Cantor (1877) muss es eine Diskrepanz zwischen . Obwohl diese Bijektion nicht explizit definiert werden kann, kann ihre Existenz bewiesen werden (dies erfordert jedoch das unbewiesene Axiom der Wahl). Diese Bijektion kann weiterhin in einem theoretischen Modell verwendet werden (es ist möglicherweise nicht möglich, dieses Modell tatsächlich in einem Computer zu implementieren), um einen einzelnen Parameter in eine beliebige Anzahl von Parametern zu entpacken. $\mathbb{R}\rightarrow\mathbb{R}^N$
Wir brauchen die Zuordnung zwischen nicht wirklich , um eine Bijektion zu sein. Jede surjektive Funktion reicht aus, um mehrere Parameter aus einem einzigen zu entpacken. Es kann gezeigt werden, dass solche Überlegungen als Grenzen für eine Folge anderer Funktionen existieren (sogenannte raumfüllende Kurven , z . B. Peano-Kurve ). $\mathbb{R}\rightarrow\mathbb{R}^N$ $\mathbb{R}\rightarrow\mathbb{R}^N$
Weil weder der Beweis von Cantor konstruktiv ist (er beweist einfach die Existenz der Bijektion ohne Angabe eines Beispiels), noch die raumfüllenden Kurven (weil sie nur als Grenzen konstruktiver Objekte existieren und daher selbst nicht konstruktiv sind), das Argument I gemacht ist nur ein theoretischer Beweis. Theoretisch könnten wir einem Modell einfach weiterhin Parameter hinzufügen, um den BIC unter einen beliebigen Wert (auf dem Trainingssatz) zu reduzieren. In einer tatsächlichen Modellimplementierung müssen wir jedoch die raumfüllende Kurve approximieren, sodass uns ein Approximationsfehler möglicherweise davon abhält, dies tatsächlich zu tun (ich habe dies nicht wirklich getestet).
Da all dies das Axiom der Wahl erfordert, wird der Beweis ungültig, wenn Sie dieses Axiom nicht akzeptieren (obwohl die meisten Mathematiker dies tun). Das heißt, in der konstruktiven Mathematik ist dies möglicherweise nicht möglich, aber ich weiß nicht, welche Rolle die konstruktive Mathematik für die Statistik spielt.
Die Identifizierbarkeit ist untrennbar mit der funktionalen Komplexität verbunden. Nimmt man einfach ein identifizierbares Parameter-Modell und fügt einen überflüssigen Parameter hinzu (z. B. nirgendwo verwendet), so wird das neue Modell nicht identifizierbar. Im Wesentlichen ist ein mit Hilfe eines Modells, das die Komplexität des besitzt , ein Problem zu lösen , die Komplexität hat . Ähnliches gilt für andere Formen der Nichtidentifizierbarkeit. Nehmen wir zum Beispiel den Fall nicht identifizierbarer Parameterpermutationen. In diesem Fall wird ein Modell verwendet, das die Komplexität von . Das eigentliche Problem besteht jedoch nur in der Komplexität einer Menge von Äquivalenzklassen über $N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ . Dies ist jedoch nur ein informelles Argument, ich kenne keine formale Behandlung dieses Begriffs der "Komplexität".

— LiKao
quelle

Möchtest du in diesem Beitrag mitmachen ? Stats.stackexchange.com/questions/325129/… ? Ich habe eine Weile kein Glück damit gehabt.

— Skander H. - Reinstate Monica

@LiKao Können Sie Verweise auf die "Techniken" zum Verbergen von Parametern zitieren, wie zum Beispiel den Fall von sich überschneidenden Ziffern?

— HoraceT

@horaceT Leider kenne ich kein Papier, das dieses Beispiel gibt. In Arbeiten zu MDL gibt es den Begriff "funktionale Komplexität" (z. B. lpl.psy.ohio-state.edu/documents/MNP.pdf, siehe Gl. 10). Häufig wird das Beispiel mit eingeschränkten Parametern erstellt (z . B. researchgate.net/publication/… ). Ich möchte das Beispiel umdrehen, wenn ich das diskutiere, und zeigen, dass ein komplexer einzelner Parameter mehrere einfache Parameter erfassen kann, weil ich es intuitiver finde.

— LiKao

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$

N

$N$

f_{1, N}

$f_{1,N}$

N

$N$

N

$N$

1

$1$

@ LiKao Das ist ziemlich faszinierend. Bitte beziehen Sie sich auf den Nachweis von "Archivierungskurven". Ich konnte sehen, dass eingeschränkte Parameter "weniger" Freiheitsgrade haben. Naiv, wenn f (x, y) = 0 ist, ist y nur eine Funktion von x; Sie setzen einfach g (x) wo y ist. Können Sie mit eingeschränkter Optimierung nicht ähnliche Dinge tun?

— HoraceT