Was bringt es, Daten in Trainings- und Testteile zu unterteilen, um die Vorhersageeigenschaften bei AIC zu bewerten?

Asymptotisch entspricht die Minimierung des AIC der Minimierung der ausgelassenen Kreuzvalidierungs-MSE für Querschnittsdaten [ 1 ]. Wenn wir also AIC haben, warum verwendet man überhaupt die Methode der Aufteilung der Daten in Trainings-, Validierungs- und Testsätze, um die Vorhersageeigenschaften von Modellen zu messen? Was genau sind die Vorteile dieser Praxis?

Ich kann mir einen Grund vorstellen: Wenn man die Vorhersageleistungen der Modelle bewerten möchte, ist eine Analyse außerhalb der Stichprobe nützlich. Aber obwohl AIC kein Maß für die Prognose ist die Genauigkeit , hat man in der Regel eine gute Idee , wenn einige Modell ihr maximales Potenzial erreicht (für die Daten eines gegeben ist) in Bezug darauf, wie gut Sie sind Gonna der Lage sein , vorherzusagen.

predictive-models aic

— Erosennin
quelle

Ein Auszug aus den Dokumenten von sklearn : Die auf Informationskriterien basierende Modellauswahl ist sehr schnell, beruht jedoch auf einer korrekten Schätzung der Freiheitsgrade, wird für große Stichproben abgeleitet (asymptotische Ergebnisse) und setzt voraus, dass das Modell korrekt ist, dh dass die Daten tatsächlich sind von diesem Modell generiert. Sie neigen auch dazu zu brechen, wenn das Problem schlecht konditioniert ist (mehr Funktionen als Beispiele).

— Sascha

Ich glaube nicht, dass AIC ein korrektes Modell annimmt ( stats.stackexchange.com/questions/205222/… ). In Bezug auf Stichprobengröße und AIC als asymptotisches Ergebnis: Sie würden Ihre Daten niemals in drei Teile teilen, wenn Sie nur wenige Daten haben. Daher ist eine kleine Stichprobengröße sowohl für die Analyse außerhalb der Stichprobe als auch für die AIC problematisch

— Erosennin,

@sascha hat da einen Punkt: für AIC, um die erwarteten KL-Informationen zu approximieren. Verlust gut eines der Modelle muss ziemlich gut sein. Ich glaube nicht, dass jemand befürwortet, AIC zu verwenden, um schlechte Modelle zu vergleichen, um festzustellen, welche weniger schlecht sind.

— Scortchi - Monica wieder einsetzen

tr (J (θ_{0}) (I (θ_{0}))^{- 1}) \approx k

$\operatorname{tr}(J(\theta_0)(I(\theta_0))^{-1}) \approx k$ in Folie 10, mit der @sascha verknüpft ist. (Ich habe nur auf unserer Website nachgesehen - wir scheinen viele Aussagen über AIC und Referenzen zu haben, die noch mehr Aussagen enthalten, aber wenig darüber hinaus. Aus dem Gedächtnis geben Pawitan, In All Likelihood und Burnham & Anderson, Model Selection , Ableitungen .)

— Scortchi - Monica wieder einsetzen

Ok, ich habe den TIC-Teil übersprungen und das bisschen verpasst. Du liegst absolut richtig. Entschuldigung an Sie @sascha, und danke, dass Sie mich aufgeklärt haben :) Ja, ich habe mir gerade Burnham & Anderson angesehen. Tolle Ressource!

— Erosennin

In der Praxis verwende ich immer eine Kreuzvalidierung oder einen einfachen Zug-Test-Split anstelle von AIC (oder BIC). Ich bin mit der Theorie hinter AIC nicht allzu vertraut, aber zwei Hauptprobleme veranlassen mich, direktere Schätzungen der Vorhersagegenauigkeit zu bevorzugen:

Die Zahl selbst sagt nicht viel darüber aus, wie genau ein Modell ist. AIC kann nachweisen, welches von mehreren Modellen am genauesten ist, sagt Ihnen jedoch nicht, wie genau das Modell in Einheiten des DV ist. Ich bin fast immer an konkreten Genauigkeitsschätzungen dieser Art interessiert, weil sie mir sagen, wie nützlich ein Modell in absoluten Zahlen ist und wie viel genauer es ist als ein Vergleichsmodell.
AIC benötigt wie BIC für jedes Modell eine Parameteranzahl oder einen anderen Wert, der die Komplexität des Modells misst. Es ist nicht klar, was Sie dafür tun sollten, wenn Sie weniger traditionelle Vorhersagemethoden wie die Klassifizierung der nächsten Nachbarn, zufällige Wälder oder die verrückte neue Ensemble-Methode verwenden, die Sie Mitte des letzten Monats auf eine Cocktailserviette gekritzelt haben. Im Gegensatz dazu können Genauigkeitsschätzungen für jedes Vorhersagemodell auf dieselbe Weise erstellt werden.

— Kodiologe
quelle

+1 Großartig! # 2 ist ein gutes Argument! # 1 spricht an, was ich über AIC schreibe, das kein Maß für die Prognosegenauigkeit ist, großartiger Punkt! Kann ich fragen, wie Sie vergleichen, "wie viel genauer es ist als ein Vergleichsmodell"? Ich habe kürzlich darüber nachgedacht, als ich die MSE zweier Modelle verglichen habe. Die MSE von Modell 1 und Modell 2 betrug 10 bzw. 20. Wie interpretiere ich, wie viel genauer Modell 1 ist? Ich denke, es kann nicht so einfach sein wie 20/10, denn wenn man dies vergleicht, muss / sollte dies die Skala des DV berücksichtigen?

— Erosennin

Ich schaue mir nur die beiden jeweiligen Genauigkeitsangaben (MSE oder was auch immer) an, anstatt zu versuchen, eine Vergleichsbewertung zu erstellen. Außerdem ist es immer hilfreich, eine Genauigkeitsbewertung für ein triviales Modell (dh ein Modell, das keine Prädiktoren verwendet) zu haben, wenn dies nicht bereits eines der Modelle war, die Sie verglichen haben.

— Kodiologe

(+1) Es gibt eine Heimindustrie, die effektive AICs, Quasi-AICs und dergleichen für Situationen erfindet, die keine Maximum-Likelihood-Schätzung mit einer festen Nr. Sind. Parameter.

— Scortchi - Monica wieder einsetzen

@ Kodiologist: Ich denke, es wäre sehr interessant mit einem Vergleichswert. Auf diese Weise können wir Modelle vergleichen, die mit verschiedenen Datensätzen erstellt wurden, z. B. die Leistung alter Modelle mit neuen Modellen bewerten, wenn neue Daten verfügbar sind.

— Erosennin

In Bezug auf 2. gibt es eine relativ einfache Möglichkeit, die Freiheitsgrade des Modells zu ermitteln (obwohl die Berechnung in einigen Fällen mäßig zeitaufwändig sein kann, gibt es in vielen gängigen Situationen eine Verknüpfung). das ist ; im wahrsten Sinne des Wortes misst dies die Freiheitsgrade des Modells, um die Daten zu approximieren. Siehe zum Beispiel den JASA-Artikel von Ye aus dem Jahr 1998. StasK verweist beispielsweise auf eine vollständige Referenz in dieser Antwort. ... ctd

k = \sum_{i} \frac{\partial {\hat{y}}_{i}}{\partial y_{i}}

$k=\sum_i \frac{\partial \hat{y}_i}{\partial y_i}$

— Glen_b -Reinstate Monica