Paradox bei der Modellauswahl (AIC, BIC, zu erklären oder vorherzusagen?)


18

Nachdem ich Galit Shmuelis "To Explain or to Predict" (2010) gelesen habe, wundere ich mich über einen offensichtlichen Widerspruch. Es gibt drei Räumlichkeiten,

  1. AIC versus BIC-basierte Modellauswahl (Ende S. 300 - Beginn S. 301): Einfach ausgedrückt, AIC sollte zur Auswahl eines Modells verwendet werden, das zur Vorhersage vorgesehen ist , während BIC zur Auswahl eines Modells zur Erklärung verwendet werden sollte . Zusätzlich (nicht in der obigen Veröffentlichung) wissen wir, dass BIC unter bestimmten Bedingungen das wahre Modell aus der Menge der Kandidatenmodelle auswählt ; Das wahre Modell ist das, was wir in der erklärenden Modellierung suchen (Ende S. 293).
  2. Einfache Arithmetik: AIC wählt ein größeres Modell als BIC für Stichproben mit einer Größe von 8 oder größer aus (wobei ln(n)>2 aufgrund der unterschiedlichen Komplexitätsnachteile bei AIC gegenüber BIC erfüllt wird ).
  3. Das "wahre" Modell (dh das Modell mit den richtigen Regressoren und der richtigen Funktionsform, aber unvollständig geschätzten Koeffizienten) ist möglicherweise nicht das beste Modell für die Vorhersage (S. 307): Ein Regressionsmodell mit einem fehlenden Prädiktor ist möglicherweise ein besseres Prognosemodell - Die Einführung einer Verzerrung aufgrund des fehlenden Prädiktors kann durch die Verringerung der Varianz aufgrund von Ungenauigkeiten bei der Schätzung übergewichtet werden.

Die Punkte 1. und 2. legen nahe, dass größere Modelle für die Vorhersage besser geeignet sind als sparsamere Modelle. In der Zwischenzeit gibt Punkt 3. ein entgegengesetztes Beispiel, bei dem ein sparsameres Modell für die Vorhersage besser ist als ein größeres Modell. Ich finde das rätselhaft.

Fragen:

  1. Wie kann der scheinbare Widerspruch zwischen den Punkten {1. und 2.} und 3. erklärt / gelöst werden?
  2. Können Sie in Anbetracht von Punkt 3. eine intuitive Erklärung dafür geben, warum und wie ein größeres Modell, das von AIC ausgewählt wurde, für die Vorhersage tatsächlich besser ist als ein sparsameres Modell, das von BIC ausgewählt wurde?

2
Ich verstehe das Paradoxon / den Widerspruch nicht. AIC ist effizient (minimiert asymptotisch den erwarteten Vorhersagefehler) und BIC ist konsistent (wählt asymptotisch die wahre Reihenfolge aus). Punkt 3) besagt, dass die Verzerrung durch Varianz übergewichtet werden kann. Es gibt offensichtlich keine Garantie dafür, dass eines in einer bestimmten Stichprobe besser ist als das andere. Ihr "Paradoxon" scheint also zu sein, dass AIC für eine bestimmte Stichprobe möglicherweise nicht die beste Prognose ist, was keine Überraschung ist. Für Ihr Q2: Wenn der durch das kleinere Modell von BIC induzierte Bias-Anstieg größer ist als der Varianz-Anstieg des größeren AIC, ist der AIC besser.
Hejseb

2
Ich würde vorschlagen, dass Sie sich die ersten Kapitel in "Modellauswahl und Modellmittelung" von Nils Hjort und Gerda Claeskens ansehen. Vielleicht klärt das die Dinge auf.
Hejseb

Antworten:


1

Sie sind nicht im selben Kontext zu verstehen; Die Punkte 1 und 2 haben unterschiedliche Kontexte. Sowohl für AIC als auch für BIC wird zuerst untersucht, welche Parameterkombination in welcher Zahl die besten Indizes liefert. (Einige Autoren haben epileptische Anfälle, wenn ich den Wortindex verwendein diesem Zusammenhang. Ignorieren Sie sie oder schlagen Sie den Index im Wörterbuch nach.) In Punkt 2 ist AIC das reichhaltigere Modell, wobei reichhaltiger bedeutet, dass nur gelegentlich Modelle mit mehr Parametern ausgewählt werden, da häufig das optimale AIC-Modell die gleiche Anzahl von Parametern aufweist wie das BIC Auswahl. Das heißt, wenn AIC und BIC Modelle mit der GLEICHEN Anzahl von Parametern auswählen, ist die Behauptung, dass AIC für die Vorhersage besser ist als BIC. Das Gegenteil könnte jedoch eintreten, wenn der BIC mit einem weniger ausgewählten Parametermodell ausfällt (aber keine Garantien gibt). Sober (2002) gelangte zu dem Schluss, dass AIC die Vorhersagegenauigkeit misst, während BIC die Anpassungsgüte misst, wobei Vorhersagegenauigkeit die Vorhersage von y außerhalb des Extremwertbereichs von x bedeuten kann. Wenn draußen, Häufig kann ein weniger optimaler AIC, bei dem schwach prädiktive Parameter fallen, extrapolierte Werte besser vorhersagen als ein optimaler AIC-Index aus mehr Parametern in seinem ausgewählten Modell. Ich stelle im Übrigen fest, dass AIC und ML die Extrapolationsfehlertests nicht überflüssig machen, bei denen es sich um separate Tests für Modelle handelt. Dies kann durch Zurückhalten von Extremwerten aus dem "Trainings" -Satz und Berechnen des Fehlers zwischen dem extrapolierten "Post-Training" -Modell und den zurückgehaltenen Daten erreicht werden.

Nun ist BIC angeblich ein kleinerer Fehlerprädiktor für y-Werte innerhalb der Extremwerte des Bereichs von x . Verbesserte Anpassungsgüte geht oft mit dem Preis der Verzerrung der Regression (für die Extrapolation) einher, wobei der Fehler durch Einführen dieser Verzerrung verringert wird. Dies wird zum Beispiel häufig die Steigung abflachen, um das Vorzeichen des Durchschnitts von links gegen rechts zu teilenf(x)yResiduen (denken Sie an mehr negative Residuen auf der einen Seite und mehr positive Residuen auf der anderen Seite), wodurch der Gesamtfehler reduziert wird. In diesem Fall fragen wir nach dem besten y-Wert bei gegebenem x-Wert und bei AIC nach einer besten funktionellen Beziehung zwischen x und y. Ein Unterschied zwischen diesen besteht beispielsweise darin, dass der BIC bei gleicher Auswahl anderer Parameter einen besseren Korrelationskoeffizienten zwischen Modell und Daten aufweist und der AIC einen besseren Extrapolationsfehler aufweist, der als y-Wert-Fehler für einen gegebenen extrapolierten x-Wert gemessen wird.

Punkt 3 ist manchmal eine Aussage unter bestimmten Bedingungen

  • wenn die Daten sehr verrauscht sind (großes );σ

  • wenn die wahren absoluten Werte der ausgelassenen Parameter (in unserem
    Beispiel ) klein sind;β2

  • wenn die Prädiktoren stark korreliert sind; und

  • wenn die Stichprobengröße klein ist oder der Bereich der ausgelassenen Variablen klein ist.

In der Praxis bedeutet eine korrekte Form einer Gleichung nicht, dass eine Anpassung aufgrund von Rauschen die korrekten Parameterwerte ergibt, und je mehr Rauschen desto besser. Dasselbe passiert mit R Vergleich zu angepasstem R und hoher Kollinearität. Das heißt, manchmal, wenn ein Parameter hinzugefügt wird, verschlechtert sich R während sich R verbessert. 2 2 22222

Ich möchte darauf hinweisen, dass diese Aussagen optimistisch sind. In der Regel sind Modelle falsch, und häufig erzwingt ein besseres Modell eine Norm, die mit AIC oder BIC nicht verwendet werden kann, oder es wird die falsche Reststruktur für ihre Anwendung angenommen, und es sind alternative Maßnahmen erforderlich. In meiner Arbeit ist dies immer der Fall.


1
Ich bin nicht sicher, ob Sie die Fragen beantworten. Mir sind die allgemeinen Einschränkungen der Informationskriterien bekannt, aber das ist nicht das, wonach ich frage. Außerdem verstehe ich Ihren Punkt nicht, wenn AIC und BIC die gleiche Anzahl von Parametern haben, dann ist die Behauptung, dass AIC für die Vorhersage besser ist als BIC . Wenn alternative Modelle dieselbe Anzahl von Parametern aufweisen, läuft der Vergleich von AIC und BIC darauf hinaus, die Wahrscheinlichkeiten zu vergleichen, und sowohl AIC als auch BIC wählen dieselbe Alternative aus. Könnten Sie auch erläutern, was Sie unter einem besseren Modell verstehen , das eine Norm erzwingt, die nicht mit AIC oder BIC verwendet werden kann ?
Richard Hardy

Fortsetzung: Solange wir die Wahrscheinlichkeit und die Freiheitsgrade haben, können wir AIC und BIC berechnen.
Richard Hardy

@RichardHardy True: Solange wir die Wahrscheinlichkeit und die Freiheitsgrade haben, können wir AIC und BIC berechnen. Die Berechnung ist jedoch nicht optimal und irreführend, wenn die Residuen Student-T sind und wir für Student-T nicht AIC und BIC verwendet haben. Im Gegensatz zu Student's-T gibt es Verteilungen von Residuen, für die ML möglicherweise nicht veröffentlicht wurde, z. B. Gamma, Beta usw.
Carl,

Danke für die Klarstellung! Ich glaube, es sollte eine Antwort auf die obigen Fragen geben, die recht einfach und allgemein ist. Genauer gesagt glaube ich nicht, dass es "hässliche" Fälle und Misserfolge von AIC und BIC geben muss. Im Gegenteil, ich denke, es sollte einen ziemlich einfachen Fall geben, der veranschaulichen könnte, warum das Paradoxon nur scheinbar und nicht real ist. Gleichzeitig scheint Ihr zweiter Absatz in die entgegengesetzte Richtung zu gehen. Nicht, dass es an sich nicht wertvoll wäre, aber ich befürchte, es könnte uns von den eigentlichen zugrunde liegenden Fragen ablenken.
Richard Hardy

@RichardHardy Häufig ist die praktische Frage für AIC unlösbar. Zum Beispiel der Vergleich derselben oder verschiedener Modelle mit unterschiedlichen Normen und / oder Datentransformationen oder die Analyse komplizierter Normen, z. B. die fehlerreduzierende Tikhonov-Regularisierung eines abgeleiteten Parameters, allgemeine Inversen usw. Dies muss ebenfalls erwähnt werden, damit jemand AIC verwendet , BIC falsch.
Carl
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.