Warum gibt mir die Anwendung der Modellauswahl mit AIC nicht signifikante p-Werte für die Variablen?


14

Ich habe einige Fragen zum AIC und hoffe, dass Sie mir helfen können. Ich habe die Modellauswahl (vorwärts oder rückwärts) basierend auf dem AIC auf meine Daten angewendet. Und einige der ausgewählten Variablen haben am Ende einen p-Wert> 0,05. Ich weiß, dass die Leute sagen, wir sollten Modelle basierend auf dem AIC anstelle des p-Werts auswählen, also scheinen der AIC und der p-Wert zwei unterschiedliche Konzepte zu sein. Könnte mir jemand sagen, was der Unterschied ist? Was ich bis jetzt verstehe, ist das:

  1. Für die Rückwärtsauswahl mit dem AIC haben wir 3 Variablen (var1, var2, var3) und der AIC dieses Modells ist AIC *. Wenn das Ausschließen einer dieser drei Variablen nicht zu einem AIC führen würde, der signifikant niedriger ist als der AIC * (ausgedrückt als ch-Quadrat-Verteilung mit df = 1), würden wir sagen, dass diese drei Variablen das Endergebnis sind.

  2. Ein signifikanter p-Wert für eine Variable (z. B. var1) in einem Drei-Variablen-Modell bedeutet, dass sich die standardisierte Effektgröße dieser Variablen signifikant von 0 unterscheidet (gemäß Wald oder t-Test).

Was ist der grundlegende Unterschied zwischen diesen beiden Methoden? Wie interpretiere ich es, wenn mein bestes Modell einige Variablen mit nicht signifikanten p-Werten enthält (erhalten über den AIC)?

Antworten:


13

AIC und seine Varianten sind näher an Variationen von als an p-Werten jedes Regressors. Genauer gesagt handelt es sich um benachteiligte Versionen der Log-Wahrscheinlichkeit.R2

Sie möchten AIC-Unterschiede nicht mit Chi-Quadrat testen. Sie können Unterschiede der Log-Wahrscheinlichkeit mit Chi-Quadrat testen (wenn die Modelle verschachtelt sind). Für AIC ist niedriger besser (in den meisten Implementierungen jedenfalls). Keine weitere Anpassung erforderlich.

Wenn möglich, sollten Sie auf automatisierte Modellauswahlmethoden verzichten. Wenn Sie einen verwenden müssen, versuchen Sie es mit LASSO oder LAR.


2
Danke für die Antwort. Ja, du hast recht. AIC wendet keinen Test an, sondern gibt ein einfaches Maß dafür an, wie gut das Modell zur Stichprobe passt und ob das Modell auch einfach gehalten werden kann, indem die -2 * -Logwahrscheinlichkeit mit 2 * number_of_parameters addiert wird. Vielleicht erklärt dies, warum Variablen mit nicht signifikanten p-Werten im ausgewählten Modell beibehalten wurden?
Tiantianchen

Welches Modell sollten wir wählen, wenn wir zwei Modelle mit nahezu identischem AIC haben, aber in einem haben wir bedeutendere Begriffe als im anderen?
Agus Camacho

Was auch immer du willst.
Peter Flom - Wiedereinsetzung von Monica

11

Tatsächlich entspricht die Verwendung von AIC für die schrittweise Auswahl einer einzelnen Variablen zu einem Zeitpunkt (zumindest asymptotisch) der schrittweisen Auswahl unter Verwendung eines Grenzwerts für p-Werte von etwa 15,7%. (Dies ist recht einfach zu zeigen - der AIC für das größere Modell wird kleiner, wenn er die log-Wahrscheinlichkeit um mehr als die Strafe für den zusätzlichen Parameter 2 verringert. Dies entspricht der Auswahl des größeren Modells, wenn der p-Wert in a Das Wald-Chi-Quadrat ist kleiner als die Schwanzfläche von a χ12 jenseits von 2 ... (15,7%)

Es ist daher nicht verwunderlich, wenn man es mit der Verwendung eines kleineren Grenzwerts für p-Werte vergleicht, der manchmal Variablen mit höheren p-Werten als diesem Grenzwert enthält.


Können Sie mich auf eine URL oder Referenz für die Verbindung zwischen AIC und p-Werten über Wal Chi-Quadrat verweisen? Vielen Dank.
meh

Dies ist relativ einfach zu zeigen, wenn der Wert 2 als kritischer Wert verwendet wird, was einer p-Wert-Schwelle von 15,73% entspricht (wenn der Freiheitsgrad des Tests 1 ist, wie dies bei der schrittweisen Auswahl unter Verwendung einer linearen Regression der Fall ist) Modelle und stetige Variablen). Dies kann als 1-chi2cdf (2,1) berechnet werden.
George

@aginensky Ich habe keine tatsächliche Referenz gesehen, obwohl die Verbindung unkompliziert ist. Ich stelle mir vor, ich kann einen googeln, warten.
Glen_b -Reinstate Monica

@aginensky Lindsey, JK & Jones, B. (1998) Auswahl unter verallgemeinerten linearen Modellen, die auf medizinische Daten angewendet werden. Statistics in Medicine , 17, 59-68. ... siehe Mitte Seite 62. Es würde mehr geben.
Glen_b -Reinstate Monica

@ Glen_b- danke, ich hatte so etwas noch nie gesehen.
Meh

9

Beachten Sie, dass weder p-Werte noch AIC für die schrittweise Modellauswahl entwickelt wurden. Tatsächlich werden die beiden zugrunde liegenden Annahmen (aber unterschiedliche Annahmen) nach dem ersten Schritt in einer schrittweisen Regression verletzt. Wie @PeterFlom bereits erwähnt hat, sind LASSO und / oder LAR die besseren Alternativen, wenn Sie das Bedürfnis nach einer automatisierten Modellauswahl haben. Diese Methoden ziehen die Schätzungen, die zufällig groß sind (die den Zufall schrittweise belohnen), zurück in Richtung 0 und sind daher tendenziell weniger voreingenommen als schrittweise (und die verbleibende Voreingenommenheit ist tendenziell konservativer).

Ein großes Problem bei der AIC, das oft übersehen wird, ist die Größe der Differenz bei den AIC-Werten. Es ist allzu häufig, zu sehen, dass "niedriger ist besser" und dort anzuhalten ist (und automatisierte Verfahren betonen dies nur). Wenn Sie 2 Modelle vergleichen und diese sehr unterschiedliche AIC-Werte haben, gibt es eine eindeutige Präferenz für das Modell mit dem niedrigeren AIC, aber häufig haben wir 2 (oder mehr) Modelle mit AIC-Werten, die nahe beieinander liegen In diesem Fall werden bei Verwendung nur des Modells mit dem niedrigsten AIC-Wert wertvolle Informationen übersehen (und Aussagen zu Begriffen, die in diesem Modell vorkommen oder nicht, sich jedoch in den anderen ähnlichen Modellen unterscheiden, sind bedeutungslos oder schlechter). Informationen von außerhalb der Daten selbst (wie z. B. wie schwer / teuer es ist, den Satz von Prädiktorvariablen zu erfassen) können die Verwendung eines Modells mit einem etwas höheren AIC ohne großen Qualitätsverlust wünschenswerter machen. Ein anderer Ansatz besteht darin, einen gewichteten Durchschnitt der ähnlichen Modelle zu verwenden (dies wird wahrscheinlich zu ähnlichen endgültigen Vorhersagen führen wie bei den bestraften Methoden wie Gratregression oder Lasso, aber der zum Modell führende Denkprozess könnte das Verständnis unterstützen).


Vielen Dank an @GregSnow für Ihre Antwort. Darf ich fragen, was die (unterschiedlichen) Annahmen für die p-Wert- und AIC-basierte Modellauswahl sind? Wird die Anwendung einer bidirektionalen Richtung (vorwärts / rückwärts) oder der Versuch einer vollständigen Teilmenge mehr oder weniger das Problem lösen, das lokale optimale Modell für die einfache Verwendung einer schrittweisen Vorwärts- oder Rückwärtsauswahl zu finden? (obwohl das Problem der Überanpassung bei der AIC / p-Wert-Methode immer besteht und LASSO und / oder LAR eine bessere Option sind)
tiantianchen

Da weder p-Werte noch AIC für die Modellauswahl entwickelt wurden, gibt es keine Annahmen für die Modellauswahl. Beide wurden für einen einzelnen Vergleich konzipiert. Denken Sie darüber nach, wie viele Vergleiche in einer schrittweisen Regression stattfinden. Glauben Sie wirklich, dass jedes Mal der "beste" Schritt ausgeführt wird?
Greg Snow

@GregSnow. Meine Referenz für das Erlernen von AIC war diese - stat.cmu.edu/~larry/=stat705/Lecture16.pdf , die AIC in das Modellauswahlgeschäft einzubeziehen scheint. Wenn ich außerdem gesehen habe, dass AIC in Zeitreihen-Arima-Modellen verwendet wird, wurde es immer für die Modellauswahl verwendet.
meh

@aginensky, Ja, AIC (und andere) werden für die Modellauswahl verwendet. Dies bedeutet nicht, dass AIC für die Modellauswahl entworfen wurde oder dass es sogar für die Modellauswahl geeignet ist oder dass die automatische Modellauswahl eine aussagekräftige Frage beantwortet. Ich habe vorher einen Schraubenzieher als Hammer benutzt, das heißt aber nicht, dass es im Allgemeinen eine gute Idee ist.
Greg Snow

"In diesem Artikel wird beschrieben, wie das Problem der statistischen Modellauswahl mithilfe eines vom Autor 1971 eingeführten Informationskriteriums (AIC) systematisch angegangen werden kann" von Akaike, "Ein neuer Blick auf die statistische Modellidentifikation". Auch wenn AIC ein Hammer ist, der für ein Problem verwendet wird, das am besten mit einem Schraubendreher gelöst werden kann, war es die Ansicht des Konstrukteurs dieses Hammers, dass ein Hammer der richtige Weg war, um dieses Problem zu lösen. Richtig oder falsch, AIC wurde für die Modellauswahl entwickelt. Ich würde mich freuen, eine andere Sichtweise von AIC zu sehen. Fühlen Sie sich frei, dies zu beantworten, aber ich bin fertig.
meh

1

Meine Erfahrung mit dem AIC ist, dass sich Variablen als mögliche Störfaktoren herausstellen, wenn sie nicht signifikant erscheinen, aber immer noch im Modell mit dem kleinsten AIC erscheinen.

Ich schlage vor, Sie überprüfen auf Verwechslungen. Wenn solche nicht signifikanten Variablen entfernt werden, ändert sich die Magnetstärke einiger verbleibender geschätzter Koeffizienten um mehr als 25%.


Bitte erläutern Sie, wie OP "auf Verwechslungen prüfen kann".
Jim

0

Ich denke, die beste Modellauswahl ist die Verwendung des MuMIn-Pakets. Dies ist ein einziges Ergebnis, und Sie müssen nicht nach den niedrigsten AIC-Werten suchen. Beispiel:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]

2
Zu sagen, welchen Code Sie verwenden könnten, beantwortet die Frage nicht wirklich, es sei denn, Sie können erklären, wie die Frage statistisch behandelt wird. In jedem Fall ist nichts in der Frage spezifisch für eine bestimmte Software.
Nick Cox
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.