Widersprüchliche Ansätze zur Variablenauswahl: AIC, p-Werte oder beides?

Soweit ich weiß, ist die Variablenauswahl basierend auf p-Werten (zumindest im Regressionskontext) stark fehlerhaft. Es sieht so aus, als ob die Variablenauswahl basierend auf AIC (oder ähnlichem) auch von einigen aus ähnlichen Gründen als fehlerhaft angesehen wird, obwohl dies ein wenig unklar erscheint (siehe z. B. meine Frage und einige Links zu diesem Thema hier: Was genau ist "schrittweise Modellauswahl"? ).

Angenommen, Sie entscheiden sich für eine dieser beiden Methoden, um den besten Satz von Prädiktoren in Ihrem Modell auszuwählen.

Burnham und Anderson 2002 (Modellauswahl und Multimodell-Inferenz: Ein praktischer informationstheoretischer Ansatz, Seite 83) geben an, dass man die auf AIC basierende Variablenauswahl nicht mit der auf Hypothesentests basierenden mischen sollte : "Tests von Nullhypothesen und informationstheoretischen Ansätzen sollten nicht zusammen verwendet werden, sie sind sehr unterschiedliche Analyseparadigmen. "

Auf der anderen Seite haben Zuur et al. 2009 (Modelle mit gemischten Effekten mit Extensions in Ecology mit R, Seite 541) scheinen die Verwendung von AIC zu befürworten, um zuerst das optimale Modell zu finden und dann mithilfe von Hypothesentests eine "Feinabstimmung" durchzuführen : "Der Nachteil ist, dass die AIC konservativ sein kann , und Sie müssen möglicherweise eine Feinabstimmung vornehmen (unter Verwendung von Hypothesentestverfahren ab Ansatz 1), sobald der AIC ein optimales Modell ausgewählt hat. "

Sie können sehen, wie der Leser der beiden Bücher verwirrt ist, welchen Ansatz er verfolgen soll.

1) Sind dies nur verschiedene "Lager" des statistischen Denkens und ein Thema der Meinungsverschiedenheit unter Statistikern? Ist einer dieser Ansätze jetzt einfach "veraltet", wurde aber zum Zeitpunkt des Schreibens als angemessen erachtet? Oder liegt man einfach von Anfang an falsch?

2) Gibt es ein Szenario, in dem dieser Ansatz angemessen wäre? Zum Beispiel komme ich aus einem biologischen Umfeld, in dem ich oft versuche festzustellen, welche Variablen meine Reaktion beeinflussen oder beeinflussen. Ich habe oft eine Reihe von erklärenden Variablen für Kandidaten und ich versuche herauszufinden, welche "wichtig" sind (in relativen Begriffen). Beachten Sie auch, dass der Satz der Kandidaten-Prädiktorvariablen bereits auf diejenigen reduziert ist, die als biologisch relevant eingestuft werden. Dies kann jedoch auch 5-20 Kandidaten-Prädiktorvariablen umfassen.

— Tilen
quelle

Ich frage mich, was Zuurs statistisches Argument für eine Feinabstimmung mit Hypothesentests nach der AIC-Auswahl wäre. Es scheint keine kohärente Strategie des Modellbaus zu sein. Aber ich weiß nicht genug über diese Dinge.

— Richard Hardy

Ich gehe davon aus, dass der Vorschlag von Zuur et al. Schlecht ist (warum würden Sie jemals Signifikanztests für die Modellauswahl verwenden?), Obwohl ich nicht sicher bin, ob Burnhams und Andersons Aussage richtig ist. Es ist eine gute Frage, aber ich müsste die technischen Details gründlicher lesen als bisher, um sie zu beantworten.

— Kodiologist

Ich habe beide Methoden in Modellen verwendet, um Panelverkäufe vorherzusagen. Eine schrittweise Rückwärtsregression auf AIC-Basis schien aus meiner Erfahrung heraus bessere Ergebnisse zu liefern.

— Souptik Dhar

@SouptikDhar, wenn du "bessere" Ergebnisse sagst, wie genau meinst du das?

— Tilen

Vielleicht hängt die Antwort vom Ziel der Analyse ab? In einer Beobachtungsstudie könnte es wünschenswert sein, das Modell zu finden, das dem Datensatz am ähnlichsten ist, und sich daher beispielsweise auf die "Variablenauswahl basierend auf AIC" zu stützen. Wenn das Ziel jedoch darin besteht, eine Hypothese auf den Prüfstand zu stellen, dann ist das Modell, das eine Übersetzung der Hypothese in Form angemessener Proxies für die Variablen darstellt, die für unsere Hypothese von Interesse sind, bereits von Anfang an festgelegt, so dass kein Raum für sie besteht Variablenauswahl IMHO?

— Rodolphe

Antworten:

Eine kurze Antwort.

Der Ansatz der datengetriebenen Modellauswahl oder -optimierung und der anschließenden Verwendung standardmäßiger Inferenzmethoden für das ausgewählte / optimierte Modell (à la Zuur et al. Und viele andere angesehene Ökologen wie Crawley) wird immer zu überoptimistischen Ergebnissen führen : zu geringes Vertrauen Intervalle (schlechte Abdeckung), zu kleine p-Werte (hoher Typ-I-Fehler). Dies liegt daran, dass standardmäßige Inferenzmethoden davon ausgehen, dass das Modell von vornherein festgelegt wurde . Sie berücksichtigen den Modell-Optimierungsprozess nicht.

Aus diesem Grund lehnen Forscher wie Frank Harrell ( Regression Modeling Strategies ) datengetriebene Selektionstechniken wie die schrittweise Regression nachdrücklich ab und warnen davor, dass die Modellkomplexität reduziert werden muss ("Dimensionsreduktion", z. B. Berechnung einer PCA der Prädiktorvariablen) und Auswahl der ersten PCA-Achsen als Prädiktoren, indem nur die Prädiktorvariablen betrachtet werden.

Wenn Sie interessiert sind nur bei der Suche nach dem besten Vorhersagemodell (und nicht in irgendeiner Art zuverlässiger Schätzung der Unsicherheit Ihrer Vorhersage interessieren, die im Bereich der Inferenz fällt!), Dann datengesteuerte Modell - Tuning ist in Ordnung (obwohl Eine schrittweise Auswahl ist selten die beste verfügbare Option. Algorithmen für maschinelles Lernen / statistisches Lernen führen viele Optimierungen durch, um das beste Vorhersagemodell zu erhalten. Der "Test" - oder "Out-of-Sample" -Fehler muss anhand einer separaten, nicht überprüften Stichprobe bewertet werden, oder es müssen Abstimmungsmethoden in ein Kreuzvalidierungsverfahren integriert werden.

Die Meinungen zu diesem Thema scheinen sich historisch verändert zu haben. Viele klassische statistische Lehrbücher, insbesondere solche, die sich auf Regression konzentrieren, präsentieren schrittweise Ansätze, gefolgt von Standard-Inferenzverfahren, ohne die Auswirkungen der Modellauswahl zu berücksichtigen.

Es gibt viele Möglichkeiten, die Wichtigkeit von Variablen zu quantifizieren, und nicht alle fallen in die Falle nach der Variablenauswahl.

Burnham und Anderson empfehlen, die AIC-Gewichte zu summieren. Über diesen Ansatz gibt es einige Meinungsverschiedenheiten.
Sie können das vollständige Modell anpassen (mit entsprechend skalierten / einheitenlosen Prädiktoren) und die Prädiktoren nach geschätzter Größe [Größe des biologischen Effekts] oder Z-Punktzahl ["Klarheit" / Größe des statistischen Effekts] einstufen.

— Ben Bolker
quelle

Ich habe einen biologischen Hintergrund und bin ein angestellter Biostatistiker, der in einer Universitätsklinik arbeitet. Ich habe viel darüber gelesen, besonders in letzter Zeit, einschließlich Harrells Meinungen über das Internet und seines Buches Regression Modeling Strategies. Ich zitiere ihn nicht mehr, sondern spreche aus Erfahrung: Es ist sehr feldbezogen, ich denke, dies ist das erste Level, das berücksichtigt werden muss. Die zweite Stufe wäre ein guter rationaler Ansatz, was bedeutet, dass Ihre Prädiktoren von zentraler Bedeutung sein sollten, um das, was Sie vorhersagen möchten, durch wissenschaftliche Erfahrung auszudrücken. 3. Interaktionen zu berücksichtigen, was überaus wichtig ist und durch den statistischen Ansatz oder Einsichten angegangen werden kann. Nur die vierte Methode wurde gewählt, in meinem Fall mit Krankenhausdaten, die ziemlich oft etwa x * 10 ^ 3 Datenpunkte und x * 10 ^ 1 Beobachtungen in z

— Nuke
quelle