Soweit ich weiß, ist die Variablenauswahl basierend auf p-Werten (zumindest im Regressionskontext) stark fehlerhaft. Es sieht so aus, als ob die Variablenauswahl basierend auf AIC (oder ähnlichem) auch von einigen aus ähnlichen Gründen als fehlerhaft angesehen wird, obwohl dies ein wenig unklar erscheint (siehe z. B. meine Frage und einige Links zu diesem Thema hier: Was genau ist "schrittweise Modellauswahl"? ).
Angenommen, Sie entscheiden sich für eine dieser beiden Methoden, um den besten Satz von Prädiktoren in Ihrem Modell auszuwählen.
Burnham und Anderson 2002 (Modellauswahl und Multimodell-Inferenz: Ein praktischer informationstheoretischer Ansatz, Seite 83) geben an, dass man die auf AIC basierende Variablenauswahl nicht mit der auf Hypothesentests basierenden mischen sollte : "Tests von Nullhypothesen und informationstheoretischen Ansätzen sollten nicht zusammen verwendet werden, sie sind sehr unterschiedliche Analyseparadigmen. "
Auf der anderen Seite haben Zuur et al. 2009 (Modelle mit gemischten Effekten mit Extensions in Ecology mit R, Seite 541) scheinen die Verwendung von AIC zu befürworten, um zuerst das optimale Modell zu finden und dann mithilfe von Hypothesentests eine "Feinabstimmung" durchzuführen : "Der Nachteil ist, dass die AIC konservativ sein kann , und Sie müssen möglicherweise eine Feinabstimmung vornehmen (unter Verwendung von Hypothesentestverfahren ab Ansatz 1), sobald der AIC ein optimales Modell ausgewählt hat. "
Sie können sehen, wie der Leser der beiden Bücher verwirrt ist, welchen Ansatz er verfolgen soll.
1) Sind dies nur verschiedene "Lager" des statistischen Denkens und ein Thema der Meinungsverschiedenheit unter Statistikern? Ist einer dieser Ansätze jetzt einfach "veraltet", wurde aber zum Zeitpunkt des Schreibens als angemessen erachtet? Oder liegt man einfach von Anfang an falsch?
2) Gibt es ein Szenario, in dem dieser Ansatz angemessen wäre? Zum Beispiel komme ich aus einem biologischen Umfeld, in dem ich oft versuche festzustellen, welche Variablen meine Reaktion beeinflussen oder beeinflussen. Ich habe oft eine Reihe von erklärenden Variablen für Kandidaten und ich versuche herauszufinden, welche "wichtig" sind (in relativen Begriffen). Beachten Sie auch, dass der Satz der Kandidaten-Prädiktorvariablen bereits auf diejenigen reduziert ist, die als biologisch relevant eingestuft werden. Dies kann jedoch auch 5-20 Kandidaten-Prädiktorvariablen umfassen.