Obwohl die Vorzüge der schrittweisen Modellauswahl bereits erörtert wurden, wird mir unklar, was genau " schrittweise Modellauswahl " oder " schrittweise Regression " ist. Ich dachte, ich hätte es verstanden, war mir aber nicht mehr so sicher.
Nach meinem Verständnis sind diese beiden Begriffe synonym (zumindest in einem Regressionskontext) und beziehen sich auf die Auswahl des besten Satzes von Prädiktorvariablen in einem "optimalen" oder "besten" Modell angesichts der Daten. (Die Wikipedia-Seite finden Sie hier und eine weitere potenziell nützliche Übersicht finden Sie hier .)
Basierend auf mehreren vorherigen Threads (zum Beispiel hier: Algorithmen für die automatische Modellauswahl ) scheint es, dass die schrittweise Modellauswahl als Hauptsünde betrachtet wird. Und doch scheint es die ganze Zeit benutzt zu werden, auch von anscheinend angesehenen Statistikern. Oder vermische ich die Terminologie?
Meine Hauptfragen sind:
Mit "schrittweiser Modellauswahl" oder "schrittweiser Regression" meinen wir:
A ) sequentielle Hypothesentests wie Likelihood-Ratio-Tests oder Betrachtung von p-Werten? (Hier gibt es einen verwandten Beitrag: Warum sind p-Werte nach einer schrittweisen Auswahl irreführend? ) Ist dies gemeint und warum ist es schlecht?
Oder
B ) halten wir die Auswahl anhand des AIC (oder eines ähnlichen Informationskriteriums) auch für gleich schlecht? Aus der Antwort unter Algorithmen für die automatische Modellauswahl geht hervor, dass auch dies kritisiert wird. Auf der anderen Seite haben Whittingham et al. (2006; pdf ) 1 scheint darauf hinzudeuten, dass sich die auf dem informationstheoretischen (IT) Ansatz basierende Variablenauswahl von der schrittweisen Auswahl unterscheidet (und ein gültiger Ansatz zu sein scheint) ...?Und das ist die Quelle all meiner Verwirrung.
Wenn die AIC-basierte Auswahl unter "schrittweise" fällt und als unangemessen angesehen wird, sind folgende Fragen zu beantworten:
Wenn dieser Ansatz falsch ist, warum wird er in Lehrbüchern, Universitätskursen usw. gelehrt? Ist das alles einfach falsch?
Was sind gute Alternativen für die Auswahl, welche Variablen im Modell verbleiben sollen? Ich bin auf Empfehlungen zur Verwendung von Kreuzvalidierungs- und Trainingstest-Datensätzen sowie von LASSO gestoßen.
Ich denke, jeder kann zustimmen, dass es problematisch ist, alle möglichen Variablen wahllos in ein Modell zu werfen und dann schrittweise auszuwählen. Natürlich sollte ein vernünftiges Urteilsvermögen bestimmen, was anfangs passiert. Aber was ist, wenn wir bereits mit einer begrenzten Anzahl möglicher Prädiktorvariablen beginnen, die auf einigen (etwa biologischen) Kenntnissen beruhen, und all diese Prädiktoren möglicherweise unsere Reaktion erklären? Wäre dieser Ansatz der Modellauswahl immer noch fehlerhaft? Ich erkenne auch an, dass die Auswahl des "besten" Modells möglicherweise nicht angemessen ist, wenn die AIC-Werte zwischen verschiedenen Modellen sehr ähnlich sind (und in solchen Fällen eine Inferenz mit mehreren Modellen angewendet werden kann). Aber ist das zugrunde liegende Problem der Verwendung einer AIC-basierten schrittweisen Auswahl immer noch problematisch?
Wenn wir sehen wollen, welche Variablen die Reaktion auf welche Weise zu erklären scheinen, warum ist dieser Ansatz falsch, da wir wissen, dass "alle Modelle falsch sind, aber einige nützlich"?
1. Whittingham, MJ, Stephens, PA, Bradbury, RB & Freckleton, RP (2006). Warum verwenden wir immer noch schrittweise Modellierung in Ökologie und Verhalten? Journal of Animal Ecology, 75, S. 1182–1189.