Ich denke, dieser Ansatz ist falsch, aber vielleicht ist er hilfreicher, wenn ich erkläre, warum. Es ist durchaus verständlich, das beste Modell mit einigen Informationen zu einer großen Anzahl von Variablen kennenzulernen. Darüber hinaus ist es eine Situation, in der Menschen sich regelmäßig zu finden scheinen. Darüber hinaus behandeln viele Lehrbücher (und Kurse) zur Regression schrittweise Auswahlmethoden, was impliziert, dass sie legitim sein müssen. Leider ist dies nicht der Fall, und es ist ziemlich schwierig, diese Situation und dieses Ziel miteinander in Einklang zu bringen. Das Folgende ist eine Liste von Problemen mit automatisierten schrittweisen Modellauswahlverfahren (Frank Harrell zugeschrieben und von hier kopiert ):
- Es ergibt R-Quadrat-Werte, die stark auf hoch eingestellt sind.
- Die F- und Chi-Quadrat-Tests, die auf dem Ausdruck neben jeder Variablen angegeben sind, haben nicht die angegebene Verteilung.
- Die Methode liefert Konfidenzintervalle für fälschlicherweise enge Effekte und vorhergesagte Werte. siehe Altman und Andersen (1989).
- Es liefert p-Werte, die nicht die richtige Bedeutung haben, und die richtige Korrektur für sie ist ein schwieriges Problem.
- Es gibt voreingenommene Regressionskoeffizienten, die schrumpfen müssen (die Koeffizienten für verbleibende Variablen sind zu groß; siehe Tibshirani [1996]).
- Bei Kollinearität treten schwerwiegende Probleme auf.
- Es basiert auf Methoden (z. B. F-Tests für verschachtelte Modelle), die zum Testen vorgegebener Hypothesen verwendet werden sollten.
- Das Erhöhen der Stichprobengröße hilft nicht viel. siehe Derksen und Keselman (1992).
- Es erlaubt uns, nicht über das Problem nachzudenken.
- Es wird viel Papier verwendet.
Die Frage ist, was ist so schlimm an diesen Prozeduren? Warum treten diese Probleme auf? Die meisten Personen, die einen Grundkurs zur Regression absolviert haben, sind mit dem Konzept der Regression bis zum Mittelwert vertraut. Daher erkläre ich diese Probleme anhand dieses Konzepts . (Auch wenn dies auf den ersten Blick als unnatürlich erscheint, ich verspreche, dass es relevant ist.)
Stellen Sie sich einen High School Track Coach am ersten Probetag vor. Dreißig Kinder tauchen auf. Diese Kinder verfügen über eine gewisse Grundkompetenz, auf die weder der Trainer noch andere Personen direkten Zugriff haben. Infolgedessen kann der Trainer nur 100 m weit rennen. Die Zeiten sind vermutlich ein Maß für ihre inneren Fähigkeiten und werden als solche angesehen. Sie sind jedoch probabilistisch; Ein Teil davon, wie gut jemand abschneidet, basiert auf seinen tatsächlichen Fähigkeiten und ein Teil ist zufällig. Stellen Sie sich vor, die wahre Situation ist die folgende:
set.seed(59)
intrinsic_ability = runif(30, min=9, max=10)
time = 31 - 2*intrinsic_ability + rnorm(30, mean=0, sd=.5)
Die Ergebnisse des ersten Rennens sind in der folgenden Abbildung zusammen mit den Kommentaren des Trainers zu den Kindern dargestellt.
Beachten Sie, dass die Unterteilung der Kinder nach ihren Rennzeiten Überschneidungen bei ihren Fähigkeiten hinterlässt - diese Tatsache ist entscheidend. Nachdem er einige gelobt und andere angeschrien hat (wie es Trainer tun), lässt er sie wieder laufen. Hier sind die Ergebnisse des zweiten Rennens mit den Reaktionen des Trainers (nach dem gleichen Modell oben simuliert):
Beachten Sie, dass ihre intrinsische Fähigkeit identisch ist, die Zeiten jedoch relativ zum ersten Rennen sprangen. Aus der Sicht des Trainers tendierten diejenigen, die er angeschrien hatte, dazu, sich zu verbessern, und diejenigen, die er gelobt hatte, dazu, sich zu verschlechtern (ich habe dieses konkrete Beispiel aus dem Kahneman-Zitat auf der Wiki-Seite angepasst), obwohl die Regression zum Mittelwert eigentlich eine einfache mathematische Methode ist Folge der Tatsache, dass der Trainer Athleten für die Mannschaft auf der Grundlage einer Messung auswählt, die teilweise zufällig ist.
Was hat dies nun mit automatisierten (z. B. schrittweisen) Modellauswahltechniken zu tun? Das Entwickeln und Bestätigen eines Modells auf der Grundlage desselben Datensatzes wird manchmal als Datenbaggerung bezeichnet. Obwohl zwischen den Variablen eine gewisse Beziehung besteht und von stärkeren Beziehungen stärkere Punktzahlen erwartet werden (z. B. höhere t-Statistiken), handelt es sich um Zufallsvariablen, und die realisierten Werte enthalten Fehler. Wenn Sie also Variablen basierend auf höheren (oder niedrigeren) realisierten Werten auswählen, können diese aufgrund ihres zugrunde liegenden wahren Werts, Fehlers oder beider Werte ausgewählt werden. Wenn Sie so vorgehen, werden Sie genauso überrascht sein wie der Trainer nach dem zweiten Rennen. Dies gilt unabhängig davon, ob Sie Variablen auswählen, die auf einer hohen t-Statistik oder niedrigen Interkorrelationen basieren. Die Verwendung des AIC ist zwar besser als die Verwendung von p-Werten, da hierdurch das Modell für Komplexität benachteiligt wird. Der AIC selbst ist jedoch eine Zufallsvariable alles andere). Unglücklicherweise,
Ich hoffe das ist hilfreich.