In der Psychologie und anderen Bereichen wird häufig eine Form der schrittweisen Regression angewendet, die Folgendes umfasst:
- Sehen Sie sich die verbleibenden Prädiktoren an (es gibt zunächst keine im Modell) und identifizieren Sie den Prädiktor, der zur größten Änderung des R-Quadrats führt.
- Wenn der p-Wert der Änderung des r-Quadrats kleiner als Alpha ist (normalerweise 0,05), schließen Sie diesen Prädiktor ein und kehren Sie zu Schritt 1 zurück, andernfalls stoppen Sie.
Dieses Verfahren finden Sie beispielsweise in SPSS .
Das Verfahren wird aus einer Vielzahl von Gründen routinemäßig kritisiert (siehe diese Diskussion auf der Stata-Website mit Referenzen) ).
Insbesondere fasst die Stata-Website mehrere Kommentare von Frank Harrell zusammen. Ich interessiere mich für den Claim:
[schrittweise Regression] ergibt R-Quadrat-Werte, die stark auf hoch eingestellt sind.
Insbesondere konzentriert sich ein Teil meiner aktuellen Forschung auf das Schätzen R-Quadrats der Bevölkerung . Mit dem Populationsquadrat beziehe ich mich auf den Prozentsatz der Varianz, der durch die Populationsdatenerzeugungsgleichung in der Population erklärt wird. Ein Großteil der vorhandenen Literatur, die ich überprüfe, hat schrittweise Regressionsverfahren angewendet, und ich möchte wissen, ob und um wie viel voreingenommen die vorgelegten Schätzungen sind. Insbesondere würde eine typische Studie 30 Prädiktoren, n = 200, einen Alpha-Wert von 0,05 und Schätzungen des R-Quadrats von etwa 0,50 aufweisen.
Was ich weiß:
- Asymptotisch wäre jeder Prädiktor mit einem Koeffizienten ungleich Null ein statistisch signifikanter Prädiktor, und das r-Quadrat wäre gleich dem angepassten r-Quadrat. Eine asymptotisch schrittweise Regression sollte daher die wahre Regressionsgleichung und das wahre Populations-R-Quadrat abschätzen.
- Bei kleineren Stichprobengrößen führt das mögliche Weglassen einiger Prädiktoren zu einem kleineren R-Quadrat als bei allen Prädiktoren, die in das Modell aufgenommen wurden. Aber auch die übliche Abweichung von R-Quadrat zu Abtastdaten würde das R-Quadrat erhöhen. Mein naiver Gedanke ist also, dass diese beiden entgegengesetzten Kräfte unter bestimmten Bedingungen möglicherweise zu einem unbefangenen R-Quadrat führen können. Im Allgemeinen hängt die Richtung der Verzerrung von verschiedenen Merkmalen der Daten und den Alpha-Einschlusskriterien ab.
- Das Festlegen eines strengeren Alpha-Einschlusskriteriums (z. B. 0,01, 0,001 usw.) sollte das erwartete geschätzte r-Quadrat senken, da die Wahrscheinlichkeit, einen Prädiktor in eine Datenerzeugung einzubeziehen, geringer ist.
- Im Allgemeinen ist das r-Quadrat eine nach oben gerichtete Schätzung des Populations-r-Quadrats, und der Grad dieser Verzerrung steigt mit mehr Prädiktoren und kleineren Stichprobengrößen.
Frage
Also zum Schluss meine Frage:
- Inwieweit führt das R-Quadrat aus der schrittweisen Regression zu einer verzerrten Schätzung des R-Quadrats der Grundgesamtheit?
- Inwieweit hängt diese Verzerrung mit der Stichprobengröße, der Anzahl der Prädiktoren, dem Alpha-Einschlusskriterium oder den Eigenschaften der Daten zusammen?
- Gibt es Referenzen zu diesem Thema?