Betrachten Sie zur Beantwortung der ersten Frage das Modell
Y=X+sin(X)+ε
mit iid von mittlerer Null und endlicher Varianz. Wenn der Bereich von (als fest oder zufällig angesehen) zunimmt, geht zu 1. Wenn jedoch die Varianz von klein ist (um 1 oder weniger), sind die Daten "merklich nicht linear". In den Plots ist .εXR2εvar(ε)=1
Ein einfacher Weg, um ein kleines besteht darin, die unabhängigen Variablen in enge Bereiche aufzuteilen. Die Regression (unter Verwendung genau desselben Modells ) in jedem Bereich hat einen niedrigen selbst wenn die auf allen Daten basierende vollständige Regression einen hohen . Das Nachdenken über diese Situation ist eine informative Übung und eine gute Vorbereitung auf die zweite Frage.R2R2R2
In beiden folgenden Darstellungen werden die gleichen Daten verwendet. Das für die vollständige Regression beträgt 0,86. Die für die Scheiben (mit einer Breite von 1/2 von -5/2 bis 5/2) sind .16, .18, .07, .14, .08, .17, .20, .12, .01 , .00, von links nach rechts lesend. Wenn überhaupt, werden die Passungen in der aufgeschnittenen Situation besser , weil die 10 getrennten Linien innerhalb ihrer engen Bereiche enger mit den Daten übereinstimmen können. Obwohl das für alle Schichten weit unter dem vollen , hat sich weder die Stärke der Beziehung, die Linearität noch irgendein Aspekt der Daten (mit Ausnahme des Bereichs von der für die Regression verwendet wird) geändert.R2R2R2R2X
(Man könnte einwenden, dass diese Aufteilungsprozedur die Verteilung von . Das stimmt, aber es entspricht dennoch der am häufigsten verwendeten Verwendung von in der Festeffektmodellierung und zeigt, inwieweit uns über die Varianz von in der Situation mit zufälligen Effekten. Insbesondere wenn gezwungen ist, innerhalb eines kleineren Intervalls seines natürlichen Bereichs zu variieren, fällt normalerweise ab.)XR2R2XXR2
Das Grundproblem bei ist, dass es von zu vielen Dingen abhängt (auch wenn sie in multipler Regression angepasst werden), insbesondere aber von der Varianz der unabhängigen Variablen und der Varianz der Residuen. Normalerweise sagt es nichts über "Linearität" oder "Stärke der Beziehung" oder sogar "Güte der Anpassung" aus, um eine Sequenz von Modellen zu vergleichen.R2
Meistens finden Sie eine bessere Statistik als . Für die Modellauswahl können Sie auf AIC und BIC schauen. Betrachten Sie die Varianz der Residuen, um die Angemessenheit eines Modells auszudrücken. R2
Dies bringt uns schließlich zur zweiten Frage . Eine Situation, in der eine Verwendung finden könnte, besteht darin, dass die unabhängigen Variablen auf Standardwerte gesetzt werden und im Wesentlichen den Effekt ihrer Varianz steuern. Dann ist wirklich ein Proxy für die Varianz der Residuen, entsprechend standardisiert.R21−R2