In meinem Kopf gab es einige Verwirrung über zwei Arten von Schätzern für den Populationswert des Pearson-Korrelationskoeffizienten.
A. Fisher (1915) zeigte, dass für bivariate Normalpopulation empirisch ein negativ verzerrter Schätzer von , obwohl die Verzerrung nur für kleine Stichprobengrößen ( ) von praktisch beträchtlichem Wert sein kann . Stichprobe unterschätzt in dem Sinne, dass sie näher bei als . (Außer wenn letzteres oder , dann ist unbefangen.) Es wurden mehrere beinahe unbefangene Schätzer für vorgeschlagen, von denen der beste wahrscheinlich Olkin und Pratt (1958) ist.korrigiertes :
B. Es wird gesagt, dass in der beobachteten Regression die entsprechende Population R-Quadrat überschätzt. Oder mit einfacher Regression ist es, dass r 2 ρ 2 überschätzt . Auf der Grundlage dieser Tatsache habe ich , dass viele Texte gesehen sagen , r ist positiv relativ voreingenommen zu & rgr; , Absolutwert bedeutet: r ist weiter weg von 0 als ρ (? Ist diese Aussage wahr ist ). Die Texte sagen, es ist das gleiche Problem wie die Überschätzung des Standardabweichungsparameters durch seinen Abtastwert. Es gibt viele Formeln, um beobachtetes R 2 "anzupassen"näher an seinem Populationsparameter, wobei Wherrys (1931) das bekannteste (aber nicht das beste) ist. Die Wurzel eines solchen eingestellten r 2 adj heißt geschrumpftes r :
Es gibt zwei verschiedene Schätzer für . Sehr verschieden: das erste aufbläst r , die zweite entleert r . Wie versöhnt man sie? Wo benutzt / meldet man das eine und wo - das andere?
Kann es insbesondere zutreffen, dass der "geschrumpfte" Schätzer auch (fast) unvoreingenommen ist, wie der "unbefangene", jedoch nur in einem anderen Kontext - im asymmetrischen Kontext der Regression. Bei der OLS-Regression betrachten wir die Werte einer Seite (des Prädiktors) als fest und nehmen von Stichprobe zu Stichprobe ohne zufälligen Fehler teil. (Und um hier hinzuzufügen, braucht Regression keine bivariate Normalität.)