Shrunken


22

In meinem Kopf gab es einige Verwirrung über zwei Arten von Schätzern für den Populationswert des Pearson-Korrelationskoeffizienten.

A. Fisher (1915) zeigte, dass für bivariate Normalpopulation empirisch ein negativ verzerrter Schätzer von , obwohl die Verzerrung nur für kleine Stichprobengrößen ( ) von praktisch beträchtlichem Wert sein kann . Stichprobe unterschätzt in dem Sinne, dass sie näher bei als . (Außer wenn letzteres oder , dann ist unbefangen.) Es wurden mehrere beinahe unbefangene Schätzer für vorgeschlagen, von denen der beste wahrscheinlich Olkin und Pratt (1958) ist.rρn<30rρ0ρ0±1rρkorrigiertes :r

runbiased=r[1+1r22(n3)]

B. Es wird gesagt, dass in der beobachteten Regression die entsprechende Population R-Quadrat überschätzt. Oder mit einfacher Regression ist es, dass r 2 ρ 2 überschätzt . Auf der Grundlage dieser Tatsache habe ich , dass viele Texte gesehen sagen , r ist positiv relativ voreingenommen zu & rgr; , Absolutwert bedeutet: r ist weiter weg von 0 als ρ (? Ist diese Aussage wahr ist ). Die Texte sagen, es ist das gleiche Problem wie die Überschätzung des Standardabweichungsparameters durch seinen Abtastwert. Es gibt viele Formeln, um beobachtetes R 2 "anzupassen"R2r2ρ2rρr0ρR2näher an seinem Populationsparameter, wobei Wherrys (1931) das bekannteste (aber nicht das beste) ist. Die Wurzel eines solchen eingestellten r 2 adj heißt geschrumpftes r :Radj2radj2 r

rshrunk=±1(1r2)n1n2

Es gibt zwei verschiedene Schätzer für . Sehr verschieden: das erste aufbläst r , die zweite entleert r . Wie versöhnt man sie? Wo benutzt / meldet man das eine und wo - das andere?ρrr

Kann es insbesondere zutreffen, dass der "geschrumpfte" Schätzer auch (fast) unvoreingenommen ist, wie der "unbefangene", jedoch nur in einem anderen Kontext - im asymmetrischen Kontext der Regression. Bei der OLS-Regression betrachten wir die Werte einer Seite (des Prädiktors) als fest und nehmen von Stichprobe zu Stichprobe ohne zufälligen Fehler teil. (Und um hier hinzuzufügen, braucht Regression keine bivariate Normalität.)


Ich frage mich, ob das nur auf Jensens Ungleichung zurückzuführen ist. Das und die bivariate Normalität sind wahrscheinlich in den meisten Fällen eine schlechte Annahme.
Shadowtalker

1
Mein Verständnis des Problems in B. ist auch, dass die Regression eine Überschätzung ist, da die Regressionsanpassung durch Hinzufügen von Prädiktoren willkürlich verbessert werden kann. Das hört sich für mich nicht so an wie in A.r2
shadowtalker

Ist es tatsächlich wahr, dass eine positiv voreingenommene Schätzung von ρ 2 für alle Werte von ρ ist ? Für die bivariate Normalverteilung scheint dies für ρ nicht groß genug zu sein. r2ρ2ρρ
NRH

Kann Bias für das Quadrat eines Schätzers in die entgegengesetzte Richtung gehen? Zum Beispiel mit einem einfacheren Schätzer kann gezeigt werden, dass seine für einige Bereiche von θ ? Ich denke, dies wäre schwierig, wenn θ = ρ , aber vielleicht könnte ein einfacheres Beispiel ausgearbeitet werden. E[θ^θ]<0<E[θ^2θ2]θθ=ρ
Anthony

Antworten:


1

Bezüglich der Verzerrung in der Korrelation: Wenn die Stichprobengrößen klein genug sind, um eine Verzerrung von praktischer Bedeutung zu haben (z. B. das von Ihnen vorgeschlagene n <30), ist die Verzerrung wahrscheinlich die geringste Sorge, da die Ungenauigkeit fürchterlich ist.

In Bezug auf die Verzerrung von R 2 bei multipler Regression gibt es viele verschiedene Anpassungen, die sich auf eine unverzerrte Populationsschätzung im Vergleich zu einer unverzerrten Schätzung in einer unabhängigen Stichprobe gleicher Größe beziehen. Siehe Yin, P. & Fan, X. (2001). Schätzung der R 2 -Schrumpfung bei multipler Regression: Ein Vergleich der Analysemethoden. The Journal of Experimental Education, 69, 203-224.

Moderne Regressionsmethoden befassen sich auch mit der Schrumpfung von Regressionskoeffizienten sowie R 2 als Folge davon - z. B. das elastische Netz mit k- facher Kreuzvalidierung, siehe http://web.stanford.edu/~hastie/Papers/ elasticnet.pdf .


1
Ich weiß nicht, ob dies wirklich die Frage beantwortet
shadowtalker

1

Ich denke, die Antwort liegt im Kontext einer einfachen Regression und einer multiplen Regression. Bei einer einfachen Regression mit einer IV und einer DV ist R sq nicht positiv vorgespannt und kann sogar negativ vorgespannt sein, wenn r negativ vorgespannt ist. Bei multipler Regression mit mehreren IVs, die selbst korreliert sein können, kann R sq jedoch aufgrund einer möglicherweise auftretenden "Unterdrückung" positiv voreingenommen sein. Ich nehme daher an, dass das beobachtete R2 das entsprechende R-Quadrat der Grundgesamtheit überschätzt, jedoch nur in multipler Regression


1
R sq is not positively biased, and in-fact may be negatively biasedInteressant. Können Sie es zeigen oder einen Hinweis geben? - Kann die beobachtete Rsq-Statistik in einer bivariaten Normalbevölkerung negativ beeinflusst werden?
TTNPHNS

Ich denke du liegst falsch. Könnten Sie eine Referenz angeben, um Ihren Anspruch zu belegen?
Richard Hardy

Sorry, aber das war eher eine Gedankenübung, daher habe ich keinen Hinweis.
Dingus

Ich habe Kommentar A oben verlassen, in dem Fischer zeigte, dass in einer bivariaten normalen Situation r ein negativ voreingenommener Schätzer von rho ist. Wenn dies der Fall ist, folgt daraus nicht, dass R sq auch negativ vorgespannt ist?
Dingus

Vielleicht hilft dies im Gespräch digitalcommons.unf.edu/cgi/…
Dingus
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.