Versucht das angepasste R-Quadrat, die R-Quadrat-Population mit fester Punktzahl oder zufälliger Punktzahl zu schätzen?

Die Population r-square kann unter der Annahme fester oder zufälliger Bewertungen definiert werden: $\rho^2$

Feste Punktzahlen: Die Stichprobengröße und die besonderen Werte der Prädiktoren werden festgehalten. Somit ist der Anteil der Varianz, der im Ergebnis durch die Populationsregressionsgleichung erklärt wird, wenn die Prädiktorwerte konstant gehalten werden. $\rho^2_f$
Zufällige Bewertungen: Die bestimmten Werte der Prädiktoren werden aus einer Verteilung gezogen. Somit bezieht sich auf den Anteil der Varianz, der im Ergebnis in der Population erklärt wird, wobei die Prädiktorwerte der Populationsverteilung der Prädiktoren entsprechen. $\rho^2_r$

Ich habe zuvor gefragt, ob diese Unterscheidung einen großen Unterschied zu Schätzungen von $\rho^2$ . Ich habe auch allgemein gefragt, wie man eine unvoreingenommene Schätzung von berechnet $\rho^2$ .

Ich kann sehen, dass mit zunehmender Stichprobengröße die Unterscheidung zwischen fester und zufälliger Bewertung weniger wichtig wird. Ich versuche jedoch zu bestätigen, ob das angepasste zur Schätzung der festen Punktzahl oder der zufälligen Punktzahl . $R^2$ $\rho^2$

Fragen

Ist das angepasste ausgelegt, eine feste Punktzahl oder eine zufällige Punktzahl zu schätzen ? $R^2$ $\rho^2$
Gibt es eine prinzipielle Erklärung dafür, wie sich die Formel für das angepasste r-Quadrat auf die eine oder andere Form von bezieht ? $\rho^2$

Hintergrund meiner Verwirrung

Wenn ich Yin und Fan (2001, S.206) lese, schreiben sie:

Eine der Grundannahmen des multiplen Regressionsmodells ist, dass die Werte der unabhängigen Variablen bekannte Konstanten sind und vom Forscher vor dem Experiment festgelegt werden. Nur die abhängige Variable kann von Stichprobe zu Stichprobe variieren. Dieses Regressionsmodell wird als festes lineares Regressionsmodell bezeichnet .

In den Sozial- und Verhaltenswissenschaften werden die Werte unabhängiger Variablen von den Forschern jedoch selten festgelegt und unterliegen auch zufälligen Fehlern. Daher wurde ein zweites Regressionsmodell für Anwendungen vorgeschlagen, bei dem sowohl abhängige als auch unabhängige Variablen variieren dürfen (Binder, 1959; Park & Dudycha, 1974). Dieses Modell wird als Zufallsmodell (oder Korrekturmodell) bezeichnet. Obwohl die Schätzungen der maximalen Wahrscheinlichkeit der Regressionskoeffizienten, die aus dem Zufallsmodell und dem festen Modell erhalten wurden, unter Normalitätsannahmen gleich sind, sind ihre Verteilungen sehr unterschiedlich. Das Zufallsmodell ist so komplex, dass mehr Forschung erforderlich ist, bevor es anstelle des üblicherweise verwendeten festen linearen Regressionsmodells akzeptiert werden kann. Daher wird normalerweise das feste Modell angewendet, auch wenn die Annahmen nicht vollständig erfüllt sind (Claudy, 1978). Solche Anwendungen des festen Regressionsmodells mit verletzten Annahmen würden eine "Überanpassung" verursachen, da der zufällige Fehler, der aus den nicht perfekten Stichprobendaten eingeführt wird, dazu neigt, in dem Prozess großgeschrieben zu werden. Infolgedessen neigt der auf diese Weise erhaltene Mehrfachkorrelationskoeffizient der Stichprobe dazu, die wahre Mehrfachkorrelation der Population zu überschätzen (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).

Ich war mir also nicht sicher, ob die obige Aussage besagt, dass angepasstes den durch das Zufallsmodell verursachten Fehler kompensiert, oder ob dies nur eine Einschränkung in dem Papier war, das die Existenz des Zufallsmodells kennzeichnet, aber dass das Papier dies tun würde Konzentrieren Sie sich auf das feste Modell. $R^2$

Verweise

Yin, P. & Fan, X. (2001). Schätzung der Schrumpfung bei multipler Regression: Ein Vergleich verschiedener Analysemethoden. The Journal of Experimental Education, 69 (2), 203-224. PDF $R^2$

regression estimation r-squared

— Jeromy Anglim
quelle

Raju et al. (1997) stellen fest, dass

Pedhazur (1982) und Mitchell & Klimoski (1986) haben argumentiert, dass die Ergebnisse
von dem Modell [festes x oder zufälliges x], das ausgewählt wird, wenn Ns mindestens mäßig groß sind (ungefähr 50), relativ unbeeinflusst bleiben.

Nichtsdestotrotz klassifizieren Raju et al. (1997) einige angepasste Formeln zur Schätzung von als "feste X-Formeln" und "zufällige X-Formeln". $R^2$ $\rho^2$

Feste X-Formeln: Es werden mehrere Formeln erwähnt, einschließlich der von Hesekiel (1930) vorgeschlagenen Formel, die in den meisten statistischen Programmen Standard ist:

{\hat{ρ}}_{(E)}^{2} = 1 - \frac{N - 1}{N - p - 1} (1 - R^{2})

$\hat{\rho}_{(E)}^2 = 1 - \frac{N-1}{N-p-1}(1-R^2)$

Daher ist die kurze Antwort auf die Frage die standardbereinigte Formel, die typischerweise gemeldet wird und in die statistische Standard-Software integriert ist, eine Schätzung von festem x . $R^2$ $\rho^2$

Zufällige X-Formeln:

Olkin und Pratt (1958) schlugen eine Formel vor

{\hat{ρ}}_{(O P)}^{2} = 1 - [\frac{N - 3}{N - p - 1}] (1 - R^{2}) F [1, 1; \frac{N - p + 1}{2}; (1 - R^{2})]

$\hat{ \rho}^2 _{(OP)} = 1 - \left[ {\frac{{N - 3}}{{N - p - 1}}} \right](1 - {R^2})F\left[ {1,1;\frac{{N - p + 1}}{2};(1 - {R^2})} \right]$ wobei F die hypergeometrische Funktion ist .

Raju et al. (1997) erklären, wie verschiedene andere Formeln wie die von Pratt und Herzberg "Annäherungen an die erwartete hypergeometrische Funktion sind". ZB lautet Pratts Formel

{\hat{ρ}}_{(P)}^{2} = 1 - \frac{(N - 3) (1 - R^{2})}{N - p - 1} [1 + \frac{2 (1 - R^{2})}{N - p - 2.3}]

${\hat \rho}^2_{(P)} = 1 - \frac{{(N - 3)(1 - {R^2})}}{{N - p - 1}}\left[ {1 + \frac{{2(1 - {R^2})}}{{N - p - 2.3}}} \right]$

Wie unterscheiden sich Schätzungen? Der Bericht von Leach und Hansen (2003) präsentiert eine schöne Tabelle, die die Wirkung verschiedener Formeln auf eine Stichprobe verschiedener veröffentlichter Datensätze in der Psychologie zeigt (siehe Tabelle 3). Der mittlere Hesekiel betrug 0,2864 im Vergleich zu Olkin und Pratt von 0,2917 und Pratt von 0,2910. Gemäß dem ursprünglichen Zitat von Raju et al. Über die Unterscheidung zwischen festen und zufälligen x-Formeln, die für kleine Stichprobengrößen am relevantesten sind, zeigt die Tabelle von Leach und Hansen, wie der Unterschied zwischen der festen x-Formel von Ezekiel und der zufälligen x-Formel von Olkin und Pratt am deutlichsten ist in kleinen Stichprobengrößen, insbesondere solchen unter 50. $R^2_{adj}$ $R^2_{adj}$ $R^2_{adj}$

Verweise

Leach, LF & Henson, RK (2003). Verwendung und Auswirkung angepasster R2-Effekte in veröffentlichten Regressionsstudien. Auf der Jahrestagung des Southwest Educational Research Assocation in San Antonio, TX. PDF
Mitchell, TW & Klimoski, RJ (1986). Schätzung der Gültigkeit der Kreuzvaliditätsschätzung. Journal of Applied Psychology, 71 , 311 & ndash; 317.
Pedhazur, EJ (1982). Multiple Regression in der Verhaltensforschung (2. Aufl.) New York: Holt, Rinehart und Winston.
Raju, NS, Bilgic, R., Edwards, JE & Fleer, PF (1997). Überprüfung der Methodik: Schätzung der Populationsvalidität und Kreuzvalidität sowie Verwendung gleicher Gewichte bei der Vorhersage. Applied Psychological Measurement, 21 (4), 291-305.

— Jeromy Anglim
quelle