Warum ist mein R-Quadrat so niedrig, wenn meine t-Statistiken so groß sind?

17

Ich habe eine Regression mit 4 Variablen durchgeführt, und alle sind sehr statistisch signifikant, mit T-Werten $\approx 7,9,26$ und $31$ (ich sage $\approx$ weil es irrelevant zu sein scheint, die Dezimalstellen einzubeziehen), die sehr hoch und eindeutig signifikant sind. Aber dann ist der $R^2$ nur .2284. Interpretiere ich die t-Werte hier falsch, um etwas zu bedeuten, was sie nicht sind? Meine erste Reaktion, als ich die t-Werte sah, war, dass das $R^2$ ziemlich hoch sein würde, aber vielleicht ist das ein hohes $R^2$ ?

regression hypothesis-testing econometrics

— Kyle
quelle

1

Ich wette, dein

ist mäßig groß, oder?

n

$n$

— Glen_b

@ Glen_b Ja, gegen 6000.

— Kyle

10

Dann sind große

Statistiken, die mit kleinem

assoziiert sind, völlig unauffällig. Da Standardfehler als

abnehmen

t

$t$

R^{2}

$R^2$

,

-Verhältnisse erhöhen sich mit

1 / \sqrt{n}

$1/\sqrt{n}$

t

$t$

, während

dazu neigt, mit zunehmendem

konstant zu bleiben. Warum interessiert es dich, was der

ist? Warum interessiert es dich, wie hoch die t-Verhältnisse sind?

\sqrt{n}

$\sqrt{n}$

R^{2}

$R^2$

n

$n$

R^{2}

$R^2$

— Glen_b -Reinstate Monica

45

Die $t$ Werte und $R^2$ werden verwendet, um sehr unterschiedliche Dinge zu beurteilen. Die $t$ Werte werden verwendet, um die Genauigkeit Ihrer Schätzung der $\beta_i$ zu beurteilen , aber $R^2$ misst den Betrag der Variation Ihrer Antwortvariablen, der durch Ihre Kovariaten erklärt wird. Angenommen, Sie schätzen ein Regressionsmodell mit $n$ Beobachtungen,

{Y.}_{ich} = β_{0} + β_{1} X_{1 ich} + . . . + β_{k} X_{k ich} + ϵ_{ich}

$Y_i = \beta_0 + \beta_1X_{1i} + ...+ \beta_kX_{ki}+\epsilon_i$

wo $\epsilon_i\overset{i.i.d}{\sim}N(0,\sigma^2)$ , $i=1,...,n$ .

Große $t$ Werte (in absoluten Werten) führen dazu, dass Sie die Nullhypothese, dass $\beta_i=0$ , ablehnen . Sie können also sicher sein, dass Sie das Vorzeichen des Koeffizienten richtig geschätzt haben. Auch wenn $|t|$ > 4 und Sie haben $n>5$ , dann liegt 0 nicht in einem 99% -Konfidenzintervall für den Koeffizienten. Der $t$ Wert für einen Koeffizienten $\beta_i$ ist die Differenz zwischen der Schätzung $\hat{\beta_i}$ und 0, die durch den Standardfehler $se\{\hat{\beta_i}\}$ normiert ist .

t = \frac{\hat{β_{ich}}}{s e {\hat{β_{ich}}}}

$t=\frac{\hat{\beta_i}}{se\{\hat{\beta_i}\}}$

Das ist einfach die Schätzung geteilt durch ein Maß für ihre Variabilität. Wenn Sie einen ausreichend großen Datensatz haben, haben Sie immer statistisch signifikante (große) $t$ Werte. Dies bedeutet nicht zwangsläufig, dass Ihre Kovariaten einen Großteil der Variation in der Antwortvariablen erklären.

Wie bereits erwähnt, misst $R^2$ den Betrag der Variation in Ihrer Antwortvariablen, der durch Ihre abhängigen Variablen erklärt wird. Weitere Informationen zu $R^2$ finden Sie auf Wikipedia . In Ihrem Fall haben Sie anscheinend einen ausreichend großen Datensatz, um die $\beta_i$ genau abzuschätzen , aber Ihre Kovariaten können die Antwortwerte schlecht erklären und / oder vorhersagen.

— caburke
quelle

1

(+1) Es ist von Anfang an klar, dass dies eine gut durchdachte, informative Erklärung ist.

— Whuber

Gute Antwort. Ich finde die Begriffe "praktische Bedeutung" und "statistische Bedeutung" oft hilfreich, um über dieses Thema nachzudenken.

— Aaron - Reinstate Monica

3

R^{2} = \frac{t^{2}}{t^{2} + d f}

$R^2=\frac{t^2}{t^2+df}$

6

Um das Gleiche wie caburke zu sagen, aber einfacher zu sein, Sie sind sehr zuversichtlich, dass die durchschnittliche Antwort, die durch Ihre Variablen verursacht wird, nicht Null ist. Aber es gibt viele andere Dinge, die Sie nicht in der Regression haben, die die Reaktion veranlassen, herumzuspringen.

— generic_user
quelle

0

Könnte es sein, dass Ihre Prädiktoren in Bezug auf Ihre Antwortvariable zwar linear tendieren (die Steigung unterscheidet sich erheblich von Null), was die t-Werte signifikant macht, aber das Quadrat R niedrig ist, weil die Fehler groß sind, was bedeutet, dass die Variabilität in Ihre Daten sind groß und daher passt Ihr Regressionsmodell nicht gut (Vorhersagen sind nicht so genau)?

Nur meine 2 Cent.

Vielleicht kann dieser Beitrag helfen: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- Werte

— mel
quelle

0

Einige Antworten sind nah, aber immer noch falsch.

"Die t-Werte werden verwendet, um die Genauigkeit Ihrer Schätzung der βi zu beurteilen" ist derjenige, der mich am meisten beschäftigt.

Der T-Wert ist lediglich ein Hinweis auf die Wahrscheinlichkeit eines zufälligen Auftretens. Groß bedeutet unwahrscheinlich. Klein bedeutet sehr wahrscheinlich. Positiv und Negativ spielen für die Wahrscheinlichkeitsinterpretation keine Rolle.

"R2 misst das Ausmaß der Variation in Ihrer Antwortvariablen, die durch Ihre Kovariaten erklärt wird" ist korrekt.

(Ich hätte es kommentiert, bin aber von dieser Plattform noch nicht zugelassen.)

— Kevin
quelle

2

Sie scheinen über t-Werte zu schreiben, als wären sie p-Werte.

— whuber

-4

Die einzige Möglichkeit, mit einem kleinen quadratischen R umzugehen, ist die folgende:

Ist Ihre Stichprobe groß genug? Wenn ja, führen Sie Schritt 2 aus. Wenn nein, erhöhen Sie die Stichprobengröße.
Wie viele Kovariaten haben Sie für Ihre Modellschätzung verwendet? Wenn mehr als 1 wie in Ihrem Fall das Problem der Multikolinearität der Kovariaten behandelt oder einfach die Regression erneut und diesmal ohne die Konstante, die als Beta-Null bezeichnet wird, ausgeführt wird.
Wenn das Problem weiterhin besteht, führen Sie eine schrittweise Regression durch und wählen Sie das Modell mit einem hohen quadratischen R aus. Aber was ich Ihnen nicht empfehlen kann, weil es Voreingenommenheit in den Kovariaten hervorruft

— katleho
quelle