Warum ist mein R-Quadrat so niedrig, wenn meine t-Statistiken so groß sind?


17

Ich habe eine Regression mit 4 Variablen durchgeführt, und alle sind sehr statistisch signifikant, mit T-Werten 7,9,26 und 31 (ich sage weil es irrelevant zu sein scheint, die Dezimalstellen einzubeziehen), die sehr hoch und eindeutig signifikant sind. Aber dann ist der R2 nur .2284. Interpretiere ich die t-Werte hier falsch, um etwas zu bedeuten, was sie nicht sind? Meine erste Reaktion, als ich die t-Werte sah, war, dass das R2 ziemlich hoch sein würde, aber vielleicht ist das ein hohes R2 ?


1
Ich wette, dein ist mäßig groß, oder? n
Glen_b

@ Glen_b Ja, gegen 6000.
Kyle

10
Dann sind große Statistiken, die mit kleinem R 2 assoziiert sind, völlig unauffällig. Da Standardfehler als 1 / abnehmentR2 ,t-Verhältnisse erhöhen sich mit1/nt , währendR2dazu neigt, mit zunehmendemnkonstant zu bleiben. Warum interessiert es dich, was derR2ist? Warum interessiert es dich, wie hoch die t-Verhältnisse sind? nR2nR2
Glen_b -Reinstate Monica

Antworten:


45

Die t Werte und R2 werden verwendet, um sehr unterschiedliche Dinge zu beurteilen. Die t Werte werden verwendet, um die Genauigkeit Ihrer Schätzung der βich zu beurteilen , aber R2 misst den Betrag der Variation Ihrer Antwortvariablen, der durch Ihre Kovariaten erklärt wird. Angenommen, Sie schätzen ein Regressionsmodell mit n Beobachtungen,

Y.ich=β0+β1X1ich+...+βkXkich+ϵich

wo ϵichich.ich.dN(0,σ2) , ich=1,...,n .

Große t Werte (in absoluten Werten) führen dazu, dass Sie die Nullhypothese, dass βich=0 , ablehnen . Sie können also sicher sein, dass Sie das Vorzeichen des Koeffizienten richtig geschätzt haben. Auch wenn |t|> 4 und Sie haben n>5 , dann liegt 0 nicht in einem 99% -Konfidenzintervall für den Koeffizienten. Der t Wert für einen Koeffizienten βich ist die Differenz zwischen der Schätzung βich^ und 0, die durch den Standardfehler se{βich^} normiert ist .

t=βich^se{βich^}

Das ist einfach die Schätzung geteilt durch ein Maß für ihre Variabilität. Wenn Sie einen ausreichend großen Datensatz haben, haben Sie immer statistisch signifikante (große) t Werte. Dies bedeutet nicht zwangsläufig, dass Ihre Kovariaten einen Großteil der Variation in der Antwortvariablen erklären.

Wie bereits erwähnt, misst R2 den Betrag der Variation in Ihrer Antwortvariablen, der durch Ihre abhängigen Variablen erklärt wird. Weitere Informationen zu R2 finden Sie auf Wikipedia . In Ihrem Fall haben Sie anscheinend einen ausreichend großen Datensatz, um die βich genau abzuschätzen , aber Ihre Kovariaten können die Antwortwerte schlecht erklären und / oder vorhersagen.


1
(+1) Es ist von Anfang an klar, dass dies eine gut durchdachte, informative Erklärung ist.
Whuber

Gute Antwort. Ich finde die Begriffe "praktische Bedeutung" und "statistische Bedeutung" oft hilfreich, um über dieses Thema nachzudenken.
Aaron - Reinstate Monica

3
R2=t2t2+df

6

Um das Gleiche wie caburke zu sagen, aber einfacher zu sein, Sie sind sehr zuversichtlich, dass die durchschnittliche Antwort, die durch Ihre Variablen verursacht wird, nicht Null ist. Aber es gibt viele andere Dinge, die Sie nicht in der Regression haben, die die Reaktion veranlassen, herumzuspringen.


0

Könnte es sein, dass Ihre Prädiktoren in Bezug auf Ihre Antwortvariable zwar linear tendieren (die Steigung unterscheidet sich erheblich von Null), was die t-Werte signifikant macht, aber das Quadrat R niedrig ist, weil die Fehler groß sind, was bedeutet, dass die Variabilität in Ihre Daten sind groß und daher passt Ihr Regressionsmodell nicht gut (Vorhersagen sind nicht so genau)?

Nur meine 2 Cent.

Vielleicht kann dieser Beitrag helfen: http://blog.minitab.com/blog/adventures-in-statistics/how-to-interpret-a-regression-model-with-low-r-squared-and-low-p- Werte


0

Einige Antworten sind nah, aber immer noch falsch.

"Die t-Werte werden verwendet, um die Genauigkeit Ihrer Schätzung der βi zu beurteilen" ist derjenige, der mich am meisten beschäftigt.

Der T-Wert ist lediglich ein Hinweis auf die Wahrscheinlichkeit eines zufälligen Auftretens. Groß bedeutet unwahrscheinlich. Klein bedeutet sehr wahrscheinlich. Positiv und Negativ spielen für die Wahrscheinlichkeitsinterpretation keine Rolle.

"R2 misst das Ausmaß der Variation in Ihrer Antwortvariablen, die durch Ihre Kovariaten erklärt wird" ist korrekt.

(Ich hätte es kommentiert, bin aber von dieser Plattform noch nicht zugelassen.)


2
Sie scheinen über t-Werte zu schreiben, als wären sie p-Werte.
whuber

-4

Die einzige Möglichkeit, mit einem kleinen quadratischen R umzugehen, ist die folgende:

  1. Ist Ihre Stichprobe groß genug? Wenn ja, führen Sie Schritt 2 aus. Wenn nein, erhöhen Sie die Stichprobengröße.
  2. Wie viele Kovariaten haben Sie für Ihre Modellschätzung verwendet? Wenn mehr als 1 wie in Ihrem Fall das Problem der Multikolinearität der Kovariaten behandelt oder einfach die Regression erneut und diesmal ohne die Konstante, die als Beta-Null bezeichnet wird, ausgeführt wird.

  3. Wenn das Problem weiterhin besteht, führen Sie eine schrittweise Regression durch und wählen Sie das Modell mit einem hohen quadratischen R aus. Aber was ich Ihnen nicht empfehlen kann, weil es Voreingenommenheit in den Kovariaten hervorruft

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.