Ich möchte Modelle mit auswählen regsubsets()
. Ich habe einen Datenrahmen namens olympiadaten (hochgeladene Daten: http://www.sendspace.com/file/8e27d0 ). Ich hänge zuerst diesen Datenrahmen an und beginne dann mit der Analyse. Mein Code lautet:
attach(olympiadaten)
library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp +
Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")
summary(lm(Gesamt~ExpHealth))
Screenshot der Handlung:
Das Problem ist nun, dass ich das beste Modell wieder "manuell" anpassen und es mir ansehen möchte, aber der Wert des angepassten R-Quadrats nicht der gleiche ist wie in der Ausgabe der Regsubsets? Dies gilt auch für die anderen Modelle, z. B. wenn ich das einfachste Modell in der Grafik mache:
summary(lm(Gesamt~ExpHealth))
Die Grafik sagt, es sollte ein angepasstes R-Quadrat von ungefähr 0,14 haben, aber wenn ich mir die Ausgabe anschaue, erhalte ich einen Wert von 0,06435.
Hier ist die Ausgabe von summary(lm(Gesamt~ExpHealth))
:
Call:
lm(formula = Gesamt ~ ExpHealth)
Residuals:
Min 1Q Median 3Q Max
-18.686 -9.856 -4.496 1.434 81.980
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -3.0681 6.1683 -0.497 0.6203
ExpHealth 1.9903 0.7805 2.550 0.0127 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 18.71 on 79 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07605, Adjusted R-squared: 0.06435
F-statistic: 6.502 on 1 and 79 DF, p-value: 0.01271
Ich weiß nicht, was ich falsch gemacht haben könnte, jede Hilfe wäre dankbar.
Und zu guter Letzt noch ein paar Fragen:
- Was ist der Unterschied zwischen der Auswahl von Modellen nach AIC und nach Adj. R im Quadrat?
- Beide messen die Anpassung und erkennen die Anzahl der Variablen, sodass nicht das beste von AIC ausgewählte Modell auch das Modell mit der höchsten Einstellung ist. r im Quadrat?
- Wenn ich 12 Variablen habe, bedeutet das, dass es Möglichkeiten von Modellen gibt, richtig?
regsubsets()
Berechnet der Befehl also jedes Modell und zeigt die zwei besten (nbest=2
) jeder Größe an?- Wenn ja, bekomme ich wirklich das "beste" Modell?
- Und wenn ich AIC mit Rückwärtsauswahl mache (beginnend mit dem Modell, das alle Variablen enthält), endet dies dann auch mit demselben Modell, das
regsubsets()
sagt , dass es das Beste ist?