Was ist die genaue Formel, die in R lm()
für das angepasste R-Quadrat verwendet wird? Wie kann ich das interpretieren?
Angepasste R-Quadrat-Formeln
Es scheinen verschiedene Formeln zur Berechnung des bereinigten R-Quadrats zu existieren.
- Wherry-Formel:
- McNemars Formel:
- Gottes Formel:
- Steins Formel:
Lehrbuchbeschreibungen
- Laut Field's Lehrbuch, Discovering Statistics Using R (2012, S. 273), verwendet R Wherry's Gleichung, die besagt, "wie viel Varianz in Y berücksichtigt würde, wenn das Modell aus der Population abgeleitet worden wäre, aus der die Stichprobe entnommen wurde". Er gibt die Formel für Wherry nicht an. Er empfiehlt die Verwendung von Steins Formel (von Hand), um zu überprüfen, wie gut das Modell eine Kreuzvalidierung durchführt.
- Kleiber / Zeileis, Angewandte Ökonometrie mit R (2008, S. 59) behaupten, es sei "Theils angepasstes R-Quadrat" und sagen nicht genau, wie sich seine Interpretation von dem multiplen R-Quadrat unterscheidet.
- Dalgaard, Introductory Statistics with R (2008, S. 113), schreibt: "Wenn Sie [angepasstes R-Quadrat] mit 100% multiplizieren, kann dies als '% Varianzreduktion' interpretiert werden." Er sagt nicht, welcher Formel dies entspricht.
Ich hatte vorher viel darüber nachgedacht und gelesen, dass R-Quadrat bestraft, wenn dem Modell zusätzliche Variablen hinzugefügt wurden. Nun scheint die Verwendung dieser verschiedenen Formeln unterschiedliche Interpretationen erforderlich zu machen. Ich habe mir auch eine verwandte Frage zum Stapelüberlauf ( Was ist der Unterschied zwischen multiplem R-Quadrat und angepasstem R-Quadrat in einer Regression mit einer einzigen variablen kleinsten Quadrate? ) Und das statistische Wörterbuch der Wharton-Schule bei UPenn angesehen .
Fragen
- Welche Formel wird für das angepasste r-Quadrat von R verwendet
lm()
? - Wie kann ich das interpretieren?
ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)
wobei ans $ r.squared = R ^ 2 ist; n = n, rdf = restliche df, df.int = Schnittpunkt df (0 oder 1).