Wie bekomme ich ein R-Quadrat für eine Löß-Passform?


15

Wie berechnet man die R-Quadrat- Statistik ( ) in R für und / oder die Funktionsausgabe? Zum Beispiel für diese Daten:r2loesspredict

cars.lo <- loess(dist ~ speed, cars)
cars.lp <- predict(cars.lo, data.frame(speed = seq(5, 30, 1)), se = TRUE)

cars.lphat zwei Arrays fitfür Modell- und se.fitfür Standardfehler.


In der linearen Regression ist gleich der quadratischen Korrelation zwischen den beobachteten Werten und den angepassten Werten - wie wäre es damit? R2
Makro

Antworten:


10

Mein erster Gedanke war, ein Pseudo-R2 Maß wie folgt zu berechnen :

ss.dist <- sum(scale(cars$dist, scale=FALSE)^2)
ss.resid <- sum(resid(cars.lo)^2)
1-ss.resid/ss.dist

Hier erhalten wir einen Wert von 0,6814984 ( ), ähnlich wie er von einem GAM erhalten würde : cor(cars$dist, predict(cars.lo))^2

library(mgcv)
summary(gam(dist ~ speed, data=cars))

Dies scheint auch in Übereinstimmung mit dem zu sein, was die S- loessFunktion zurückgeben würde (ich habe kein S, kann es also nicht selbst überprüfen) Multiple R-squared. Wenn ich zum Beispiel den airqualityR-Datensatz verwende, der aussieht wie die airDaten, die Chambers und Hastie im 'White Book' verwendet haben (das in der Online-Hilfe für referenziert wird loess; aber das ist nicht genau derselbe Datensatz), habe ich einen von 0,8101377 unter Verwendung der obigen Formel. Das stimmt ziemlich gut mit dem überein, was Chambers und Hastie berichtet haben.R2

Bildbeschreibung hier eingeben

Ich sollte beachten, dass ich kein Papier gefunden habe, das sich speziell damit befasst (ok, das war nur ein kurzes Googeln), und William Cleveland spricht in seinem Papier nicht über ähnliche Maßnahmen .R2

Ich frage mich jedoch, ob die Freiheit, mit der Sie den Grad der Glättung (oder das Fenster span) auswählen können, die Verwendung von basierten Maßen nicht ausschließt .R2


8
Ihre letzte Zeile ist richtig: Die Berechnung eines Pseudo- widerspricht dem Geist von Löss, der darin besteht , Muster zu untersuchen , zu identifizieren und Daten zu glätten . Das Berechnen einer Kennzahl wie dieser geht daneben und ist meiner Meinung nach ein Missbrauch des Tools. Wenn Sie stattdessen die Passform beurteilen möchten, fahren Sie im Sinne von EDA fort und analysieren Sie die Residuen (das "Rough" in Tukeys Sprache). Obwohl Sie sich möglicherweise mit M-Letter-Statistiken, IQRs usw. befassen, die so ausgelegt werden könnten, dass sie eine ähnliche Rolle wie , verläuft die Analyse in einem ganz anderen Sinne. R2R2
whuber

@whuber: Es ist also besser (genauer), ein polynomales (oder ein anderes) Modell mit Unterstützung zu verwenden, wenn ein Lössmodell verwendet werden soll , um zu ermitteln, wie gut das resultierende Modell die Quelldaten beschreibt. r2
Yuriy Petrovskiy

3
Nicht unbedingt "genauer". Tatsächlich wäre es töricht, Löss zu verwenden, um Genauigkeit in einem Vorhersagemodell zu erzielen. Ich denke, Löss als "Modell" zu bezeichnen, vermittelt ein mögliches Missverständnis darüber, wie es funktioniert und wie es verwendet werden soll: Es ist wirklich ein grafisches Erkundungswerkzeug , um Muster und Trends zu erkennen. Da es sich in Wirklichkeit nur um ein bewegliches Fenster handelt, handelt es sich um ein ziemlich kompliziertes räumliches Nachbarschaftsmodell, bei dem der angepasste Wert an einem Punkt davon abhängt, welche benachbarten Punkte im Datensatz und von den Werten dort vorhanden sind.
whuber

2
r2
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.