Eine Formel für Pseudo fand ich in dem Buch Extending the Linear Model with R., Julian J. Faraway (S. 59).
Ist dies eine gebräuchliche Formel für Pseudo für GLMs?
Eine Formel für Pseudo fand ich in dem Buch Extending the Linear Model with R., Julian J. Faraway (S. 59).
Ist dies eine gebräuchliche Formel für Pseudo für GLMs?
Antworten:
Es gibt eine große Anzahl von Pseudo- für GLiMs. Die ausgezeichnete UCLA Statistiken Hilfe - Website hat einen umfassenden Überblick über sie hier . Die, die Sie auflisten, heißt McFaddens Pseudo- . In Bezug auf die Typologie der UCLA ist es wie in dem Sinne, dass es die Verbesserung des angepassten Modells gegenüber dem Nullmodell indiziert. Einige statistische Programme, insbesondere SPSS, drucken, wenn ich mich recht entsinne, standardmäßig McFaddens Pseudo- mit den Ergebnissen einiger Analysen wie der logistischen Regression aus. Ich vermute, dass dies durchaus üblich ist, obwohl Cox & Snell und Nagelkerke Pseudo- s kann noch mehr sein. McFaddens Pseudo- jedoch nicht alle Eigenschaften vonR 2 R 2 R 2 R 2 R 2 R 2 R 2 R 2 R 2 R 2 R 2 (kein Pseudo- ). Wenn jemand daran interessiert ist , ein Modell mit einem Pseudo- zu verstehen, empfehle ich nachdrücklich, diesen hervorragenden CV-Thread zu lesen: Welche Pseudo- Kennzahl ist für die logistische Regression zu melden (Cox & Snell oder Nagelkerke)? (Für das, was es wert ist, ist selbst schlüpfriger als die Leute glauben, eine großartige Demonstration davon kann in @ whubers Antwort hier gesehen werden: Ist nützlich oder gefährlich? )
R gibt Null und Restabweichung in der Ausgabe an, glm
damit Sie genau diese Art von Vergleich durchführen können (siehe die letzten beiden Zeilen unten).
> x = log(1:10)
> y = 1:10
> glm(y ~ x, family = poisson)
>Call: glm(formula = y ~ x, family = poisson)
Coefficients:
(Intercept) x
5.564e-13 1.000e+00
Degrees of Freedom: 9 Total (i.e. Null); 8 Residual
Null Deviance: 16.64
Residual Deviance: 2.887e-15 AIC: 37.97
Sie können diese Werte auch mit model$null.deviance
und aus dem Objekt ziehenmodel$deviance
summary.glm
. Ob diese Definition eines gebräuchlich ist, würde eine Umfrage erfordern. Ich würde sagen, es ist nicht besonders selten, da ich es schon einmal gesehen habe, aber nicht etwas, das notwendigerweise weit verbreitet ist.
Die Formel, die Sie vorgeschlagen haben, wurde von Maddala (1983) und Magee (1990) vorgeschlagen, um das Quadrat R auf dem logistischen Modell zu schätzen. Daher denke ich nicht, dass es für alle GLM-Modelle anwendbar ist (siehe das Buch Modern Regression Methods von Thomas P. Ryan auf Seite 266).
Wenn Sie einen gefälschten Datensatz erstellen, werden Sie feststellen, dass es das Quadrat R unterschätzt ... für Gaußschen Glanz pro Beispiel.
Ich denke, für ein Gaußsches Glm kann man die grundlegende (lm) R-Quadrat-Formel verwenden ...
R2gauss<- function(y,model){
moy<-mean(y)
N<- length(y)
p<-length(model$coefficients)-1
SSres<- sum((y-predict(model))^2)
SStot<-sum((y-moy)^2)
R2<-1-(SSres/SStot)
Rajust<-1-(((1-R2)*(N-1))/(N-p-1))
return(data.frame(R2,Rajust,SSres,SStot))
}
Und für die logistische (oder binomische Familie in r) würde ich die von Ihnen vorgeschlagene Formel verwenden ...
R2logit<- function(y,model){
R2<- 1-(model$deviance/model$null.deviance)
return(R2)
}
Bisher habe ich für poisson glm die Gleichung aus diesem Beitrag verwendet.
Es gibt auch einen großartigen Artikel über Pseudo R2, der über Researchs Gates verfügbar ist ... hier ist der Link:
Ich hoffe diese Hilfe.
1-summary(GLM)$deviance/summary(GLM)$null.deviance
und Sie werden sehen, dass das R2 mit dem R2-Wert einer regulären OLS-Regression übereinstimmt, sodass die obige Antwort korrekt ist! Siehe auch meinen Beitrag hier - stats.stackexchange.com/questions/412580/…
Das R-Paket modEvA
berechnet das D-Quadrat
wie 1 - (mod$deviance/mod$null.deviance)
von David J. Harris erwähnt
set.seed(1)
data <- data.frame(y=rpois(n=10, lambda=exp(1 + 0.2 * x)), x=runif(n=10, min=0, max=1.5))
mod <- glm(y~x,data,family = poisson)
1- (mod$deviance/mod$null.deviance)
[1] 0.01133757
library(modEvA);modEvA::Dsquared(mod)
[1] 0.01133757
Das D-Quadrat oder die erklärte Abweichung des Modells wird in (Guisan & Zimmermann 2000) https://doi.org/10.1016/S0304-3800(00)00354-9 vorgestellt
Colin Cameron, A., & Windmeijer, F. A. (1997). An R-squared measure of goodness of fit for some common nonlinear regression models. Journal of Econometrics, 77(2), 329-342.