Überprüfung der Normalität von Residuen in verallgemeinerten linearen Modellen

In diesem Artikel werden verallgemeinerte lineare Modelle (sowohl binomiale als auch negative binomiale Fehlerverteilungen) zur Analyse von Daten verwendet. Aber dann gibt es im statistischen Analyseteil der Methoden diese Aussage:

... und zweitens durch Modellierung der Anwesenheitsdaten mithilfe logistischer Regressionsmodelle und der Futtersuchzeitdaten mithilfe eines verallgemeinerten linearen Modells (GLM). Eine negative Binomialverteilung mit einer logarithmischen Verknüpfungsfunktion wurde verwendet, um die Futtersuchzeitdaten zu modellieren (Welsh et al. 1996), und die Angemessenheit des Modells wurde durch Untersuchung von Residuen verifiziert (McCullagh & Nelder 1989). Shapiro-Wilk- oder Kolmogorov-Smirnov-Tests wurden verwendet, um die Normalität in Abhängigkeit von der Probengröße zu testen. Die Daten wurden vor den Analysen logarithmisch transformiert, um der Normalität zu entsprechen.

Wenn sie Binomial- und Negativ-Binomial-Fehlerverteilungen annehmen, sollten sie dann sicher nicht auf Normalität der Residuen prüfen?

generalized-linear-model assumptions

— Luciano
quelle

Beachten Sie, dass die Fehler nicht binomial verteilt sind - jede Antwort ist binomial verteilt mit einem Wahrscheinlichkeitsparameter, der durch die entsprechenden Prädiktorwerte gemäß den Antworten auf eine Ihrer anderen Fragen angegeben wird .

— Scortchi

In der binomialen oder negativen binomialen Regression gibt es nichts, was normal sein muss. Wenn es die Reaktion ist, die sie transformieren, kann dies höchst kontraproduktiv sein. es wird den GLM vermasseln.

— Glen_b -Reinstate Monica

Aus Ihrem Zitat geht nicht hervor, welche Daten tatsächlich auf Normalität getestet werden (sind Sie sicher, dass es sich um die Residuen handelt?) Oder für welche Analyse transformieren sie Daten (sind Sie sicher, dass es sich um die GLMs handelt?).

— Scortchi

Ich habe das Zitat ein wenig erweitert. Könnte jemand bestätigen, ob das, was die Autoren des Papiers getan haben, falsch oder richtig war?

— Luciano

Ich befürchte, es ist immer noch nicht ganz klar. Wenden Sie sich an die Autoren, um zu erfahren, wie sie die Analyse durchgeführt haben, wenn dies an keiner anderen Stelle in der Veröffentlichung oder in den Referenzen erläutert wird.

— Scortchi

Antworten:

Hinweis: Für die Abweichungs- (oder Pearson-) Residuen wird mit Ausnahme eines Gaußschen Modells keine Normalverteilung erwartet. Für den logistischen Regressionsfall werden, wie @Stat sagt, Abweichungsreste für die te Beobachtung durch gegeben $i$ $y_i$

r_{ich}^{D} = - \sqrt{2 | Log (1 - {\hat{π}}_{ich}) |}

$r^{\mathrm{D}}_i=-\sqrt{2\left|\log{(1-\hat{\pi}_i)}\right|}$

wenn & $y_i=0$

r_{ich}^{D} = \sqrt{2 | Log ({\hat{π}}_{ich}) |}

$r^{\mathrm{D}}_i=\sqrt{2\left|\log{(\hat{\pi}_i)}\right|}$

wenn , wobei die angepasste Bernoulli-Wahrscheinlichkeit ist. Da jeder Wert nur einen von zwei Werten annehmen kann, ist klar, dass die Verteilung nicht normal sein kann, auch nicht für ein korrekt angegebenes Modell: $y_i=1$ $\hat{\pi_i}$

#generate Bernoulli probabilities from true model
x <-rnorm(100)
p<-exp(x)/(1+exp(x))

#one replication per predictor value
n <- rep(1,100)
#simulate response
y <- rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial") -> mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ-Plot n = 1

$n_i$ $i$

r_{ich}^{D} = sgn (y_{ich} - n_{ich} {\hat{π}}_{ich}) \sqrt{2 [y_{ich} Log \frac{y_{ich}}{n {\hat{π}}_{ich}} + (n_{ich} - y_{ich}) Log \frac{n_{ich} - y_{ich}}{n_{ich} (1 - {\hat{π}}_{ich})}]}

$r^{\mathrm{D}}_i=\operatorname{sgn}({y_i-n_i\hat{\pi}_i})\sqrt{2\left[y_i\log{\frac{y_i}{n\hat{\pi}_i}} + (n_i-y_i)\log{\frac{n_i-y_i}{n_i(1-\hat{\pi}_i)}}\right]}$

$y_i$ $n_i$ $n_i$

#many replications per predictor value
n <- rep(30,100)
#simulate response
y<-rbinom(100,n,p)
#fit model
glm(cbind(y,n-y)~x,family="binomial")->mod
#make quantile-quantile plot of residuals
qqnorm(residuals(mod, type="deviance"))
abline(a=0,b=1)

QQ-Plot n = 30

Ähnliches gilt für Poisson- oder negative Binomial-GLMs: Bei niedrigen vorhergesagten Zählwerten ist die Verteilung der Residuen diskret und verzerrt, bei größeren Zählwerten unter einem korrekt angegebenen Modell tendiert sie jedoch zur Normalität.

Es ist nicht üblich, zumindest nicht in meinem Nacken des Waldes, einen formellen Test der Restnormalität durchzuführen; Wenn Normalitätstests im Wesentlichen nutzlos sind, wenn Ihr Modell eine exakte Normalität annimmt, ist es erst recht nutzlos, wenn dies nicht der Fall ist. Für ungesättigte Modelle ist jedoch eine grafische Restdiagnose hilfreich, um das Vorhandensein und die Art der Passungsstörung zu beurteilen. Dabei wird je nach Anzahl der Wiederholungen pro Prädiktormuster mit einer Prise oder einer Handvoll Salz die Normalität bestimmt.

— Scortchi - Wiedereinsetzung von Monica
quelle

Was sie getan haben, ist richtig! Ich werde Sie auf die doppelte Überprüfung verweisen. Siehe Abschnitt 13.4.4 in Einführung in die lineare Regressionsanalyse, 5. Ausgabevon Douglas C. Montgomery, Elizabeth A. Peck und G. Geoffrey Vining. Sehen Sie sich insbesondere die Beispiele auf Seite 460 an, in denen ein Binomial glm verwendet wird, und überprüfen Sie die Normalitätsannahme der "Deviance Residuals". Wie auf Seite 462 erwähnt, liegt dies daran, dass sich "die Abweichungs-Residuen ähnlich verhalten wie gewöhnliche Residuen in einem linearen Regressionsmodell mit normaler Theorie". Es ist also sinnvoll, wenn Sie sie sowohl auf der normalen Wahrscheinlichkeitsdiagrammskala als auch im Vergleich zu angepassten Werten darstellen. Siehe erneut Seite 456 der obigen Referenz. In den Beispielen, die sie auf den Seiten 460 und 461 bereitgestellt haben, haben sie nicht nur für den Binomialfall, sondern auch für Poisson glm und Gamma mit (link = log) die Normalität der Abweichungsreste überprüft.

r_{ich}^{D} = - \sqrt{2 | \ln (1 - \hat{π_{ich}}) |}

$r^{D}_i=-\sqrt{2|\ln{(1-\hat{\pi_i})}|}$

y_{i} = 0

$y_i=0$

r_{ich}^{D} = \sqrt{2 | \ln (\hat{π_{ich}}) |}

$r^{D}_i=\sqrt{2|\ln{(\hat{\pi_i})}|}$

y_{i} = 1

$y_i=1$

> attach(npk)

> #Fitting binomila glm
> fit.1=glm(P~yield,family=binomial(logit))
> 
> #Getting deviance residuals directly
> rd=residuals(fit.1,type = c("deviance"))
> rd
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
> 
> 
> #Estimated success probabilities
> pi.hat=fitted(fit.1)
> 
> #Obtaining deviance residuals directly
> rd.check=-sqrt(2*abs(log(1-pi.hat)))
> rd.check[P==1]=sqrt(2*abs(log(pi.hat[P==1])))
> rd.check
         1          2          3          4          5          6          7 
 1.1038306  1.2892945 -1.2912991 -1.1479881 -1.1097832  1.2282009 -1.1686771 
         8          9         10         11         12         13         14 
 1.1931365  1.2892945  1.1903473 -0.9821829 -1.1756061 -1.0801690  1.0943912 
        15         16         17         18         19         20         21 
-1.3099491  1.0333213  1.1378369 -1.2245380 -1.2485566  1.0943912 -1.1452410 
        22         23         24 
 1.2352561  1.1543163 -1.1617642 
>

Überprüfen Sie hier auch den Poisson-Fall.

— Stat
quelle

Ihr Beispiel ist eine seltsame Wahl. Haben Sie einen PP- oder QQ-Plot dieser Abweichungsreste erstellt? wenn ja, was sind Sie zu dem Schluss gekommen?

— Scortchi

In diesem Fall hätte es keinen Sinn, die Normalität der Residuen zu überprüfen - sie sind eindeutig nicht normalverteilt und sollten es auch nicht sein. Nur wenn die Anzahl der Beobachtungen für jedes Prädiktormuster zunimmt, tendiert die Verteilung der Residuen (ein Residuum wird pro Prädiktormuster berechnet) zur Normalverteilung. Ähnliches gilt für ein Poisson- oder negatives Binomialmodell - die Zählungen müssen groß sein, damit die normale Näherung gut ist.

— Scortchi

Die Frage ist, ob Residuen aus verallgemeinerten linearen Modellen normalverteilt werden sollen. Ihre Antwort scheint ein uneingeschränktes "Ja" zu sein (obwohl Ihre Quellen zweifellos die erforderlichen Qualifikationen angeben, werden sie nicht von jedem Leser überprüft). Sie geben dann ein Beispiel an, in dem es keinen Grund gibt, zu erwarten, dass die Residuen normal verteilt sind, auch wenn das Modell korrekt angegeben wurde: Ein unachtsamer Leser geht davon aus, dass dies der Fall ist und dass dies eindeutig nicht der Fall ist Daher ein Beispiel für das Erkennen

— falscher Modellspezifikationen

... habe nicht gesagt, dass es so ist). Daher denke ich, dass die Antwort viel Klarheit erfordert, um nützlich zu sein.

— Scortchi

IMO @ Scortchis Kommentare sind hier angemessen. Wenn ich mir ansehe, was ich aus dem Montgomery-Buch in der Google Books-Vorschau sehe, wird der QQ-Plot zwar erstellt, es wird jedoch kein tatsächlicher Normalitätstest durchgeführt, wie er auf dem Originalposter angegeben ist. Sicher, die Erstellung des QQ-Diagramms ist als diagnostischer Test sinnvoll, aber unter so gut wie allen realistischen Umständen ist sogar die Abweichung vorhanden. wird nicht normal sein.

— Andy W