Interpretation von Parameterschätzungen in Poisson-GLM-Ergebnissen [geschlossen]


14
Call:
glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData)

Deviance Residuals:
    Min      1Q   Median     3Q    Max
-3.7422 -1.0257   0.0027 0.7169 3.5347

Coefficients:
              Estimate Std.Error z value Pr(>|z|)
(Intercept)   3.144257  0.218646  14.381  < 2e-16 ***
riverWatauga -0.049016  0.051548  -0.951  0.34166
pH            0.086460  0.029821   2.899  0.00374 **
temp         -0.059667  0.009149  -6.522  6.95e-11 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for poisson family taken to be 1)
Null deviance: 233.68 on 99 degrees of freedom
Residual deviance: 187.74 on 96 degrees of freedom
AIC: 648.21

Ich möchte wissen, wie jede Parameterschätzung in der obigen Tabelle zu interpretieren ist.



6
Diese Frage scheint nicht zum Thema zu gehören, da es darum geht, eine R-Ausgabe ohne irgendeine Form von intelligenter Frage dahinter zu erklären. Dies ist die Kategorie "Ich stelle meine Computerausgabe dort ab und Sie führen die Statistikanalyse für mich durch" ...
Xi'an

1
Ihr Dispersionsparameter scheint darauf hinzudeuten, dass bei Ihrem Modell einige Probleme vorliegen. Vielleicht sollten Sie stattdessen eine Quasipoisson-Verteilung verwenden. Ich wette, Ihre Parameterschätzungen werden sich drastisch ändern, ebenso wie die Interpretation. Wenn Sie "plot (model)" ausführen, werden einige Diagramme Ihrer Residuen angezeigt. Sehen Sie sich diese Diagramme nach unerwünschten Mustern an, bevor Sie mit der Interpretation Ihres tatsächlichen Modells beginnen. Zum schnellen Plotten der Passform Ihres Modells können Sie auch "visreg (modelfit)" aus dem visreg-Paket verwenden
Robbie,

3
@ Xi'an, obwohl die Frage spärlich ist und eine Bearbeitung erfordert, denke ich nicht, dass sie vom Thema abweicht. Betrachten Sie diese Fragen , die nicht vom Thema betrachtet werden: Die Interpretation der R lm () ausgegeben , und Interpretation von R - Ausgang für binomische Regression . Es scheint jedoch ein Duplikat zu sein .
gung - Wiedereinsetzung von Monica

2
Dies ist ein Duplikat von Wie werden Koeffizienten in einer Poisson-Regression interpretiert? Bitte lies den verlinkten Thread. Wenn Sie nach dem Lesen immer noch eine Frage haben, kommen Sie hierher zurück und bearbeiten Sie Ihre Frage, um anzugeben, was Sie gelernt haben und was Sie noch wissen müssen, dann können wir die benötigten Informationen bereitstellen, ohne einfach Material an einer anderen Stelle zu duplizieren, das bereits nicht geholfen hat Sie.
gung - Wiedereinsetzung von Monica

Antworten:


28

Ich glaube nicht, dass der Titel Ihrer Frage genau das wiedergibt, wonach Sie fragen.

Die Frage, wie die Parameter in einem GLM zu interpretieren sind, ist sehr weit gefasst, da das GLM eine sehr breite Klasse von Modellen darstellt. Denken Sie daran, dass ein GLM eine Antwortvariable modelliert , von der angenommen wird, dass sie einer bekannten Verteilung aus der Exponentialfamilie folgt, und dass wir eine invertierbare Funktion g so gewählt haben, dass E [ yyG für J Prädiktorvariablen x . In diesem Modell ist die Interpretation eines bestimmten Parameters β j ist die Änderungsrate von g ( y ) in Bezug auf x j . Definiere μ E [ y

E[y|x]=g1(x0+x1β1++xJβJ)
JxβjG(y)xj undηxβ, um die Notation sauber zu halten. Dann wird für jedenj{1,...,J}, β j =μE[y|x]=G-1(x)ηxβj{1,,J} Definieren Sie nunejals einen Vektor vonJ-1Nullen und einer einzelnen1in derj -ten Position, so dass zum Beispiel, wennJ=5,danne3=(0,0,1,0,0). Dann ist βj=g(E [ y
βj=ηxj=g(μ)xj.
ejJ11jJ=5e3=(0,0,1,0,0)
βj=g(E[y|x+ej])g(E[y|x])

Was nur bedeutet, dass die Auswirkung einer Einheitszunahme von x j auf η ist .βjηxj

Sie können die Beziehung auch folgendermaßen angeben : und E[y

E[y|x]xj=μxj=dμdηηxj=μηβj=dg1dηβj
E[y|x+ej]E[y|x]Δjy^=g1((x+ej)β)g1(xβ)

Ohne etwas über wissen , ist das so weit wie möglich. β j ist die Wirkung auf η , der den transformierten bedingten Mittelwert von y , der eine Einheitszunahme in x j , und die Wirkung auf den bedingten Mittelwert von y einer Einheit Erhöhung x jgβjηyxjyxj ist .g1(β)


Sie scheinen jedoch speziell nach der Poisson-Regression mit der Standard-Link-Funktion von R zu fragen, die in diesem Fall der natürliche Logarithmus ist. Wenn das der Fall ist, sind Sie zu fragen , eine bestimmte Art von GLM in denen und g = ln . Dann können wir eine gewisse Zugkraft in Bezug auf eine bestimmte Interpretation bekommen.yPoisson(λ)g=ln

Aus dem, was ich oben gesagt habe, wissen wir, dass . Und da wir wissen, dassg(μ)=ln(μ) ist, wissen wir auch, dassg-1(η)=eη ist. Wir wissen zufällig auch, dassdeημxj=dg1dηβjg(μ)=ln(μ)g1(η)=eη, also können wir sagen, dass μdeηdη=eη

μxj=E[y|x]xj=ex0+x1β1++xJβJβj

was endlich etwas greifbares bedeutet:

xjy^y^βj

Hinweis: Diese Näherung kann tatsächlich für Änderungen bis zu 0,2 funktionieren, je nachdem, wie viel Präzision Sie benötigen.

Δjy^=ex0+x1β1++(xj+1)βj++xJβJex0+x1β1++xJβJ=ex0+x1β1++xJβJ+βjex0+x1β1++xJβJ=ex0+x1β1++xJβJejβex0+x1β1++xJβJ=ex0+x1β1++xJβJ(ejβ1)
which means

Given a unit change in xj, the fitted y^ changes by y^(ejβ1).

There are three important pieces to note here:

  1. The effect of a change in the predictors depends on the level of the response.
  2. An additive change in the predictors has a multiplicative effect on the response.
  3. You can't interpret the coefficients just by reading them (unless you can compute arbitrary exponentials in your head).

So in your example, the effect of increasing pH by 1 is to increase lny^ by y^(e0.091); that is, to multiply y^ by e0.091.09. It looks like your outcome is the number of darters you observe in some fixed unit of time (say, a week). So if you're observing 100 darters a week at a pH of 6.7, raising the pH of the river to 7.7 means you can now expect to see 109 darters a week.


I made a couple tweaks here, @ssdecontrol. I think they'll make your post a little easier to follow, but if you don't like them, roll them back with my apologies.
gung - Reinstate Monica

I you can't figure that out from my answer then clearly I need to revise the answer. What are you still confused about?
shadowtalker

Plug those numbers into the equation just like in linear regression
shadowtalker

1
@skan no, I mean E[y|x]. x and y are random variables representing to a single observation. x is a vector indexed by j; xj is the random variable representing a specific feature/regressor/input/predictor for that observation.
shadowtalker

2
And don't overthink it. Once you understand all the pieces in a GLM, the manipulations here are just a direct application of calculus principles. It really is as simple as taking the derivative with respect to the variable you're interested in.
shadowtalker

3

My suggestion would be to create a small grid consisting of combinations of the two rivers and two or three values of each of the covariates, then use the predict function with your grid as newdata. Then graph the results. It is much clearer to look at the values that the model actually predicts. You may or may not want to back-transform the predictions to the original scale of measurement (type = "response").


1
As much as I like this approach (I do it all the time) I think it's counterproductive for building understanding.
shadowtalker
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.