Zusammenfassung des GAM-Modells: Was versteht man unter „Bedeutung glatter Begriffe“?

Ich habe einen Datensatz, für den ich ein GAM-Modell erstelle, mit einer Reihe von Faktoren, die die abhängige Variable vorhersagen. Wenn ich eine Zusammenfassung des Modells mache, erhalte ich ein Diagramm, das die "Bedeutung von glatten Begriffen" angibt (was ziemlich bedeutsam ist). Was bedeutet das?

Hier ist ein Beispiel einiger Daten (übrigens komplett zusammengestellt).

gam.happiness_rating <- gam(data = ratehappiness2008, overall_happy ~ s(salary, k=3) + s(age, k=3) + as.factor(sex) + as.factor(year) + num_siblings + num_vacation)

summary(gam.happiness_rating)

Parametric coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)          68.9221     5.4937  10.432  < 2e-14 ***
as.factor(sex)1     -12.3661     3.6232  -2.55  0.02346 ** 
as.factor(year)1999  21.4689     3.3060   2.262 2.03e-06 ***
num_siblings          1.2332     0.1082   1.648  0.02235 .  
num_vacation          -4.3824   3.3261  -1.233  0.132343   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Approximate significance of smooth terms:
               edf Ref.df      F  p-value    
s(salary)     2.111  1.723 15.843  < 2e-16 ***
s(age)        1.844  1.485  16.46 2.47e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

r dataset regression gam

Können Sie einige Beispieldaten und die Ergebnisse veröffentlichen, die Sie erhalten?

— Mjuarez

@mjuarez siehe Änderungen

Es wäre hilfreich, Ihre Vertrautheit mit GAMs zu kommentieren. Wie viel wissen Sie darüber, wie sie funktionieren, wie die Modellstruktur ist und wie sie passen?

— Matthew Drury

Hast du die Hilfedatei gelesen ...? Die Signifikanzprüfung für glatte Begriffe wird dort an verschiedenen Stellen ausführlich besprochen.

— not_bonferroni

@not_bonferroni: So viele Zusammenfassungen würden eine gute Antwort geben?

— naught101

Antworten:

Wie not_bonferroni erwähnt, help(summary.gam)haben Sie nützliche Informationen. Siehe die Referenzen darin oder

Wood, Simon N .. Verallgemeinerte additive Modelle: Eine Einführung mit R, 2. Auflage (Chapman & Hall / CRC-Texte in Statistical Science).

insbesondere Abschnitt 6.12. Um eine kurze und einfache Antwort zu geben

Wenn ich eine Zusammenfassung des Modells mache, erhalte ich ein Diagramm, das die "Bedeutung von glatten Begriffen" angibt (was ziemlich bedeutsam ist). Was bedeutet das?

Nehmen wir an, Sie haben nur eine Kovariate und eine Ergebnisvariable ist was wenn die Beobachtung insgesamt glücklich ist, und wenn dies nicht der Fall ist . Das Modell, das Sie passen, ist $x_i$ $y_i\in\{0,1\}$ $1$ $i$ $0$

g (E (y_{i} ∣ x_{i})) = α + f (x_{i})

$g\left(E\left(y_i \mid x_i\right)\right) = \alpha + f(x_i)$

Dabei ist eine Verknüpfungsfunktion und eine unbekannte glatte Funktion. Dann ist der Wert für die Nullhypothese . Um ein einfaches Beispiel zu geben, führen wir nachfolgend einige Simulationen durch, wobei , und . $g$ $f$ $p$ $H_0:\, f(x_i)=0$ $f(x_i)=2\sin(x_i)$ $f(x)=x$ $f(x_i)=0$

library(mgcv)
set.seed(2160179)
n <- 100
x <- seq(-pi, pi, length.out = n)

# f(x) = 2sin(x)
y <- 1/(1 + exp(-(1 + 2 * sin(x)))) > runif(n)
fit <- gam(y ~ s(x, k = 20), binomial())
summary(fit)
#R ...
#R Approximate significance of smooth terms:
#R        edf Ref.df Chi.sq  p-value
#R s(x) 4.285  5.344  32.61 8.33e-06 ***
#R ---
#R ...

# f(x) = x
y <- 1/(1 + exp(-(1 + x))) > runif(n)
fit <- gam(y ~ s(x, k = 20), binomial())
summary(fit)
#R ...
#R Approximate significance of smooth terms:
#R      edf Ref.df Chi.sq  p-value
#R s(x)   1      1  24.45 7.63e-07 ***
#R ---
#R ...

# f(x) = 0
y <- 1/(1 + exp(-1)) > runif(n)
fit <- gam(y ~ s(x, k = 20), binomial())
summary(fit)
#R ...
#R Approximate significance of smooth terms:
#R        edf Ref.df Chi.sq p-value
#R s(x) 6.532  8.115  11.04    0.21
#R ---
#R ...

Wir lehnen die Nullhypothese in den beiden ersten Fällen ab, aber nicht in den letzteren wie erwartet. Nehmen wir nun an, wir fügen dem Modell zwei zusätzliche Kovaraiten hinzu, so dass

g (E (y_{i} ∣ x_{i})) = α + f_{1} (x_{1 i}) + f_{2} (x_{2 i}) + β x_{3 i}

$g\left(E\left(y_i \mid x_i\right)\right) = \alpha + f_1(x_{1i}) + f_2(x_{2i}) + \beta x_{3i}$

Ihre Nullhypothese lautet, dass es keine (möglicherweise nicht lineare) Assoziation mit der Kovariate eins, , gibt, wenn eine (möglicherweise nicht lineare) Assoziation mit der Kovaraite zwei, , und eine lineare Assoziation mit der Kovariate drei vorliegt , auf der Verbindungsskala. $x_{1i}$ $x_{2i}$ $x_{3i}$

Ein letzter Kommentar (der in betont wird help(summary.gam)) ist, dass die Werte ohne Berücksichtigung der Unsicherheit bei den Schätzungen der Glättungsparameter sind. Daher müssen Sie möglicherweise vorsichtig sein, wenn der Wert nahe an Ihrem Schwellenwert liegt. $p$ $p$

— Benjamin Christoffersen
quelle

Die Bedeutung der glatten Begriffe ist genau das, was der Name sagt: Wie wichtig die glatten Begriffe Ihres Modells sind. Vielleicht war die Frage viel mehr, was die glatten Begriffe sind (da Sie zu verstehen scheinen, was Bedeutung ist)? Ihr Modell enthält verschiedene Begriffe, von denen einige "glatte" Begriffe sind, im Grunde genommen bestrafte kubische Regressionssplines. Dies sind beispielsweise die Begriffe mit einem "s", dh s (Gehalt, k = 3). Einige andere Begriffe sind parametrisch, z. B. num_s Geschwister oder num_vacation. Jeder dieser Begriffe ist mehr oder weniger wichtig für die Erklärung der Varianz Ihrer Antwortvariablen "total_happy". Einige von ihnen scheinen ziemlich unwichtig zu sein, wie num_vacation, das eine kleine Bedeutung hat (ein großer p-Wert von 0,132343). Dies bedeutet, dass diese Variable wahrscheinlich keinen mechanistischen oder deterministischen oder physikalischen Einfluss auf Ihre Antwortvariable hat. Sie können sie daher ignorieren und aus Ihrem Modell entfernen. Andere Begriffe haben eine hohe Bedeutung (ein kleiner p-Wert), wie der glatte Begriff s (Gehalt). Dies bedeutet, dass das Gehalt einer Person in Wirklichkeit höchstwahrscheinlich einer der Hauptfaktoren ist, die zu ihrem Glück beitragen.

— Nukimov
quelle