Zusammenfassung einer GAM-Anpassung


12

Wenn wir ein GAM passen wie:

gam.fit = gam::gam(Outstate ~ Private + s(Room.Board, df = 2) + s(PhD, df = 2) + 
    s(perc.alumni, df = 2) + s(Expend, df = 5) + s(Grad.Rate, df = 2), data = College)

Wo verwenden wir den Datensatz College, der im Paket zu finden ist ISLR.
Wenn wir nun die Zusammenfassung dieser Übereinstimmung finden, können wir Folgendes sehen:

> summary(gam.fit)

Call: gam(formula = Outstate ~ Private + s(Room.Board, df = 2) + s(PhD, 
    df = 2) + s(perc.alumni, df = 2) + s(Expend, df = 5) + s(Grad.Rate, 
    df = 2), data = College)
Deviance Residuals:
     Min       1Q   Median       3Q      Max 
-7522.66 -1140.99    55.18  1287.51  7918.22 

(Dispersion Parameter for gaussian family taken to be 3475698)

    Null Deviance: 12559297426 on 776 degrees of freedom
Residual Deviance: 2648482333 on 762.0001 degrees of freedom
AIC: 13924.52 

Number of Local Scoring Iterations: 2 

Anova for Parametric Effects
                        Df     Sum Sq    Mean Sq F value    Pr(>F)    
Private                  1 3377801998 3377801998 971.834 < 2.2e-16 ***
s(Room.Board, df = 2)    1 2484460409 2484460409 714.809 < 2.2e-16 ***
s(PhD, df = 2)           1  839368837  839368837 241.496 < 2.2e-16 ***
s(perc.alumni, df = 2)   1  509679160  509679160 146.641 < 2.2e-16 ***
s(Expend, df = 5)        1 1019968912 1019968912 293.457 < 2.2e-16 ***
s(Grad.Rate, df = 2)     1  148052210  148052210  42.596 1.227e-10 ***
Residuals              762 2648482333    3475698                      
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Anova for Nonparametric Effects
                       Npar Df Npar F   Pr(F)    
(Intercept)                                      
Private                                          
s(Room.Board, df = 2)        1  3.480 0.06252 .  
s(PhD, df = 2)               1  1.916 0.16668    
s(perc.alumni, df = 2)       1  1.471 0.22552    
s(Expend, df = 5)            4 34.350 < 2e-16 ***
s(Grad.Rate, df = 2)         1  1.981 0.15971    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Hier verstehe ich die Bedeutung des Teils "Anova für parametrische Effekte" sowie "Anova für nicht parametrische Effekte" nicht. Obwohl ich die Arbeitsweise des ANOVA-Tests kenne, kann ich den Teil "Parametrische Effekte" und "Nicht-Parametrische Effekte" der Zusammenfassung nicht verstehen. Also, was bedeuten sie? Was ist ihre Bedeutung?


Diese Frage ergab sich aus dem (d) Teil dieser Antwort für Frage 10, Kapitel 7 der Einführung des statistischen Lernens .

Antworten:


22

Die Ausgabe dieses Ansatzes zum Anpassen von GAMs ist so strukturiert, dass die linearen Teile der Glätter mit den anderen parametrischen Begriffen gruppiert werden. Notice Privatehat einen Eintrag in der ersten Tabelle, aber in der zweiten Tabelle ist der Eintrag leer. Dies liegt daran, dass Privatees sich um einen streng parametrischen Begriff handelt. es ist eine Faktorvariable und daher einem geschätzten Parameter zugeordnet, der die Wirkung von darstellt Private. Der Grund, warum die glatten Terme in zwei Arten von Effekten unterteilt sind, besteht darin, dass Sie mit dieser Ausgabe entscheiden können, ob ein glatter Term vorliegt

  1. ein nichtlinearer Effekt : Sehen Sie sich die nichtparametrische Tabelle an und bewerten Sie die Signifikanz. Bei Signifikanz als glatten nichtlinearen Effekt belassen. Wenn nicht signifikant, betrachten Sie den linearen Effekt (2. unten)
  2. Ein linearer Effekt : Sehen Sie sich die Parametertabelle an und beurteilen Sie die Bedeutung des linearen Effekts. Wenn bedeutende Sie den Begriff in eine glatte drehen kann s(x)-> xin der Formel beschreibt das Modell. Wenn dies nicht von Belang ist, sollten Sie in Betracht ziehen, den Begriff vollständig aus dem Modell zu streichen (seien Sie jedoch vorsichtig damit - das bedeutet, dass der wahre Effekt == 0 ist).

Parametrische Tabelle

Die Einträge hier entsprechen denen, die Sie erhalten würden, wenn Sie ein lineares Modell anpassen und die ANOVA-Tabelle berechnen würden, mit der Ausnahme, dass keine Schätzungen für zugeordnete Modellkoeffizienten angezeigt werden. Anstelle von geschätzten Koeffizienten und Standardfehlern und zugehörigen t- oder Wald-Tests wird der Betrag der erklärten Varianz (in Form von Quadratsummen) neben F-Tests angezeigt. Wie bei anderen Regressionsmodellen, die mit mehreren Kovariaten (oder Funktionen von Kovariaten) ausgestattet sind, hängen die Einträge in der Tabelle von den anderen Begriffen / Funktionen im Modell ab.

Nichtparametrischer Tisch

Die nichtparametrischen Effekte beziehen sich auf die nichtlinearen Teile der angepassten Glätter. Keiner dieser nichtlinearen Effekte ist mit Ausnahme des nichtlinearen Effekts von signifikant Expend. Es gibt Hinweise auf einen nichtlinearen Effekt von Room.Board. Jedes von diesen ist mit einer Reihe von nicht parametrischen Freiheitsgraden verbunden ( Npar Df) und sie erklären ein Ausmaß an Variation in der Antwort, deren Ausmaß über einen F-Test bewertet wird (standardmäßig siehe Argument test).

Diese Tests im nichtparametrischen Abschnitt können als Test der Nullhypothese einer linearen Beziehung anstelle einer nichtlinearen Beziehung interpretiert werden .

Die Art und Weise, wie Sie dies interpretieren können, ist, dass nur ExpendWarrants als glatter nichtlinearer Effekt behandelt werden. Die anderen Glättungen könnten in lineare parametrische Terme umgewandelt werden. Möglicherweise möchten Sie überprüfen, ob die Glättung von Room.Boardweiterhin einen nicht signifikanten nicht parametrischen Effekt hat, wenn Sie die anderen Glättungen in lineare, parametrische Terme konvertieren. es kann sein, dass der Effekt von Room.Boardleicht nichtlinear ist, dies wird jedoch durch das Vorhandensein der anderen glatten Terme im Modell beeinflusst.

Ein Großteil davon könnte jedoch von der Tatsache abhängen, dass viele Smooths nur 2 Freiheitsgrade verwenden durften. warum 2?

Automatische Auswahl der Glätte

Neuere Ansätze zum Anpassen von GAMs würden den Grad der Glätte für Sie über automatische Glättungsauswahlansätze wie den bestraften Spline-Ansatz von Simon Wood auswählen, der im empfohlenen Paket mgcv implementiert ist :

data(College, package = 'ISLR')
library('mgcv')

set.seed(1)
nr <- nrow(College)
train <- with(College, sample(nr, ceiling(nr/2)))
College.train <- College[train, ]
m <- mgcv::gam(Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) + 
               s(Expend) + s(Grad.Rate), data = College.train,
               method = 'REML')

Die Modellzusammenfassung ist prägnanter und betrachtet die Glättungsfunktion direkt als Ganzes und nicht als linearen (parametrischen) und nichtlinearen (nichtparametrischen) Beitrag:

> summary(m)

Family: gaussian 
Link function: identity 

Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) + 
    s(Expend) + s(Grad.Rate)

Parametric coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8544.1      217.2  39.330   <2e-16 ***
PrivateYes    2499.2      274.2   9.115   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Approximate significance of smooth terms:
                 edf Ref.df      F  p-value    
s(Room.Board)  2.190  2.776 20.233 3.91e-11 ***
s(PhD)         2.433  3.116  3.037 0.029249 *  
s(perc.alumni) 1.656  2.072 15.888 1.84e-07 ***
s(Expend)      4.528  5.592 19.614  < 2e-16 ***
s(Grad.Rate)   2.125  2.710  6.553 0.000452 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

R-sq.(adj) =  0.794   Deviance explained = 80.2%
-REML = 3436.4  Scale est. = 3.3143e+06  n = 389

In der Ausgabe werden nun die Glättungsterme und die parametrischen Terme in separaten Tabellen zusammengefasst, wobei letztere eine bekanntere Ausgabe erhalten, die der eines linearen Modells ähnelt. Der gesamte Effekt der Glättungsbedingungen ist in der unteren Tabelle dargestellt. Dies sind nicht die gleichen Tests wie für das gam::gamgezeigte Modell. Sie sind Tests gegen die Nullhypothese, dass der Glättungseffekt eine flache horizontale Linie, ein Nulleffekt oder ein Nulleffekt ist. Die Alternative ist, dass sich der wahre nichtlineare Effekt von Null unterscheidet.

Beachten Sie, dass die EEFs alle größer als 2 sind, mit Ausnahme von s(perc.alumni), was darauf hindeutet, dass das gam::gamModell möglicherweise etwas restriktiv ist.

Die angepassten Glättungen zum Vergleich sind gegeben durch

plot(m, pages = 1, scheme = 1, all.terms = TRUE, seWithMean = TRUE)

was produziert

Bildbeschreibung hier eingeben

Die automatische Auswahl der Glätte kann auch so gewählt werden, dass Ausdrücke vollständig aus dem Modell entfernt werden:

Danach sehen wir, dass sich die Modellanpassung nicht wirklich geändert hat

> summary(m2)

Family: gaussian 
Link function: identity 

Formula:
Outstate ~ Private + s(Room.Board) + s(PhD) + s(perc.alumni) + 
    s(Expend) + s(Grad.Rate)

Parametric coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   8539.4      214.8  39.755   <2e-16 ***
PrivateYes    2505.7      270.4   9.266   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Approximate significance of smooth terms:
                 edf Ref.df      F  p-value    
s(Room.Board)  2.260      9  6.338 3.95e-14 ***
s(PhD)         1.809      9  0.913  0.00611 ** 
s(perc.alumni) 1.544      9  3.542 8.21e-09 ***
s(Expend)      4.234      9 13.517  < 2e-16 ***
s(Grad.Rate)   2.114      9  2.209 1.01e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

R-sq.(adj) =  0.794   Deviance explained = 80.1%
-REML = 3475.3  Scale est. = 3.3145e+06  n = 389

Alle Glättungen scheinen leicht nichtlineare Effekte zu suggerieren, selbst nachdem wir die linearen und nichtlinearen Teile der Splines verkleinert haben.

Persönlich finde ich die Ausgabe von mgcv einfacher zu interpretieren, und weil gezeigt wurde, dass die automatischen Auswahlmethoden für die Glätte eher zu einem linearen Effekt passen, wenn dies von den Daten unterstützt wird.


4
+1 Gute Erklärung. (Ich bin neugierig, was Sie mit einem "nichtparametrischen F-Test" meinen: Wie würde er sich, wenn überhaupt, von einem Standard-F-Test unterscheiden?)
whuber

4
@whuber das ist nur schlechte Phrasierung; Es ist ein Standard-F-Test, aber aufgrund der Zerlegung von Glättungen in lineare und nichtlineare Teile handelt es sich um Tests dessen, was der Ausgang als "nichtparametrisches" Bit bezeichnet. Ich werde das bearbeiten.
Setzen Sie Monica - G. Simpson

3
p-Werte funktionieren nicht so; Damit der Test überhaupt durchgeführt werden kann, haben wir angenommen, dass die Nullhypothese wahr ist . Der Test geht davon aus, dass die Beziehung linear ist. Inwieweit widersprechen die Daten dieser Annahme? Wenn der von den Daten erbrachte Beweis mit dem übereinstimmt, was wir erwarten, wenn die Null wahr wäre. Wenn die Beweise nicht mit der Nullhypothese übereinstimmen, ist es unwahrscheinlich, dass wir die Daten, die wir gemacht haben, beobachtet haben, wenn die Null wahr wäre. Der p-Wert ist ein Maß für den Beweis gegen die Null.
Setzen Sie Monica - G. Simpson

1
Sie sagen über die parametrische Tabelle: "Einträge hier sind im Wesentlichen das, was Sie erhalten würden, wenn Sie dies als lineares Modell anpassen und die ANOVA-Tabelle berechnen würden." Ich gehe davon aus, dass dies nicht wörtlich zutrifft (dh, dass der nichtlineare Teil des Modells die Signifikanzschätzungen für den linearen Teil überhaupt nicht beeinflusst). Sicher wird die Schätzung des linearen und des nichtlinearen Teils gemeinsam durchgeführt, und der nichtlineare Teil beeinflusst die Koeffizienten für den linearen Teil sowie deren Bedeutung, richtig?
Jacob Socolar

1
@JacobSocolar Soweit ich weiß, ist der Spline in eine lineare Komponente und einige nichtlineare Komponenten zerlegbar (deren Anzahl von den für den Spline zulässigen Freiheitsgraden abhängt). Was ich damit meinte, war, dass dies die Art der Ausgabe ist, die Sie von einer linearen Modellanpassung gefolgt von einer ANOVA (dh einem F-Test für das mittlere Quadrat) erhalten würden. Aber ja, dies sind Teileffekte in dem Sinne, dass die Varianz, die durch einen Teil des Modells erklärt wird, von den anderen Begriffen (& Basisfunktionen) im Modell abhängt. Und ja, ich habe dieses Zitat nicht wörtlich gemeint; Ich werde umformulieren, um "zu mögen, was Sie ...".
Setzen Sie Monica - G. Simpson
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.