Spline df Auswahl in einem allgemeinen additiven Poisson-Modellproblem


9

Ich habe einige Zeitreihendaten mit einem allgemeinen additiven Poisson-Modell unter Verwendung von SAS angepasst PROC GAM. Im Allgemeinen habe ich durch das integrierte verallgemeinerte Kreuzvalidierungsverfahren mindestens einen anständigen "Startpunkt" für meinen einzelnen Spline generiert, der eine nichtlineare Funktion der Zeit zusammen mit einem einzelnen parametrischen Term (dem I) ist bin eigentlich interessiert an).

Bisher hat es mit Ausnahme eines meiner Datensätze ziemlich gut funktioniert. Dieser Datensatz enthält 132 Beobachtungen, und GCV schlägt einen Spline von 128 Freiheitsgraden vor. Das scheint ... falsch. Sehr falsch. Noch wichtiger ist, dass es auch überhaupt nicht stabil ist. Ich habe einen zweiten Ansatz versucht und dabei so etwas wie ein "Change in Estimation" -Kriterium verwendet, um das Hinzufügen von Freiheitsgraden zu beenden, wenn sich die Schätzung des parametrischen Terms nicht mehr ändert. Warum sollte ich weiterhin die Kontrolle hinzufügen, wenn nichts anders ist?

Das Problem ist, dass die Schätzung überhaupt nicht stabil ist. Ich habe die folgenden Freiheitsgrade ausprobiert, und wie Sie sehen können, springt der parametrische Begriff wild herum:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

Ich habe überhaupt keine Ahnung, was ich in Bezug auf df für dieses bestimmte Datenbit verwenden sollte. Irgendwelche anderen Ideen, wie man einen df wählt? Sollte ich mir die Bedeutung des Splines ansehen?

Wenn Sie mehr zwischen df = 10 und df = 15 suchen, sieht es so aus, als ob df = 12 der von 128 generierten Schätzung am nächsten kommt und sich immer noch im Bereich "angemessene Freiheitsgrade" befindet. Zusammen mit dem linearen Term, dem Achsenabschnitt und dem einzelnen parametrischen Term fühlt sich das wie ein ziemlich stark gesättigtes Modell an. Ist es gerechtfertigt, nur mit 12 zu gehen?

Als zweites Update führt das Ändern der Glättung von spline(t)auf loess(t)zu viel besser verhaltenen df-Schätzungen - sollte ich einfach auf Lössglättung umsteigen?


Gibt es in Ihrem Datensatz mit 132 Beobachtungen einen zugehörigen Zähl- und Versatzterm, was bedeutet, dass es sich tatsächlich um einen gewichteten Datensatz mit mehr als 132 Beobachtungen handelt? Aufgrund der mittleren Varianzbeziehung in Poisson-Wohnmobilen können große Zählungen zu Eigenschaften der "Modellauswahl" führen, die aufgrund der "großen Stichprobengröße" ungünstig sind.
AdamO

Der Datensatz besteht aus 132 Wochen Daten, modelliert als Anzahl = Modellbegriffe + Protokoll (Personenzeit) als Offset. Die Anzahl ist nie besonders hoch - aber es gibt eine ganze Reihe von Nullen.
Fomite

Antworten:


5

λλλ

Wood (2011) zeigt auch, dass AICc für Basen mit niedrigem bis mittlerem Rang, die für die glatten Funktionen verwendet werden, keinen großen zusätzlichen Vorteil gegenüber GCV bietet .

λ

Wood (2011) beschreibt schnelle und stabile REML- und ML-Schätzverfahren, von denen er zeigt, dass sie sich in Bezug auf die Konvergenz gegenüber bestehenden REML (ML) -Ansätzen verbessern. Diese Ideen sind in Simons mgcv- Paket für R verfügbar .

Da Wood (2011) hinter einer Paywall steht, füge ich eine Kopie eines ähnlichen Bildes (die AICc-Ergebnisse werden hier nicht angezeigt) hinzu, das aus einer Reihe von Simons Folien stammt, die auf seiner Website zu Auswahlmethoden für die Glätte {PDF} verfügbar sind . Die Abbildung von Folie 10 ist unten dargestellt

Geben Sie hier die Bildbeschreibung ein

λλλ

y=f(x)+ε

Wie sowohl @ M.Berk als auch @BrendenDufault erwähnen, kann beim Einrichten der Spline-Basis ein gewisses Maß an Subjektivität erforderlich sein, um eine geeignete Basisdimension für die Anpassung an das GAM auszuwählen. Die Auswahl der REML-Glätte hat sich jedoch nach meiner Erfahrung in einer Reihe von GAM-Anwendungen mit Woods Methoden als ziemlich robust erwiesen.

Wood, SN (2011) Schnelle stabile eingeschränkte Maximum-Likelihood- und Marginal-Likelihood-Schätzung von semiparametrischen verallgemeinern lineare Modelle . J. Royal Statistical Society B 73 (Teil 1), 3-6.


@EpiGrad Willkommen. Entschuldigung, ich habe die Frage damals verpasst. In den letzten ein oder zwei Jahren hatte ich mit ähnlichen Situationen zu kämpfen und habe die Artikel von Simon Wood zu diesem Thema und die Auswahl von Funktionen mehrmals gelesen. Ich bin froh, dass ich mich an einige Details erinnern konnte, um zu helfen.
Gavin Simpson

3

Ich denke, Ihre beste Wahl liegt außerhalb der Glättungsalgorithmen. Betrachten Sie Modell Sparsamkeit.

Sie spielen darauf an, aber ich glaube, es muss Ihr Hauptauswahlkriterium werden. Fragen Sie sich, wie viele "Biegungen" aufgrund der Ätiologie / Kausalität der modellierten Prozesse vernünftig erscheinen. Stellen Sie die angepassten Splines mit der plots=components(clm)Aussage grafisch dar und bewerten Sie die Passform visuell. Vielleicht erzählen die Splines mit hohem DF eine ähnliche Geschichte wie die Splines mit niedrigem DF, außer lauter. Wählen Sie in diesem Fall eine niedrige DF-Anpassung.

Schließlich sollen GAM-Modelle explorativ sein.

Nachdem ich die gcv- Option selbst verwendet habe, frage ich mich über ihre Leistung unter Poisson-Bedingungen, spärlichen Daten usw. Vielleicht ist hier eine Simulationsstudie fällig.


2

Ich tippte die folgende Antwort ein und stellte dann fest, dass ich keine Ahnung habe, ob sie auf die Poisson-Regression anwendbar ist, mit der ich keine Erfahrung habe. Vielleicht können die Leute das mit einigen Kommentaren beantworten.


Persönlich mag ich den Rat von BW Silverman (1985) "Einige Aspekte des Spline-Glättungsansatzes für die nichtparametrische Regressionskurvenanpassung (mit Diskussion)." (Verfügbar ohne Abonnement hier ): versuchen , eine Reihe von Glättungsparametern und das auswählen , welches visuell ansprechend.

Wie er auch in derselben Veröffentlichung zu Recht betont, besteht zwar ein subjektiver Ansatz, es besteht jedoch weiterhin Bedarf an automatischen Methoden. GCV ist jedoch im Allgemeinen eine schlechte Wahl, da es dazu neigt, zu glätten. Siehe zum Beispiel Hurvich et al. (1998) "Glättungsparameterauswahl bei nichtparametrischer Regression unter Verwendung eines verbesserten Akaike-Informationskriteriums" ( hier ohne Abonnement erhältlich ). In demselben Artikel schlagen sie ein neues Kriterium vor, das Ihr Problem lindern kann, den korrigierten AIC, der eine kleine Korrektur der Stichprobengröße enthält. Die Wikipedia-Beschreibung von AICc ist möglicherweise leichter zu befolgen als das Papier. Der Wikipedia-Artikel enthält auch einige gute Ratschläge von Burnham & Anderson (dh verwenden Sie AICc anstelle von AIC, unabhängig von der Stichprobengröße).

Zusammenfassend wären meine Vorschläge in der Reihenfolge ihrer Präferenz:

  1. Wählen Sie den Glättungsparameter manuell durch visuelle Beurteilung
  2. Verwenden Sie den korrigierten AIC (AICc) anstelle des GCV
  3. Verwenden Sie den Standard-AIC
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.