Ich arbeite an einem prädiktiven Kostenmodell, bei dem das Alter des Patienten (eine in Jahren gemessene ganzzahlige Größe) eine der Prädiktorvariablen ist. Ein starker nichtlinearer Zusammenhang zwischen Alter und Risiko eines Krankenhausaufenthaltes ist offensichtlich:
Ich denke über einen bestraften Regressionsglättungs-Spline für das Alter des Patienten nach. Gemäß The Elements of Statistical Learning (Hastie et al., 2009, S.151) beträgt die optimale Knotenplatzierung einen Knoten pro eindeutigem Wert des Mitgliedsalters.
Ist der bestrafte Glättungs-Spline angesichts der Tatsache, dass ich das Alter als Ganzzahl behalte, gleichbedeutend mit einer Ridge-Regression oder einem Lasso mit 101 verschiedenen Altersindikatorvariablen, eine pro Alterswert im Datensatz (minus eine als Referenz)? Eine Überparametrisierung wird dann vermieden, da die Koeffizienten für jeden Altersindikator gegen Null geschrumpft werden.