Sie haben im Grunde Recht mit der Datenorganisation. Wenn Sie Fälle wie folgt organisiert haben:
ID M1 M2 M3 EVENT
Möglicherweise möchten Sie die Daten so neu organisieren, dass sie folgendermaßen aussehen:
ID TIME EVENT
1 1 0
1 2 1
1 3 1
2 1 0
2 2 0
. . .
. . .
Ich nenne das eine Konvertierung von einem Breitformat in ein Langformat. Dies geschieht einfach in R mit der reshape()
Funktion oder noch einfacher mit dem reshape2
Paket.
Ich persönlich würde das ID
Feld für seine mögliche Verwendung bei der Identifizierung einer Variationsquelle in einem Modell mit gemischten Effekten behalten . Dies ist jedoch nicht erforderlich (wie von @BerndWeiss hervorgehoben). Im Folgenden wird davon ausgegangen, dass Sie dies möchten. Wenn nicht, passen Sie ein ähnliches Modell mit glm(...,family=binomial)
ohne die zufälligen Effektterme an.
Das lme4
Paket in R passt zu einem logistischen Regressionsmodell mit gemischten Effekten, das dem Modell ähnelt, von dem Sie sprechen, außer mit ein oder zwei zufälligen Effekten, um die Variabilität der Koeffizienten zwischen den Subjekten zu berücksichtigen ( ID
). Das Folgende wäre ein Beispielcode zum Anpassen eines Beispielmodells, wenn Ihre Daten in einem aufgerufenen Datenrahmen gespeichert sind df
.
require(lme4)
ans <- glmer(EVENT ~ TIME + (1+TIME|ID), data=df, family=binomial)
Dieses spezielle Modell ermöglicht es, dass die TIME
und die intercept
Koeffizienten über die ID zufällig variieren. Mit anderen Worten, dies ist ein hierarchisches lineares gemischtes Modell von Messungen, die in Individuen verschachtelt sind.
Eine alternative Form eines diskreten Zeitereignisverlaufsmodells zerfällt TIME
in diskrete Dummies und passt jeweils als Parameter an. Dies ist im Wesentlichen der diskrete Fall des Cox-PH-Modells, da die Gefahrenkurve nicht darauf beschränkt ist, linear (oder quadratisch, oder wie auch immer Sie sich eine Transformationszeit vorstellen können) zu sein. Möglicherweise möchten Sie jedoch TIME
eine überschaubare Gruppe (dh kleine) diskreter Zeiträume gruppieren , wenn viele vorhanden sind.
Weitere Alternativen sind die Transformation der Zeit, um Ihre Gefahrenkurve richtig zu machen. Die vorherige Methode erspart Ihnen dies grundsätzlich, aber die vorherige Methode ist weniger sparsam als diese (und der ursprüngliche lineare Fall, den ich gestellt habe), da Sie möglicherweise viele Zeitpunkte und damit viele Störparameter haben.
Eine hervorragende Referenz zu diesem Thema ist die angewandte Längsschnittdatenanalyse von Judith Singer und John Willet : Modellierung von Veränderungen und Ereignisereignissen .
self-study
Tag hinzu.)