Wann werden verallgemeinerte Schätzungsgleichungen im Vergleich zu Modellen mit gemischten Effekten verwendet?


63

Ich verwende seit einiger Zeit sehr gerne Mixed-Effects-Modelle mit Längsschnittdaten. Ich wünschte, ich könnte AR-Beziehungen in lmer einpassen (ich denke, ich habe Recht, dass ich das nicht kann?), Aber ich denke nicht, dass es verzweifelt wichtig ist, also mache ich mir keine allzu großen Sorgen.

Ich bin gerade auf verallgemeinerte Schätzungsgleichungen (GEE) gestoßen, und sie scheinen viel flexibler zu sein als ME-Modelle.

Gibt es einen Ratschlag, der für verschiedene Aufgaben besser geeignet ist, wenn die Gefahr besteht, dass eine allzu allgemeine Frage gestellt wird? Ich habe einige Papiere gesehen, die sie verglichen haben, und sie haben normalerweise die Form:

"Verwenden Sie in diesem hochspezialisierten Bereich keine GEEs für X, keine ME-Modelle für Y".

Ich habe keine allgemeineren Ratschläge gefunden. Kann mich jemand aufklären?

Danke!


1
"Sie scheinen viel mehr Flexibilität zu bieten" ... Nun, sie unterscheiden sich auch in ihrem Ansatz, da GEEs verwendet werden, um eine marginale Verteilung anzupassen, im Gegensatz zu dem bedingten Ansatz, der bei der Verwendung von GLMM häufig von Interesse ist.
chl


Beachten Sie, dass glmmPQLauch AR-Korrelationsstrukturen passen können
Tom Wenseleers

Was ist eine AR-Beziehung?
Lernstatistiken

@incodeveritas Autoregressive Kovarianzstruktur
Tommyixi

Antworten:


56

Verwenden Sie GEE, wenn Sie den durchschnittlichen Effekt einer Kovariate im Vergleich zum individuellen Effekt ermitteln möchten. Diese beiden Dinge sind nur in linearen Modellen äquivalent, nicht jedoch in nichtlinearen (z. B. logistischen). Um dies zu sehen, nehmen Sie zum Beispiel das logistische Zufallseffektmodell der -ten Beobachtung des -ten Subjekts, ;i y i jjiYij

log(pij1pij)=μ+ηi

Dabei ist ein zufälliger Effekt für das Subjekt und .ηiN(0,σ2)ipij=P(Yij=1|ηi)

Wenn Sie ein Zufallseffektmodell für diese Daten verwenden, erhalten Sie eine Schätzung von , die die Tatsache berücksichtigt, dass auf jedes Individuum eine normalverteilte Störung mit einem Mittelwert von Null angewendet wurde, wodurch es für jedes Individuum spezifisch wird.μ

Wenn Sie GEE für diese Daten verwenden, würden Sie die durchschnittlichen Log-Quoten der Grundgesamtheit schätzen. In diesem Fall wäre das

ν=log(Eη(11+eμηi)1Eη(11+eμηi))

νμ , im Allgemeinen. Wenn zum Beispiel und , dann . Obwohl die zufälligen Effekte auf der transformierten (oder verknüpften ) Skala einen Mittelwert von Null haben , ist ihr Effekt auf der ursprünglichen Skala der Daten nicht gleich Null. Versuchen Sie, einige Daten aus einem logistischen Regressionsmodell mit gemischten Effekten zu simulieren und den Bevölkerungsdurchschnitt mit dem Invers-Logit des Abschnitts zu vergleichen, und Sie werden feststellen, dass sie nicht gleich sind, wie in diesem Beispiel. Dieser Unterschied in der Interpretation der Koeffizienten ist der grundlegende Unterschied zwischen GEE- und Zufallseffektmodellen .μ=1σ2=1ν.83

Bearbeiten: Im Allgemeinen kann ein Modell mit gemischten Effekten ohne Prädiktoren als geschrieben werden

ψ(E(Yij|ηi))=μ+ηi

Dabei ist eine Verknüpfungsfunktion. Wann immerψ

ψ(Eη(ψ1(E(Yij|ηi))))Eη(E(Yij|ηi))

Es wird einen Unterschied zwischen den Populationsdurchschnittskoeffizienten (GEE) und den einzelnen spezifischen Koeffizienten (Zufallseffektmodelle) geben. Das heißt, die Durchschnittswerte ändern sich, indem die Daten transformiert, die zufälligen Effekte auf der transformierten Skala integriert und dann zurücktransformiert werden. Beachten Sie, dass im linearen Modell ( ) die Gleichheit gilt, sodass sie äquivalent sind.ψ(x)=x

Bearbeiten 2: Es ist auch erwähnenswert, dass die von einem GEE-Modell erzeugten "robusten" Standardfehler vom Sandwich-Typ gültige asymptotische Konfidenzintervalle liefern (z. B. decken sie tatsächlich 95% der Zeit ab), auch wenn die im Modell angegebene Korrelationsstruktur nicht vorliegt richtig.

Bearbeiten 3: Wenn Sie die Assoziationsstruktur in den Daten verstehen möchten, sind die GEE-Schätzungen der Assoziationen notorisch ineffizient (und manchmal inkonsistent). Ich habe eine Referenz dafür gesehen, kann sie aber derzeit nicht platzieren.


3
(+1) Bei Ihrer zweiten Bearbeitung würde ich hinzufügen, dass modellbasierte Varianzschätzer mit einer kleinen Anzahl von Clustern besser funktionieren (oder wir können einen Jacknife-Schätzer verwenden). Als Referenz verweise ich immer auf gbi.agrsci.dk/statistics/courses/phd07/material/Day10 , das sehr schöne Vorlesungsnotizen enthält (stat. Hintergrund, einschließlich eines Vergleichs von GEE- und GLMM-Ansätzen + Illustrationen in R) .
Chl

Wow, was für eine großartige Antwort. Vielen Dank. Das ist genau das, wonach ich gesucht habe. Und danke auch an chl für den Link. +10 internets an euch beide.
Chris Beeley

Gehen GEEs nicht auch davon aus, dass die höheren Effekte Störparameter sind? Es scheint mir, dass dies ein weiterer wichtiger Unterschied ist - wenn man an diesen Effekten interessiert ist, würde GEE es Ihnen nicht geben. Alternativ wäre GEE vorzuziehen, wenn Sie mit diesen Verteilungsannahmen nicht vertraut sind.
robin.datadrivers

Der Link, den @chl zur Verfügung stellte, ist tot: / (Sechs Jahre später ist irgendwie zu erwarten, oder?)
Guilherme Marthe

@GuilhermeMarthe Guter Fang! Leider habe ich das gleiche Material in einem anderen Thread verlinkt . Ich sehe zwei Möglichkeiten: Verweisen Sie auf das Geopack- R-Paket (von denselben beiden Autoren entwickelt) oder verwenden Sie vorerst die WayBack-Maschine .
chl

10

Meiner Meinung nach ist GEE am nützlichsten, wenn wir keine Bayes'sche Modellierung verwenden und keine vollständige Wahrscheinlichkeitslösung verfügbar ist. Außerdem erfordert GEE möglicherweise größere Stichprobengrößen, um ausreichend genau zu sein, und es ist sehr unempfindlich gegenüber nicht zufällig fehlenden Längsschnittdaten. GEE geht davon aus, dass das Fehlen völlig zufällig ist, während Likelihood-Methoden (z. B. gemischte Effektmodelle oder verallgemeinerte kleinste Fehlerquadrate) das Fehlen nur zufällig annehmen.


1

Eine ausführliche Diskussion und konkrete Beispiele finden Sie in Fitzmaurice, Laird and Ware, Angewandte Längsschnittanalyse , John Wiley & Sons, 2011, 2. Auflage, Kapitel 11-16.

Zu den Beispielen finden Sie Datensätze und SAS / Stata / R-Programme auf der zugehörigen Website .


2
Können Sie die wichtigsten Punkte dieses Buches zusammenfassen?
Chl

2
Ich würde sagen, dass Macro es bereits geschafft hat ;-) In dem Buch finden Sie eine längere und ausführlichere Diskussion, einige analytische, numerische und grafische Beispiele und einige weitere Punkte, darunter das, was Frank Harrell hinzugefügt hat. Sie können sich auch Gelmans Blog ansehen .
Sergio
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.