GEE: Auswahl der richtigen Korrelationsstruktur


19

Ich bin ein Epidemiologe, der versucht, GEEs zu verstehen, um eine Kohortenstudie richtig zu analysieren (unter Verwendung der Poisson-Regression mit einem Log-Link, um das relative Risiko abzuschätzen). Ich habe ein paar Fragen zur "funktionierenden Korrelation", die ich von einem Fachmann klären lassen möchte:

(1) Ist es in der Regel am sinnvollsten, eine austauschbare Struktur anzunehmen, wenn ich bei derselben Person wiederholte Messungen durchgeführt habe? (Oder ein Autoregressiv, wenn Messungen einen Trend zeigen)? Was ist mit Unabhängigkeit - gibt es Fälle, in denen man für Messungen an ein und derselben Person Unabhängigkeit annehmen könnte?

(2) Gibt es eine (einigermaßen einfache) Möglichkeit, die ordnungsgemäße Struktur durch Prüfung der Daten zu beurteilen?

(3) Ich habe festgestellt, dass ich bei der Auswahl einer Unabhängigkeitsstruktur die gleichen Punktschätzungen erhalte (aber geringere Standardfehler) wie bei der Ausführung einer einfachen Poisson-Regression (mit R, Funktion glm()und geeglm()aus Paket geepack). Warum passiert das? Ich verstehe, dass Sie mit GEEs ein bevölkerungsgemitteltes Modell schätzen (im Gegensatz zu subjektspezifisch), sodass Sie nur im Fall der linearen Regression die gleichen Punktschätzungen erhalten sollten.

(4) Wenn sich meine Kohorte an mehreren Standorten befindet (aber eine Messung pro Person), sollte ich eine Unabhängigkeit oder eine austauschbare Arbeitskorrelation wählen und warum? Ich meine, Individuen an jedem Standort sind immer noch unabhängig voneinander, oder? So würde ich zum Beispiel für ein fachspezifisches Modell die Site als zufälligen Effekt angeben. Bei GEE ergeben Unabhängigkeit und Austauschbarkeit jedoch unterschiedliche Schätzungen, und ich bin nicht sicher, welche hinsichtlich der zugrunde liegenden Annahmen besser ist.

(5) Kann GEE ein hierarchisches Clustering auf 2 Ebenen durchführen, dh eine Kohorte mit mehreren Standorten mit wiederholten Messungen pro Person? Wenn ja, was sollte ich als Clustering-Variable angeben geeglm()und wie sollte die funktionierende Korrelation aussehen, wenn man zum Beispiel "Unabhängigkeit" für die erste Ebene (Standort) und "austauschbar" oder "autoregressiv" für die zweite Ebene (individuell) annimmt?

Ich verstehe, dass dies eine ganze Reihe von Fragen sind, von denen einige recht einfach sind, aber für mich (und vielleicht auch für andere Neulinge?) Immer noch sehr schwierig zu erfassen sind. Daher wird jede Hilfe sehr und aufrichtig geschätzt, und um dies zu zeigen, habe ich ein Kopfgeld ausgesetzt.

Antworten:


12
  1. Nicht unbedingt. Bei kleinen Clustern, unausgewogenem Design und unvollständiger Anpassung der Confounder innerhalb des Clusters ist die austauschbare Korrelation möglicherweise ineffizienter und voreingenommener als die unabhängige GEE. Diese Annahmen können auch ziemlich stark sein. Wenn diese Annahmen jedoch erfüllt sind, erhalten Sie effizientere Rückschlüsse auf das Austauschbare. Ich habe noch nie einen Fall gefunden, in dem AR-1-Korrelationsstrukturen sinnvoll sind, da es ungewöhnlich ist, zeitlich ausgeglichene Messungen durchzuführen (ich arbeite mit Daten menschlicher Subjekte).

  2. Die Untersuchung der Korrelation ist gut und sollte in der Datenanalyse durchgeführt werden. Jedoch sollte es wirklich nicht führen Entscheidungsfindung. Sie können Variogramme und Lorellogramme verwenden, um die Korrelation in Längsschnitt- und Panel-Studien zu visualisieren. Die Intracluster-Korrelation ist ein gutes Maß für das Ausmaß der Korrelation innerhalb von Clustern.

  3. Die Korrelationsstruktur in GEE wirkt sich im Gegensatz zu gemischten Modellen nicht auf die Randparameterschätzungen aus (die Sie mit GEE schätzen). Dies wirkt sich jedoch auf die Standardfehlerschätzungen aus. Dies ist unabhängig von einer Verknüpfungsfunktion. Die Link-Funktion im GEE ist für das Randmodell.

  4. Standorte können Ursachen für nicht gemessene Abweichungen sein, z. B. Zähne in einem Mund oder Schüler in einem Schulbezirk. Da diese Daten möglicherweise auf Cluster-Ebene störend wirken, z. B. die genetische Neigung zu Karies oder die Finanzierung von Gemeindebildungen, erhalten Sie bessere Standardfehlerschätzungen, wenn Sie eine austauschbare Korrelationsstruktur verwenden.

  5. Die Berechnung von Randeffekten in einem GEE ist kompliziert, wenn sie nicht verschachtelt sind, aber möglich sind . Schachteln ist einfach und Sie tun genau das, was Sie gesagt haben.


(Bezüglich # 5) Im Falle von verschachteltem Clustering wählt man einfach die Cluster-Variable der obersten Ebene und das wars?
Theodore Lytras

Nein, Sie können eine hierarchische, austauschbare Korrelationsstruktur mit zwei Ebenen erstellen und die beiden separaten Korrelationsparameter für die Korrelation mithilfe eines dreistufigen EM-Algorithmus konsistent abschätzen. Auf diese Weise würden Sie wissen, dass Kinder in Gemeinschaften korreliert sind, aber nicht so korreliert wie Kinder in einem Haushalt.
AdamO

Entschuldigung, ich verstehe das nicht. Könnten Sie mich auf einen Code hinweisen, vorzugsweise in R oder Stata? Ich denke, das sollte helfen.
Theodore Lytras

1
@TheodoreLytras Entschuldigung, ich habe mich geirrt. Ihre vorherige Behauptung ist richtig. Aus dem Artikel, den ich verlinkt habe: "Wenn außerdem mehrere Cluster perfekt verschachtelt sind, wird die mehrstufige Korrelationsstruktur durch den Sandwich-Varianzschätzer durch GEE-Clustering auf dem Cluster der obersten Ebene berücksichtigt."
AdamO

1
Vielleicht meinen Sie etwas anderes, aber wenn Sie angeben, dass "die Korrelationsstruktur in GEE im Gegensatz zu gemischten Modellen die Grenzparameterschätzungen nicht beeinflusst", ist dies meiner Meinung nach nicht der Fall. Zumindest, wenn Sie meinen, dass die Koeffizienten durch Auswahl einer anderen Arbeitskorrelationsmatrix unverändert bleiben, passiert dies nicht: Die Korrelationsmatrix arbeitet sich in der Gewichtungsmatrix durch und wirkt sich sowohl auf die Kovarianzmatrix als auch auf die Koeffizienten aus.
Nick

6

(1) Sie werden wahrscheinlich eine Art autoregressive Struktur benötigen, weil wir davon ausgehen, dass weiter auseinander liegende Messungen weniger korrelieren als diejenigen, die näher beieinander liegen. Austauschbar würde annehmen, dass sie alle gleich korreliert sind. Aber wie bei allem anderen kommt es darauf an.

(2) Ich denke, diese Art von Entscheidung hängt davon ab, wie die Daten generiert wurden, anstatt zu sehen, wie sie aussehen.

(4) es kommt darauf an. Beispielsweise sollten Kinder, die in Schulen untergebracht sind, in den meisten Fällen nicht als unabhängig behandelt werden. Wenn ich aufgrund sozialer Muster etwas über ein Kind in einer bestimmten Schule weiß, dann weiß ich wahrscheinlich zumindest ein bisschen über andere Kinder in den Schulen. Ich habe GEE einmal verwendet, um die Beziehungen zwischen verschiedenen sozialen und wirtschaftlichen Indikatoren und der Adipositasprävalenz in einer Geburtskohorte zu untersuchen, in der die Teilnehmer in Stadtvierteln untergebracht waren. Ich habe eine austauschbare Struktur verwendet. Sie können das Papier hier finden und einige der Referenzen überprüfen, darunter 2 aus Epi-Zeitschriften.

(5) Anscheinend (siehe z. B. dieses Beispiel ), aber ich kann nicht mit den R-Spezifikationen helfen, dies zu tun.

Zeger SL, Liang KY, Albert PS. Modelle für longitudinale Daten: ein verallgemeinerter Schätzgleichungsansatz. Biometrie. 1988; 44: 1049–60.

Hubbard AE, Ahern J., Fleischer N., van der Laan M., Lippman S., Bruckner T., Satariano W. Nach GEE oder nicht nach GEE: Vergleich von Schätzfunktion und wahrscheinlichkeitsbasierten Methoden zur Abschätzung der Assoziationen zwischen Stadtteilen und Gesundheit. Epidemiologie. 2009

Hanley JA, Negassa A., Edwardes MDB, Forrester JE. Statistische Analyse korrelierter Daten unter Verwendung verallgemeinerter Schätzgleichungen: eine Orientierung. Am J Epidemiol. 2003; 157: 364.


Dies ist in der Tat hilfreich, aber ich frage mich, warum jemand dann eine Unabhängigkeitsstruktur verwenden sollte, da Clustering per se eine gewisse Ähnlichkeit zwischen den Beobachtungen impliziert. Ich habe jedoch den Eindruck, dass die Ähnlichkeit im Fall von Schulen mit anderen Schulen besteht und dass die Schüler innerhalb jeder Schule unabhängig wären. Das ist mir immer noch nicht ganz klar.
Theodore Lytras

Ja, wenn Sie Ihre Stichproben- und Folgemodellierung auf eine einzige Schule beschränkt haben, ist dies kein Problem. In diesem Fall ist es besser anzunehmen, dass die Fehler behoben sind. Wenn Sie jedoch Kinder aus verschiedenen Schulen in einer Stichprobe / einem Modell zusammenfassen, wird diese Annahme schwierig, es sei denn, Sie berücksichtigen die Schule im Modell, dh, die schulbedingten Fehler werden als gegeben angenommen.
DL Dahly

Es ist auch erwähnenswert, dass die Leute für Sie hilfreicher sein könnten, wenn Sie einige Details in Bezug auf Stichprobengröße, Anzahl und Zeitpunkt der Wiederholungsmessungen, Anzahl der Cluster usw.
angeben könnten

2
@DLDahly Ihr Punkt in (1) ist nicht etwas, was ich oft in biostatistischen Panel-Analysen finde. Eine der Annahmen hinter AR-N-Korrelationsstrukturen ist, dass bei ausreichender Zeit zwischen ihnen zwei Messungen an demselben Individuum so unkorreliert sind wie zwei Messungen zwischen verschiedenen Individuen. Die zugrunde liegenden Hauptkonfounder zwischen den Clustern sind jedoch häufig keine zeitlich variierenden Kovariaten (wie z. B. genetische Marker), und es ist sehr schwierig (wenn nicht unmöglich), eine andere Annahme zu treffen. Ein Lorrelogramm ist jedoch ein sehr guter Ausgangspunkt.
AdamO

1

(0) Allgemeine Bemerkungen: Die meisten Modelle, die ich auf crossvalidated sehe, sind viel zu kompliziert. Vereinfachen Sie, wenn überhaupt möglich. Es lohnt sich oft, mit GEE und einem gemischten Modell zu modellieren, um die Ergebnisse zu vergleichen.
(1) ja Wählen Sie austauschbar. Meine eindeutige Antwort basiert auf dem am häufigsten angepriesenen Vorteil von GEE: Beständigkeit der Schätzungen gegenüber den getroffenen Annahmen.
Wenn Sie sich Studien in Ihrem Fachgebiet ansehen, sollten Sie feststellen, dass Austausch die Standardoption ist. Das bedeutet nicht, dass es das Beste ist, aber es sollte als erstes in Betracht gezogen werden. Ein Beratungsaustausch ist die beste Beratung, ohne dass Sie Ihre Daten genau kennen.
(2) Ja, es gibt datengetriebene Ansätze wie "QIC". Dies ist ein Beispiel von Stata, das jedoch allgemein als vernünftige Option akzeptiert wird, obwohl es in der Praxis sehr selten verwendet wird:http://www.stata-journal.com/sjpdf.html?articlenum=st0126 )
(3) Punktschätzungen sind genau die gleiche nie (es sei denn , Sie indep Korrelationsstruktur) verwenden, sondern sind in der Regel ziemlich nahe. Es gibt viele Artikel, in denen einfache / gee / mixed effects Modellschätzungen verglichen werden, um ein Gefühl dafür zu bekommen ( https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf ). Die meisten Lehrbücher haben auch eine Tabelle oder zwei dafür. Für eine unabhängige Korrelationsstruktur führen Sie im Wesentlichen das Poisson-Modell mit robusten SEs aus. Die Schätzungen werden also exakt gleich sein. Die SE sind meist größer. Aber manchmal sind robuste SE kleiner (das ist das Leben: geben Sie bei Interesse eine schmerzfreie Erklärung)
(4) Siehe (1) und (2) oben.
(5) Nein. Oder besser gesagt, Sie können alles tun, wenn Sie sich genug anstrengen, aber die Mühe lohnt sich sehr selten.


0

Sie verwenden den falschen Ansatz mit einem Ge, um das zu tun, was Sie tun, weil Sie die Struktur nicht kennen und Ihre Ergebnisse wahrscheinlich verwechselt werden. Wenden Sie sich hierzu an Jamie Robinson. Sie müssen lange verwenden. TMLE (Mark van der Laan) oder vielleicht ein Junge mit iptw-Gewichten. Wenn die Korrelation nicht berücksichtigt wird, wird die Varianz unterschätzt. Denken Sie nur, wenn alle wiederholten Messungen zu 100% korreliert wären, hätten Sie effektiv weniger Beobachtungen (im Wesentlichen nur n für Ihre n Probanden) und ein kleineres n bedeutet höhere Varianz.


Wenn Sie ein nicht überlebensfähiges Ergebnis haben, können Sie den gee-Ansatz mit unabhängiger Korrosionsstruktur und iptw-Gewichten verwenden, wie für unvoreingenommene Schätzungen vorgeschlagen, vorausgesetzt, Sie erhalten den richtigen Propensity-Score. TMLE ist in fast allen Fällen am besten geeignet, um zu überleben oder nicht, da Sie Ensemble-Lernen verwenden können, um Neigungsbewertungen und sequenzielle Regressionen vorherzusagen und dennoch eine effiziente Schlussfolgerung zu erhalten. Ihre Herangehensweise ist sicherlich voreingenommen und führt zu falschen Schlussfolgerungen. Je größer Ihre Stichprobe ist, umso unwahrscheinlicher ist es, dass Sie einen falschen signifikanten Effekt feststellen.
Jonathan Levy

Dies könnte detaillierter sein. Was ist Janie Robinson? Welches Papier von van der Laan?
Mdewey

@mdewey sorry, Tippfehler, meinte Jamie Robins. Versuchen Sie Robins, Hernan, Babette 2000, marginale Strukturmodelle und kausale Folgerungen - eine großartige Methode für Nichtüberlebensergebnisse, einschließlich der Möglichkeit, msm mit Effektmodifikatoren durchzuführen. Beziehen Sie sich für Laan auf das Buch "Gezieltes Lernen". Wie ich schon sagte, laan ist wahrscheinlich das Beste, braucht aber mehr, um es zu verstehen. Das R-Paket Ltmle führt diese Methode aus, benötigt jedoch einige Zeit zum Erlernen.
Jonathan Levy
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.