R / Stata-Paket für null-abgeschnittenes negatives Binomial-GEE?


13

Dies ist mein erster Beitrag. Ich bin wirklich dankbar für diese Gemeinschaft.

Ich versuche, longitudinale Zähldaten zu analysieren, die von Null abgeschnitten sind (Wahrscheinlichkeit, dass die Antwortvariable = 0 0 ist), und den Mittelwert! = Varianz, sodass eine negative Binomialverteilung über ein Poisson gewählt wurde.

Funktionen / Befehle, die ich ausgeschlossen habe:

R

  • Die Funktion gee () in R berücksichtigt weder das Abschneiden von Nullen noch die negative Binomialverteilung (auch nicht mit dem geladenen MASS-Paket).
  • glm.nb () in R erlaubt keine unterschiedlichen Korrelationsstrukturen
  • vglm () aus dem VGAM-Paket kann die posnegbinomiale Familie verwenden, hat jedoch das gleiche Problem wie der Befehl ztnb von Stata (siehe unten), da ich die Modelle nicht mit einer nicht unabhängigen Korrelationsstruktur nachrüsten kann.

Stata

  • Wenn die Daten nicht longitudinal waren, konnte ich einfach die Stata-Pakete ztnb verwenden, um meine Analyse auszuführen, ABER dieser Befehl setzt voraus, dass meine Beobachtungen unabhängig sind.

Ich habe GLMM auch aus verschiedenen methodischen / philosophischen Gründen ausgeschlossen.

Im Moment habe ich mich für den xtgee-Befehl von Stata entschieden (ja, ich weiß, dass xtnbreg dasselbe tut), der sowohl die nicht-unabhängigen Korrelationsstrukturen als auch die negative Binomialfamilie berücksichtigt, aber nicht die Null-Kürzung. Der zusätzliche Vorteil der Verwendung von xtgee besteht darin, dass ich mit dem Befehl qic auch qic-Werte berechnen kann, um die am besten passenden Korrelationsstrukturen für meine Antwortvariablen zu ermitteln.

Wenn es in R oder Stata ein Paket / einen Befehl gibt, das / der 1) eine Binomialfamilie, 2) ein GEE und 3) eine Null-Kürzung berücksichtigt, würde ich gerne wissen.

Ich würde mich sehr über Ihre Ideen freuen. Vielen Dank.

-Casey

Antworten:


12

Für R fallen mir zwei Optionen ein, die ich bestenfalls vage kenne.

Das erste ist das psclPaket, das Null paßt abgeschnitten aufgeblasen und Hürde Modelle in einem sehr schönen, flexibel. Das psclPaket schlägt die Verwendung des sandwichPakets vor, das "modellstabile Standardfehlerschätzer für Querschnitts-, Zeitreihen- und Längsschnittdaten" bereitstellt. Sie können also Ihr Zählmodell anpassen und dann mithilfe des sandwichPakets eine geeignete Kovarianzmatrix für die Residuen unter Berücksichtigung der longitudinalen Natur der Daten schätzen.

Die zweite Möglichkeit könnte darin bestehen, das geepackPaket zu betrachten , das so aussieht, als könne es tun, was Sie wollen, aber nur für ein negatives Binomialmodell mit bekanntem Theta, da es zu jeder Art von GLM passt, die Rs glm()Funktion kann (verwenden Sie also die Familienfunktion von MASS). .

Eine dritte Option hat den Kopf angehoben: gamlssund es ist Add-On-Paket gamlss.tr. Letzteres enthält eine Funktion gen.trun(), die jede der von unterstützten gamlss()Verteilungen auf flexible Weise in eine abgeschnittene Verteilung umwandeln kann. Sie können zum Beispiel angeben, dass die Binomialverteilung bei 0 abgeschnitten bleibt. gamlss()selbst beinhaltet die Unterstützung von zufälligen Effekten, die die longitudinale Natur der Daten berücksichtigen sollten. Es ist jedoch nicht sofort klar, ob Sie mindestens eine glatte Funktion einer Kovariate im Modell verwenden müssen oder einfach alles als lineare Funktionen wie in einem GLM modellieren können.


Ich glaube, das pscl-Paket passt nur für Modelle mit Null-Luftdruck und Hürden. Hürdenmodelle enthalten sowohl eine linkszensierte Zählkomponente als auch eine rechtszensierte Hürdenkomponente. Ich weiß nicht, wie oder ob ich in der Lage bin, ein Hürdenmodell ohne die Hürdenkomponente zu betreiben, aber ich werde mich mit dem Sandwick-Paket befassen. Das Geopack-Paket scheint dasselbe Problem zu haben wie das Geopack-Paket. Wenn ich eine "negative.binomial" -Familie (von MASS) spezifiziere, ohne ein Theta anzugeben, wird nach einem Theta gefragt. Wenn ich jedoch einen Theta-Wert eingebe, wird ein Fehler ausgegeben, der besagt, dass es sich um eine nicht erkannte Familie handelt.
Iris Tsui

@Casey - Entschuldigung, ich habe Ihre Anforderungen bezüglich der Null-Kürzung falsch verstanden. Schade, dass Geopack mit dieser Familienfunktion nicht funktioniert. Wenn mir noch etwas einfällt, aktualisiere ich es hier.
Setzen Sie Monica - G. Simpson

@Casey Ich habe einen Hinweis zu dem gamlssPaket hinzugefügt , der möglicherweise auch in R zur Rechnung passt.
Setzen Sie Monica - G. Simpson

Akzeptieren Sie Ihre Antwort aufgrund der zahlreichen Vorschläge für Ressourcen und Funktionen, die mein Verständnis verbessert haben. Es scheint, als wäre "gamlss" ein möglicher Weg, um mein Problem zu lösen, aber da ich eigentlich kein Statistiker bin, habe ich momentan weder den Hintergrund in Mathematik noch die Zeit, diese Dose Würmer zu öffnen (aber vielleicht werde ich es irgendwann tun). Wie in einem anderen Kommentar erwähnt, scheint es zumindest für meine Daten so zu sein, dass das Ignorieren der Null-Kürzung meine Schätzungen und Standardfehler nicht wesentlich verändert. Für mein Zielpublikum bin ich der Meinung, dass ein nbinomisches GEE völlig in Ordnung ist. Vielen Dank!
Iris Tsui

9

Hmm, gute erste Frage! Ich kenne kein Paket, das genau Ihren Anforderungen entspricht. Ich denke, Statas xtgee ist eine gute Wahl, wenn Sie auch die vce(robust)Option angeben , Huber-White-Standardfehler zu melden, oder vce(bootstrap)wenn dies praktisch ist. Mit jeder dieser Optionen wird sichergestellt, dass die Standardfehler trotz der Modellfehlspezifikation, die Sie durch Ignorieren der Nullkürzung erhalten, konsistent geschätzt werden.

Es bleibt die Frage, welche Auswirkung das Ignorieren der Nullkürzung auf die Punktschätzung (en) hat, die Sie interessieren. Es ist eine schnelle Suche wert, um zu sehen, ob es relevante Literatur zu diesem Thema im Allgemeinen gibt, dh nicht unbedingt in einem GEE-Kontext - ich hätte gedacht, dass Sie ziemlich sicher davon ausgehen können, dass solche Ergebnisse auch für den GEE-Fall relevant sind. Wenn Sie nichts finden, können Sie immer Daten mit Null-Kürzung und bekannten Effektschätzungen simulieren und die Abweichung durch Simulation bewerten.


1
Ich habe darauf geachtet, robuste Standardfehler abzuschätzen. In dem Buch "Modelle mit gemischten Effekten und Erweiterungen in der Ökologie mit R" von Zuur et al., 2009, auf Seite 261 wird außerdem erwähnt: "Wenn der Mittelwert der Antwortvariablen relativ groß ist, wird das Kürzungsproblem ignoriert und angewendet Es ist unwahrscheinlich, dass ein verallgemeinertes lineares Modell (GLM) mit Poisson oder negativem Binom (NB) ein Problem verursacht. " Glücklicherweise sind die Mittelwerte meiner Antwortvariablen groß, so dass ich mich ein wenig wohler fühle, wenn ich die Null-Trunkierung gegenüber dem GEE und den negbinomialen Aspekten meiner Regressionen dekriorisiere.
Iris Tsui

Klingt so, als wüssten Sie schon mehr über dieses Thema als ich! Oder irgendjemand anderes auf dieser Seite, gemessen am Mangel an anderen Antworten.
Uhr

Es ist ein bisschen unglaublich; Wer wusste, dass die Analyse übermäßig verteilter Longitudinalzählungsdaten so schwierig sein würde (ohne eine GLMM durchzuführen, die ich noch gar nicht untersucht habe)? Wenn nur meine Daten null wären, wäre das eine andere Geschichte.
Iris Tsui

5

Ich hatte das gleiche Problem in meiner Dissertation. In Stata habe ich mir gerade ein benutzerdefiniertes .ado-Programm mit zwei Aufrufen von xtgee erstellt.

Hierfür habe ich die Folien / Programme "Modelling Health Care Costs and Counts" von Partha Deb, Willard Manning und Edward Norton als nützlich erachtet. Sie sprechen nicht über longitudinale Daten, aber es ist ein nützlicher Ausgangspunkt.


1

Ich habe nach Antworten zur glmmADMB-Interpretation gesucht und Ihren Beitrag gesehen. Ich weiß, dass es lange her ist, aber ich könnte die Antwort haben.

Schauen Sie in das Paket glmmADMB, wenn Sie Hürdenmodelle verwenden. Sie müssen die Analyse Ihrer Daten in zwei Teile aufteilen: Einer von ihnen behandelt nur die Daten ohne Null. Sie können gemischte Effekte hinzufügen und die Verteilung auswählen. Voraussetzung ist, dass die Daten auf Null aufgepumpt sind und ich nicht weiß, ob dies Ihren Anforderungen entspricht! Wie auch immer, ich hoffe du hast es schon lange herausgefunden!

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.