Anpassen von Mehrebenenmodellen an komplexe Vermessungsdaten in R.

Ich suche nach Ratschlägen zur Analyse komplexer Umfragedaten mit Mehrebenenmodellen in R. Ich habe das surveyPaket verwendet, um ungleiche Auswahlwahrscheinlichkeiten in Einstufenmodellen zu gewichten, aber dieses Paket verfügt nicht über Funktionen für die Mehrebenenmodellierung. Das lme4Paket eignet sich hervorragend für die Mehrebenenmodellierung, aber ich kenne keine Möglichkeit, Gewichte auf verschiedenen Clusterebenen einzubeziehen. Asparouhov (2006) stellt das Problem auf:

Mehrebenenmodelle werden häufig verwendet, um Daten aus Cluster-Stichprobenentwürfen zu analysieren. Solche Stichprobenentwürfe verwenden jedoch häufig eine ungleiche Auswahlwahrscheinlichkeit auf Clusterebene und auf Einzelebene. Die Stichprobengewichte werden auf einer oder beiden Ebenen zugewiesen, um diese Wahrscheinlichkeiten widerzuspiegeln. Wenn die Stichprobengewichte auf beiden Ebenen ignoriert werden, können die Parameterschätzungen erheblich verzerrt sein.

Ein Ansatz für Zwei-Ebenen-Modelle ist der in MPLUS implementierte MPML-Schätzer (Multilevel Pseudo Maximum Likelihood) ( Asparouhov et al.,? ). Carle (2009) überprüft wichtige Softwarepakete und gibt einige Empfehlungen zum weiteren Vorgehen:

Um MLM mit komplexen Umfragedaten und Entwurfsgewichten ordnungsgemäß durchführen zu können, benötigen Analysten eine Software, die außerhalb des Programms skalierte Gewichte und die "neuen" skalierten Gewichte ohne automatische Programmänderung enthalten kann. Derzeit erlauben drei der wichtigsten MLM-Softwareprogramme dies: Mplus (5.2), MLwiN (2.02) und GLLAMM. Leider können dies weder HLM noch SAS.

West und Galecki (2013) geben eine aktuellere Übersicht, und ich werde die relevante Passage ausführlich zitieren:

Gelegentlich möchten Analysten LMMs an Vermessungsdatensätze anpassen, die aus Proben mit komplexem Design stammen (siehe Heeringa et al., 2010, Kapitel 12). Komplexe Stichprobenentwürfe sind im Allgemeinen durch Aufteilung der Population in Schichten, mehrstufige Auswahl von Gruppen von Individuen aus den Schichten und ungleiche Auswahlwahrscheinlichkeiten für beide Cluster und die letztendlich untersuchten Individuen gekennzeichnet. Diese ungleichen Selektionswahrscheinlichkeiten führen im Allgemeinen zur Konstruktion von Stichprobengewichten für Einzelpersonen, die eine unvoreingenommene Schätzung der beschreibenden Parameter gewährleisten, wenn sie in eine Analyse einbezogen werden. Diese Gewichte können für Nichtantworten der Umfrage weiter angepasst und auf bekannte Bevölkerungszahlen kalibriert werden. Traditionell, Analysten könnten einen designbasierten Ansatz zur Einbeziehung dieser komplexen Stichprobenmerkmale bei der Schätzung von Regressionsmodellen in Betracht ziehen (Heeringa et al., 2010). In jüngerer Zeit haben Statistiker begonnen, modellbasierte Ansätze zur Analyse dieser Daten zu untersuchen, wobei LMMs verwendet wurden, um feste Effekte von Stichprobenschichten und zufällige Effekte von Stichprobenclustern zu berücksichtigen.

Die Hauptschwierigkeit bei der Entwicklung modellbasierter Ansätze zur Analyse dieser Daten bestand in der Auswahl geeigneter Methoden zur Einbeziehung der Stichprobengewichte (siehe Gelman, 2007 für eine Zusammenfassung der Probleme). Pfeffermann et al. (1998), Asparouhov und Muthen (2006) sowie Rabe-Hesketh und Skrondal (2006) haben eine Theorie zur Schätzung von Mehrebenenmodellen entwickelt, die die Umfragegewichte berücksichtigt, und Rabe-Hesketh und Skrondal (2006), Carle (2009) und Heeringa et al. (2010, Kapitel 12) haben Anwendungen unter Verwendung aktueller Softwareverfahren vorgestellt, dies ist jedoch weiterhin ein aktives Gebiet der statistischen Forschung. Softwareverfahren, die in der Lage sind, LMMs anzupassen, befinden sich in verschiedenen Phasen der Implementierung der Ansätze, die bisher in der Literatur vorgeschlagen wurden, um komplexe Konstruktionsmerkmale einzubeziehen. Analysten müssen dies berücksichtigen, wenn sie LMMs an komplexe Stichprobenerhebungsdaten anpassen. Analysten, die daran interessiert sind, LMMs an Daten anzupassen, die aus komplexen Stichprobenerhebungen stammen, werden von Verfahren angezogen, die in der Lage sind, die Umfragegewichte korrekt in die Schätzverfahren (HLM, MLwiN, Mplus, xtmixed und gllamm) einzubeziehen, was mit der vorliegenden Literatur übereinstimmt Bereich.

Dies bringt mich zu meiner Frage: Hat jemand Best-Practice-Empfehlungen für die Anpassung von LMMs an komplexe Umfragedaten in R?

r mixed-model weighted-sampling cluster-sample

— Eric Green
quelle

hallo eric, die Links in dem Absatz, beginnt wih i've never said it beforevon diesem Beitrag auf addhealth von Interesse sein könnte .. :(

— Anthony Damico

@ AnthonyDamico, Link ist jetzt unterbrochen :-(

— Ben Bolker

@ BenBolker ist es! Sie haben den Namen der Mikrodaten geändert, also habe ich es auch getan :) Neuer Ort: asdfree.com/search/label/…

— Anthony Damico

Es tut mir leid, wenn ich Ihre Frage falsch interpretiert habe, aber ich verstehe, dass Sie (bekannte) Gewichte aus dem Design des Experiments festgelegt haben und ein lineares gemischtes Modell verwenden möchten, das diese Designgewichte enthält. Die lmerFunktion im lme4Paket ermöglicht die Angabe eines weightsArguments für den Modellanpassungsprozess. Wenn Sie also feste Entwurfsgewichte haben, sollten Sie diese in dieses Argument integrieren können. Habe ich hier das falsche Ende des Stocks? Gibt es einen Grund, warum dies nicht Ihren Bedürfnissen entspricht?

— Setzen Sie Monica am

Soweit ich weiß, können Sie dies im Moment in R nicht wirklich tun, wenn Sie tatsächlich ein gemischtes Modell benötigen (z. B. wenn Sie sich für die Varianzkomponenten interessieren).

Das Argument weight to macht lme4::lmer() nicht das, was Sie wollen, da lmer()die Gewichte als Präzisionsgewichte und nicht als Stichprobengewichte interpretiert werden. Im Gegensatz zu gewöhnlichen linearen und verallgemeinerten linearen Modellen erhalten Sie nicht einmal korrekte Punktschätzungen mit Code, der die Stichprobengewichte als Präzisionsgewichte für ein gemischtes Modell behandelt.

Wenn Sie keine Varianzkomponenten schätzen müssen und nur möchten, dass die mehrstufigen Funktionen des Modells korrekte Standardfehler erhalten, können Sie diese verwenden survey::svyglm().

— Thomas Lumley
quelle

Das WeMix- Paket ist jetzt eine Option, zumindest für lineare und logistische Mehrebenenmodelle. Scheint jedoch sehr langsam zu sein, verglichen mit dem Ausführen dieser Modelle in Stata oder MPlus.

— Saugraten
quelle