Mischmodell mit 1 Beobachtung pro Level

12

Ich rüste glmereinige Geschäftsdaten mit einem Zufallseffektmodell aus . Ziel ist es, die Vertriebsleistung nach Händlern unter Berücksichtigung regionaler Unterschiede zu analysieren. Ich habe folgende Variablen:

distcode: Distributor ID, mit ca. 800 Ebenen
region: Geografische ID der obersten Ebene (Norden, Süden, Osten, Westen)
zone: Geographie auf mittlerer Ebene region, insgesamt etwa 30 Ebenen
territory: Geographie auf niedriger Ebene zone, in etwa 150 Ebenen verschachtelt

Jeder Distributor ist nur in einem Gebiet tätig. Der schwierige Teil ist, dass dies zusammengefasste Daten mit einem Datenpunkt pro Verteiler sind. Ich habe also 800 Datenpunkte und versuche, (mindestens) 800 Parameter anzupassen, wenn auch auf regulierte Weise.

Ich habe ein Modell wie folgt angepasst:

glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson)

Dies funktioniert problemlos, obwohl eine Notiz gedruckt wird:

Die Anzahl der Ebenen eines Gruppierungsfaktors für die zufälligen Effekte ist gleich n, der Anzahl der Beobachtungen

Ist das eine vernünftige Sache? Ich erhalte endliche Schätzungen aller Koeffizienten, und der AIC ist auch nicht unangemessen. Wenn ich ein Poisson-GLMM mit der Identitätsverknüpfung versuche, ist die AIC viel schlechter, sodass die Protokollverknüpfung zumindest ein guter Ausgangspunkt ist.

Wenn ich die angepassten Werte gegen die Antwort zeichne, erhalte ich im Wesentlichen eine perfekte Übereinstimmung, was ich denke, weil ich einen Datenpunkt pro Verteiler habe. Ist das vernünftig oder mache ich etwas völlig albernes?

Hier werden Daten für einen Monat verwendet. Ich kann Daten für mehrere Monate abrufen und auf diese Weise eine Replikation erhalten, aber ich müsste neue Begriffe für monatliche Variationen und mögliche Interaktionen hinzufügen, richtig?

ETA: Ich habe das obige Modell erneut ausgeführt, aber ohne familyArgument (also nur eine Gaußsche LMM anstelle einer GLMM). Jetzt lmergab mir den folgenden Fehler:

Fehler in (Funktion (fr, FL, Start, REML, Verbose): Die Anzahl der Stufen eines Gruppierungsfaktors für die Zufallseffekte muss kleiner sein als die Anzahl der Beobachtungen

Also würde ich vermuten, dass ich nichts Vernünftiges tue, da ein Familienwechsel keine Auswirkungen haben sollte. Die Frage ist nun, warum es überhaupt funktioniert hat.

r regression mixed-model lme4-nlme

— Hong Ooi
quelle

4

Ich würde der Praxis der Anpassung eines gemischten Modells stark widersprechen, bei dem Sie die gleiche Anzahl von Gruppen haben wie Beobachtungen aus konzeptionellen Gründen, es gibt keine "Gruppen" und dies auch aus rechnerischen Gründen, da Ihr Modell identifizierbare Probleme haben sollte von einem LMM mindestens. (Ich arbeite ausschließlich mit LMM, es könnte auch ein bisschen voreingenommen sein. :))

$y \sim N(X\beta, ZDZ^T + \sigma^2 I)$ $D$ $\sigma^2$

(Ich verstehe nicht, was Sie unter "angemessenem" AIC verstehen. AIC sollte in dem Sinne berechenbar sein, dass Sie trotz Überanpassung Ihrer Daten immer noch "etwas berechnen".)

glmer $y$ $X\beta$ $X\beta> 0$ glmer

Der konzeptionelle Teil: Ich finde das etwas "subjektiver", aber auch etwas unkomplizierter. Sie verwenden Mixed Eff. Modelle, weil Sie im Wesentlichen erkannt haben, dass Ihr Fehler eine gruppenbezogene Struktur aufweist. Wenn Sie nun so viele Gruppen wie Datenpunkte haben, ist keine Struktur zu sehen. Jegliche Abweichungen in Ihrer LM-Fehlerstruktur, die einer "Gruppierung" zugeordnet werden könnten, werden nun dem spezifischen Beobachtungspunkt zugeordnet (und als solches erhalten Sie ein überangepasstes Modell).

Im Allgemeinen sind Einzelbeobachtungsgruppen etwas chaotisch. D.Bates aus der Mailingliste von r-sig-mixed-models zitieren:

Ich denke, Sie werden feststellen, dass das Modell kaum Unterschiede aufweist, unabhängig davon, ob Sie die Einzelbeobachtungsgruppen ein- oder ausschließen. Probieren Sie es aus und sehen Sie.

— usεr11852 sagt Reinstate Monic
quelle

1

Es ist richtig, dass dies in einer linearen Umgebung nicht viel Sinn macht, aber es kann bei der Poisson-Regression sehr nützlich sein. Ich werde sehen, ob ich einen Link zu etwas finden kann, das Ben Bolker zu diesem Thema gesagt hat (er ist zusammen mit Doug Bates einer der Entwickler von lme4).

— David J. Harris

Ja, wie gesagt, ich bin wahrscheinlich voreingenommen, wenn ich hauptsächlich an LMM denke, und ich habe den "konzeptuellen Teil" kommentiert. Ich erklärte, warum dies im Fall von glmertrotzdem funktioniert (obwohl ich nicht übermäßig glücklich damit bin).

— usεr11852 sagt Reinstate Monic

8

Eine Stufe pro Beobachtung kann sehr nützlich sein, wenn Sie Zählungsdaten als Antwortvariable überstreut haben. Dies entspricht der Annahme, dass Ihre Zähldaten von einer Poisson-Lognormalverteilung stammen, dh dass der Lambda-Parameter Ihrer Poisson-Verteilung nicht vollständig von den Prädiktorvariablen in Ihrem Modell bestimmt wird und die Möglichkeiten lognormal verteilt sind.

Ben Bolker, einer der Entwickler von lme4, hat dazu zwei Tutorial-ähnliche Beispiele erstellt. Die erste, mit synthetischen Daten, geht etwas detaillierter. Sie können eine PDF finden Sie hier . Er hat ging auch durch eine explorative Datenanalyse mit realen Daten Eulen (pdf und R Code verfügbar von denen hier ).

— David J. Harris
quelle

1

+1. Ich stimme dem zu, was du sagst. Wie ich in meinem ursprünglichen Post erwähnt habe: " Übermäßige Streuung (...) ist die Art und Weise, wie Sie das Problemglmer umgehen , so viele Gruppen wie Beobachtungen zu haben. "

— usεr11852 sagt Reinstate Monic

1

Danke für die Links! Nachdem ich diese gelesen und mir die angepassten Werte meines Modells genauer angesehen habe, habe ich eine bessere Vorstellung davon, was vor sich geht. Ich glaube nicht, dass das, was Ben tut, für meine Analyse angemessen ist. Er verwendet eine Variable auf Beobachtungsebene, um eine Überdispersion zu ermöglichen. Das ist also wie ein störender Effekt. Für meine Analyse distributorist ein Effekt von Interesse: Ich möchte sehen, wie sich Verteiler im Verhältnis zueinander verhalten, wenn andere Variablen berücksichtigt werden. Daher ist es eher mit einem herkömmlichen linearen gemischten Modell vergleichbar, bei dem Überanpassung ein echtes Problem darstellt.

— Hong Ooi