Warum bedeutet das Hinzufügen eines Verzögerungseffekts eine Abweichung in einem Bayes'schen hierarchischen Modell?

Hintergrund: Ich arbeite gerade daran, verschiedene Bayesianische Hierarchiemodelle zu vergleichen. Die Daten sind numerische Maße für das Wohlbefinden des Teilnehmers und die Zeit . Ich habe ungefähr 1000 Teilnehmer und 5 bis 10 Beobachtungen pro Teilnehmer. $y_{ij}$ $i$ $j$

Wie bei den meisten longitudinalen Datensätzen erwarte ich eine Form der Autokorrelation, bei der zeitlich engere Beobachtungen eine größere Korrelation aufweisen als weiter entfernte. Um einige Dinge zu vereinfachen, lautet das Grundmodell wie folgt:

y_{ich j} \sim N (μ_{ich j}, σ^{2})

$y_{ij} \sim N(\mu_{ij}, \sigma^2)$

Wo ich ein No-Lag-Modell vergleiche:

μ_{ich j} = β_{0 ich}

$\mu_{ij} = \beta_{0i}$

mit einem Lag-Modell:

μ_{ich j} = β_{0 ich} + β_{1} (y_{ich (j - 1)} - β_{0 ich})

$\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i})$

Dabei ist ein Mittelwert auf Personenebene und der Verzögerungsparameter (dh der Verzögerungseffekt addiert ein Vielfaches der Abweichung der Beobachtung vom vorherigen Zeitpunkt vom vorhergesagten Wert dieses Zeitpunkts). Ich musste auch ein paar Dinge tun, um zu schätzen (dh Beobachtung vor der ersten Beobachtung). $\beta_{0i}$ $\beta_1$ $y_{i0}$

Die Ergebnisse, die ich erhalte, zeigen an, dass:

Der Lag-Parameter liegt bei 0,18, 95% CI [.14, .21]. Dh es ist nicht Null
Die mittlere Abweichung und der DIC erhöhen sich beide um mehrere Hundert, wenn die Verzögerung in das Modell einbezogen wird
Posterior Predictive Checks zeigen, dass das Modell durch Einbeziehung des Lag-Effekts die Autokorrelation in den Daten besser wiederherstellen kann

Zusammenfassend lässt sich also sagen, dass der Nicht-Null-Verzögerungsparameter und die nachträglichen Vorhersageprüfungen darauf hindeuten, dass das Verzögerungsmodell besser ist. Mittlere Abweichung und DIC lassen vermuten, dass das No-Lag-Modell besser ist. Das verwirrt mich.

Nach meiner allgemeinen Erfahrung sollte durch Hinzufügen eines nützlichen Parameters zumindest die mittlere Abweichung verringert werden (auch wenn die DIC nach einer Komplexitätsstrafe nicht verbessert wird). Darüber hinaus würde ein Wert von Null für den Verzögerungsparameter die gleiche Abweichung wie das No-Lag-Modell erzielen.

Frage

Warum kann das Hinzufügen eines Verzögerungseffekts die mittlere Abweichung in einem Bayes'schen hierarchischen Modell erhöhen, selbst wenn der Verzögerungsparameter ungleich Null ist und die prädiktiven Prüfungen nach hinten verbessert werden?

Erste Gedanken

Ich habe viele Konvergenzprüfungen durchgeführt (z. B. Traceplots untersucht; Abweichungen in den Abweichungsergebnissen über Ketten und Läufe hinweg untersucht), und beide Modelle scheinen auf der Rückseite zusammenzulaufen.
Ich habe eine Codeüberprüfung durchgeführt, bei der der Verzögerungseffekt auf Null gesetzt wurde. Dadurch wurden die Abweichungen des No-Lag-Modells behoben.
Ich betrachtete auch die mittlere Abweichung abzüglich der Strafe, die eine Abweichung bei den erwarteten Werten ergeben sollte, und dies ließ auch das Verzögerungsmodell schlechter erscheinen.
$\beta_{0i}$
Vielleicht gibt es ein Problem damit, wie ich den impliziten Zeitpunkt vor der ersten Beobachtung geschätzt habe.
Möglicherweise ist der Verzögerungseffekt in diesen Daten nur schwach
Ich habe versucht, das Modell unter Verwendung eines Maximums der Wahrscheinlichkeit unter Verwendung von lmemit zu schätzen correlation=corAR1(). Die Schätzung des Lag-Parameters war sehr ähnlich. In diesem Fall hatte das Verzögerungsmodell eine größere logarithmische Wahrscheinlichkeit und einen kleineren AIC (um etwa 100) als eines ohne Verzögerung (dh es deutete darauf hin, dass das Verzögerungsmodell besser war). Dies bestätigte die Idee, dass das Hinzufügen der Verzögerung auch die Abweichung im Bayes'schen Modell verringern sollte.
Vielleicht haben bayesianische Residuen etwas Besonderes. Wenn das Verzögerungsmodell die Differenz zwischen vorhergesagtem und tatsächlichem y zum vorherigen Zeitpunkt verwendet, ist diese Größe ungewiss. Somit wird der Verzögerungseffekt über ein glaubwürdiges Intervall solcher Restwerte wirksam.

— Jeromy Anglim
quelle

Sie sagen, dass der Verzögerungsparameter bei 0,18 liegt. Hast du den Lag-Parameter gelernt? Wenn ja, welche Voreinstellung haben Sie verwendet?

— Summit

N (β_{0 i}, σ^{2})

$N(\beta_{0i}, \sigma^2)$

Hier sind meine Gedanken:

Anstelle von DIC, BIC, AIC schlage ich vor, direkt mit der Grenzwahrscheinlichkeit (auch als Evidenz bezeichnet ) zu arbeiten, wenn Sie es sich leisten können. Je größer der Beweis , desto wahrscheinlicher ist Ihre Modellklasse. Es mag keinen großen Unterschied machen, aber DIC, BIC, AIC sind immerhin nur Annäherungen.
$0.18$
Gehen wir noch einen Schritt weiter: Nehmen Sie das Modell, das den Verzögerungseffekt (c) nicht berücksichtigt, und berechnen Sie dessen marginale Wahrscheinlichkeit . Nehmen Sie als Nächstes Ihre Modellklasse (d), die den Verzögerungseffekt enthält und einen Vorrang vor dem Verzögerungsparameter hat. Berechnen Sie die marginale Wahrscheinlichkeit von (d). Sie würden erwarten, dass (d) eine größere marginale Wahrscheinlichkeit hat . Und wenn nicht ?:

(1) Die marginale Wahrscheinlichkeit berücksichtigt die Modellklasse als Ganzes. Dies beinhaltet den Lag-Effekt, die Anzahl der Parameter, die Wahrscheinlichkeit und den Prior.

(2) Der Vergleich von Modellen mit einer unterschiedlichen Anzahl von Parametern ist immer dann schwierig, wenn erhebliche Unsicherheiten hinsichtlich der Prioritäten der zusätzlichen Parameter bestehen.

(3) Wenn Sie die Messunsicherheit vor Ihrem Lag-Parameter unangemessen groß angeben, bestrafen Sie die gesamte Modellklasse.

(4) Welche Informationen stützen gleiche Wahrscheinlichkeiten für negative Verzögerungen und für eine positive Verzögerung? Ich glaube, dass es sehr unwahrscheinlich ist, eine negative Verzögerung zu beobachten, und dies sollte in den Prior aufgenommen werden.

(5) Die Priorität, die Sie für Ihren Lag-Parameter gewählt haben, ist einheitlich. Dies ist normalerweise keine gute Wahl: Sind Sie sich absolut sicher, dass Ihre Parameter wirklich innerhalb der angegebenen Grenzen liegen müssen? Hat jeder Lag-Wert innerhalb der Grenzen wirklich die gleiche Wahrscheinlichkeit? Mein Vorschlag: Entscheide dich für eine Beta-Distribution (wenn du dir sicher bist, dass die Verzögerung begrenzt ist) oder für die Log-Normal-Distribution, wenn du Werte kleiner als Null ausschließen kannst .

(6) Dies ist ein besonderes Beispiel, bei dem die Verwendung von nicht informativen Prioritäten nicht gut ist (unter Berücksichtigung der Grenzwahrscheinlichkeit ): Sie werden immer das Modell bevorzugen, das eine geringere Anzahl unsicherer Parameter aufweist; Es spielt keine Rolle, wie gut oder schlecht das Modell mit mehr Parametern sein könnte.

Ich hoffe, meine Gedanken geben Ihnen einige neue Ideen, Hinweise ?!

— Gipfel
quelle

Danke für die Tipps. Um das Ganze abzurunden, habe ich versucht, den Lag-Parameter auf den Mittelwert des Seitenzahns (dh 0,18) zu beschränken. Das No-Lag-Modell hatte immer noch die geringere mittlere Abweichung.

— Jeromy Anglim