Sei yij,xij der Antwort- bzw. Prädiktorvektor des Schülers i in der Schule j .
(1) Für binäre Daten denke ich, dass die Standardmethode für Varianzzerlegungen analog zu der für kontinuierliche Daten ist, die die Autoren in Ihrem Link als Methode D (ich werde die anderen Methoden unten kommentieren) bezeichnen - und die binären Daten als vorstellen sich aus einer zugrunde liegenden stetigen Variablen ergeben, die von einem linearen Modell bestimmt wird, und die Varianz auf dieser latenten Skala zerlegen. Der Grund dafür ist, dass logistische Modelle (und andere GLMs) natürlich auf diese Weise entstehen:
Um dies zu sehen, definieren Sie y⋆ij so, dass es von einem linearen gemischten Modell gesteuert wird:
y⋆ij=α+xijβ+ηj+εij
wobei α,β Regressionskoeffizienten sind, ηj∼N(0,σ2) der Zufallseffekt auf Schulebene ist und εij der Restvarianzterm ist und eine logistische Standardverteilung aufweist . Nun lass
yij=⎧⎩⎨⎪⎪10if y⋆ij≥0if y⋆ij<0
sei , einfach unter Verwendung der logistischen CDF, die wir habenpij=P(yij=1|xij,ηj)
pij=1−P(y⋆ij<0|xij,ηj)=exp{−(α+xijβ+ηj)}1+exp{−(α+xijβ+ηj)}
Nun nehmen Sie die logit-Transformation beider Seiten vor
log(pij1−pij)=α+xijβ+ηj
Das ist genau das logistische Mischeffektmodell. Das logistische Modell entspricht also dem oben angegebenen latenten Variablenmodell. Ein wichtiger Hinweis:
- Die Skala von wird nicht identifiziert, da sie, wenn Sie sie verkleinern würden, aber eine Konstante s , einfach die obige in ändern würdeεijs
exp{−(α+xijβ+ηj)/s}1+exp{−(α+xijβ+ηj)/s}
daher würden die Koeffizienten und Zufallseffekte einfach um den entsprechenden Betrag vergrößert. So, s = 1 verwendet wird, was bedeutet , v a r ( ε i j ) = π 2 / 3
s=1var(εij)=π2/3 .
Nun, wenn Sie dieses Modell und dann die Menge verwenden
σ^2ησ^2η+π2/3
schätzt die klasseninterne Korrelation der underlying latent variables. Another important note:
- εij
σ^2ησ^2η+ 1
estimates the tetrachoric correlation between two randomly selected pupils in the same school, which were shown by Pearson (around 1900 I think) to be statistically identified when the underlying continuous data was normally distributed (this work actually showed these correlations were identified beyond the binary case to the multiple category case, where these correlations are termed polychoric correlations). For this reason, it may be preferable (and would be my recommenation) to use a probit model when the primary interest is in estimating the (tetrachoric) intraclass correlation of binary data.
Regarding the other methods mentioned in the paper you linked:
(A) Ich habe die Linearisierungsmethode noch nie gesehen, aber ein Nachteil, den ich sehen kann, ist, dass es keinen Hinweis auf den dadurch verursachten Approximationsfehler gibt. Wenn Sie das Modell (durch eine potenziell grobe Näherung) linearisieren möchten, warum sollten Sie dann nicht zunächst ein lineares Modell verwenden (z. B. Option (C) , auf die ich gleich zurückkommen werde)? Es wäre auch komplizierter zu präsentieren, da der IStGH davon abhängen würdexich j.
(B) Die Simulationsmethode ist für einen Statistiker intuitiv ansprechend, da sie eine geschätzte Varianzzerlegung auf der ursprünglichen Skala der Daten ergibt. Je nach Zielgruppe kann es jedoch (i) kompliziert sein, dies in Ihren "Methoden" zu beschreiben. Abschnitt und (ii) können einen Rezensenten ausschalten, der nach etwas "mehr Standard" suchte
(C) Es ist wahrscheinlich keine gute Idee, vorzugeben, dass die Daten kontinuierlich sind, obwohl sie keine schlechte Leistung erbringen, wenn die meisten Wahrscheinlichkeiten nicht zu nahe bei 0 oder 1 liegen also würde ich wegbleiben.
Nun endlich
(2) If the fixed effects are very different across years, then you're right to think that it could be difficult to compare the random effect variances across years, since they are potentially on different scales (this is related to the non-identifiability of scaling issue mentioned above).
If you want to keep the fixed effects over time (however, if you see them changing a lot over time, you may not want to do that) but look at the change in the random effect variance, you can explore this effect using some random slopes and dummy variables. For example, if you wanted to see if the ICCs were different in different years, you culd let Ik=1 if the observation was made in year k and 0 otherwise and then model your linear predictor as
α+xijβ+η1jI1+η2jI2+η3jI3+η4jI4+η5jI5+η6jI6
this will give you a different ICCs each year but the same fixed effects. It may be tempting to just use a random slope in time, making your linear predictor
α+xijβ+η1+η2t
but I don't recommend this, since that will only allow your associations to increase over time, not decrease.