Ich habe mich lange über die scheinbar verbreitete Überzeugung gewundert, dass es einen grundlegenden Unterschied zwischen festen und zufälligen Effekten für (im Allgemeinen nichtlineare) Modelle mit gemischten Effekten gibt. Dieser Glaube wird zum Beispiel von Bates in der folgenden Antwort angegeben
https://stat.ethz.ch/pipermail/r-sig-mixed-models/2010q1/003447.html
Bates gibt klar an, dass er glaubt, dass es einen grundlegenden Unterschied zwischen festen und zufälligen Effekten gibt, so dass sie nicht kombiniert werden können. Ich denke, er liegt falsch und ich hoffe, einige Leser von einer alternativen Sichtweise zu überzeugen. Ich verfolge einen frequentistischen Ansatz. Ich möchte also einen Begriff der Profilwahrscheinlichkeit für eine Funktion sowohl der festen als auch der zufälligen Effekte definieren. Um die Diskussion zu motivieren, nehmen wir an, wir haben ein Zwei-Parameter-Modell mit den Parametern x und u (bisher nichts über zufällige Effekte). Sei
die Wahrscheinlichkeitsfunktion, bei der wir jeden Verweis auf die Daten unterdrücken. Sei eine beliebige (schöne) Funktion von x und u. Die Profilwahrscheinlichkeit
für die Funktion ist gegeben durchg ( x , u ) P g ( t ) gL(x,u)g(x,u)Pg(t)g
Pg(t)=maxx,u{L(x,u) | g(x,u)=t}\eqno(1)
Ich glaube, dass niemand damit streiten würde. Nehmen wir nun an, wir haben eine vorherige Wahrscheinlichkeitsverteilung für u. Dann würde ich behaupten, dass die Profilwahrscheinlichkeit für immer noch sinnvoll ist, aber wir sollten (1) ändern, indem wir den Prior einbeziehen.p(u)g
Pg(t)=maxx,u{L(x,u)p(u) | g(x,u)=t}\eqno(2)
Beachten Sie, dass ein Parameter mit ist a prior ist es genau das gleiche wie das, was als zufälliger Effekt bezeichnet wird. Warum denken viele Leute, dass zufällige Effektparameter irgendwie unterschiedlich sind? Der Unterschied, den ich denke, ergibt sich aus der üblichen Praxis der Parameterschätzung für sie. Was zufällige Effekte "anders" macht, ist, dass es in vielen Modellen viele davon gibt. Um nützliche Schätzungen für die festen Effekte (oder andere Parameter) zu erhalten, müssen die zufälligen Effekte auf andere Weise behandelt werden. Wir integrieren sie aus dem Modell. Im obigen Modell würden wir die Wahrscheinlichkeit wobei
Nun das
uF(x)F(x)=∫L(x,u)p(u)du
usind weg. Wenn wir also nur haben, scheint es keinen Sinn zu machen, über die Profilwahrscheinlichkeit für eine Funktion zu sprechen .
F(x)g(x,u)
Um Informationen über die Funktion , sollten wir nicht über den Parameter . Aber was passiert in dem Fall, in dem es viele zufällige Effektparameter gibt? Dann behaupte ich, wir sollten uns über "die meisten" integrieren, aber nicht alle in einem Sinne, den ich präzisieren werde. Um die Konstruktion zu motivieren, gebe es zufällige Effekte
. Betrachten Sie den Sonderfall, in dem die Funktion nur von abhängt und tatsächlich die einfachste vorstellbare Funktion ist, . Integriere über die zufälligen Effekte , um zu erhalten
g(x,u)unu=(u1,u2,...,un−1,un)g(x,u)ung(x,u)=unu1,u2,...,un−1
F(x,un)=∫L(x,u1,...,un)p(u1,...,un))du1du2...dun−1\eqno(4)
wie zuvor wir können die Profilwahrscheinlichkeit
Verallgemeinern damit es für eine beliebige Funktion Sinn macht . , dass die Definition von in
dieselbe ist wie
Um diese Anmerkung zu sehen, ist für den einfachen Fall ,
dasselbe wie
Pg(t)=maxx,un{F(x,un)|un=t}\eqno(3)
(3)g(x,u)F(x,un)(4)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<g(x,un)<s+ϵ/2}L(x,u1,...,un)p(u1,...,un))du1du2...dun\eqno(5)
g(x,u)=un(5)F(x,s)=limϵ→01ϵ∫{(x,un)|s−ϵ/2<un<s+ϵ/2}F(x,un)dun\eqno(6)
Für eine allgemeine Funktion bilden wir die
durch definierte Funktion und berechnen die Profilwahrscheinlichkeit
g(x,u)F(x,s)(5)
Pg(s)=maxx,u{F(x,s)|g(x,u)=s}\eqno(3)
Diese Profilwahrscheinlichkeit ist ein genau definiertes Konzept und steht für sich allein. Um jedoch in der Praxis nützlich zu sein, muss man in der Lage sein, seinen Wert zumindest ungefähr zu berechnen. Ich glaube, dass für viele Modelle die Funktion mit einer Variante der Laplace-Näherung gut genug approximiert werden kann. Definieren Sie durch
Sei H der Hessische des Logs der Funktion in Bezug auf die Parameter und .F(x,s)x^(s),u^(s)
x^(s),u^(s)=maxx,u{L(x,u)p(u) | g(x,u)=s}
−L(x,u)p(u)xu
Die Niveausätze von sind dimensionale Untervielfalt eines dimensionalen Raums, in dem es feste Effekte und zufällige Effekte gibt. Wir müssen eine Form
über diesen Verteiler integrieren, wobei alles bei linearisiert ist.
Dies beinhaltet ein bisschen elementare Differentialgeometrie. Angenommen,
Durch Umparametrieren können wir annehmen, dass und . Dann betrachten Sie die Karte
gm+n−1n+mmnndu1∧du2∧…∧dunx^(s),u^(s)gxn(x^(s),u^(s))≠0x^(s)=0u^(s)=0
(x1,x2,…,xm−1,u1,u2,…,un)→(x1,x2,…,xm−1,−∑m−1i=1gxixi−∑ni=1guiuigxm,u1,u2,…,un)
wobei verwendet wird bezeichnen die partielle Ableitung von in Bezug auf
die am Maximalpunkt ausgewertet wird. Dies ist eine lineare Abbildung des Dimensionsraums auf den Tangentenraum des Niveausatzes von . Wir können es verwenden, um das gewünschte Integral zu berechnen. Erstens ist der Rückzug der 1 Formen einfach sie selbst.
gxigxim+n−1gdui
Der Rückzug des Hessischen ist die quadratische Form
Ti,j=Hi+m,j+m+guigujgxm2Hm,m\rm for 1<=i,j<=n
Das Integral kann also über die Laplace-Näherung berechnet (oder angenähert) werden. Dies ist die übliche Formel, die den Logarithmus der Determinante von , der über die Cholesky-Zerlegung berechnet wird. Der Wert der Laplace-Näherung des Integrals ist
wobeiist die Determinante. Wir müssen uns noch mit der Breite des Level-Sets von als
befassen.
Um dies zuerst zu bestellen, hat dies den Wert
Dabei ist der Vektor partieller Ableitungen von
T
L(x^(s),u^(s))|−T|12
|⋅|gϵ→0ϵ/∥∇g(x^(s),u^(s))∥∇g(x^(s),u^(s)))g (gx1,gx2,…,gxm,gu1,gu2,…,gun)
so dass der Wahrscheinlichkeitswert auf dem von angegeben wird durch
Dies ist die richtige Näherung zur Berechnung der Profilwahrscheinlichkeit.
gL(x^(s),u^(s))|−T|12∥∇g(x^(s),u^(s))∥