Vor einigen Jahren habe ich einen Artikel darüber für meine Schüler geschrieben (auf Spanisch), damit ich versuchen kann, diese Erklärungen hier umzuschreiben. Ich werde IRLS (iterativ gewichtete kleinste Quadrate) anhand einer Reihe von Beispielen mit zunehmender Komplexität betrachten. Für das erste Beispiel benötigen wir das Konzept einer Location-Scale-Familie. Sei eine Dichtefunktion, die in gewisser Weise auf Null zentriert ist. Wir können eine Dichtefamilie konstruieren, indem wir
f ( x ) = f ( x ; μ , σ ) = 1 definierenf0
wobeiσ>0ein Skalenparameter undμeinOrtsparameterist. In dem Messfehlermodell, in dem der Fehlerterm gewöhnlich als Normalverteilung modelliert wird, können wir anstelle dieser Normalverteilung eine Ortsskalenfamilie wie oben konstruiert verwenden. Wennf0die Standardnormalverteilung ist, ergibt die obige Konstruktion dieN(μ,σ)-Familie.
f(x)=f(x;μ,σ)=1σf0(x−μσ)
σ>0μf0N(μ,σ)
Jetzt werden wir IRLS an einigen einfachen Beispielen verwenden. Zunächst finden wir die ML-Schätzer (Maximum Likelihood) im Modell
mit der Dichte
f ( y ) = 1
Y1,Y2,…,Yni.i.d
die Cauchy-Verteilung der Ortsfamilie
μ (also eine Ortsfamilie). Aber zuerst etwas Notation. Der Schätzer der gewichteten kleinsten Quadrate von
μ ist gegeben durch
μ ∗ = ∑ n i = 1 w i y if(y)=1π11+(y−μ)2,y∈R,
μμ
wo
wichbin einige Gewichte. Wir werden sehendass der MLSchätzer von
μkann in der gleichen Form ausgedrückt werden, wobei
wieine Funktion der Residuen
& epsi;i=yi - μ .
Die Wahrscheinlichkeitsfunktion ist gegeben durch
L(y;μ)=(1μ∗=∑ni=1wiyi∑ni=1wi.
wiμwiϵi=yi−μ^.
und die LogLikelihoodFunktion ist gegeben durch
l(y)=-nlog(π)- n Σ i=1log(1+(yi-μ)2).
Ihre Ableitung zu
μist
∂ l ( y )L(y;μ)=(1π)n∏i=1n11+(yi−μ)2
l(y)=−nlog(π)−∑i=1nlog(1+(yi−μ)2).
μ
wobei
ϵi=yi-μ. Schreibe
f0(ϵ)=1∂l(y)∂μ===0−∑∂∂μlog(1+(yi−μ)2)−∑2(yi−μ)1+(yi−μ)2⋅(−1)∑2ϵi1+ϵ2i
ϵi=yi−μ und
f ′ 0 (ϵ)=1f0(ϵ)=1π11+ϵ2 , wir erhalten
f ′ 0 (ϵ)f′0(ϵ)=1π−1⋅2ϵ(1+ϵ2)2
Wir finden
∂ l ( y )f′0(ϵ)f0(ϵ)=−1⋅2ϵ(1+ϵ2)211+ϵ2=−2ϵ1+ϵ2.
wo wir die Definition
wi= f ′ 0 ( ϵ i ) verwendet haben∂l(y)∂μ===−∑f′0(ϵi)f0(ϵi)−∑f′0(ϵi)f0(ϵi)⋅(−1ϵi)⋅(−ϵi)∑wiϵi
Daran erinnernddass
εi=yi-μwir die Gleichung erhalten
Σwiyi=μΣwi,
die die Schätzgleichung der IRLS ist. Beachten Sie, dass
wi=f′0(ϵi)f0(ϵi)⋅(−1ϵi)=−2ϵi1+ϵ2i⋅(−1ϵi)=21+ϵ2i.
ϵi=yi−μ∑wiyi=μ∑wi,
- Die Gewichte sind immer positiv.wi
- Wenn der Rest groß ist, geben wir der entsprechenden Beobachtung weniger Gewicht.
μ^(0)
ϵ(0)i=yi−μ^(0)
w(0)i=21+ϵ(0)i.
μ^μ^(1)=∑w(0)iyi∑w(0)i.
ϵ(j)i=yi−μ^(j)
w(j)i=21+ϵ(j)i.
j+1μ^(j+1)=∑w(j)iyi∑w(j)i.
μ^( 0 ), μ^( 1 ), … , Μ^( j ), …
konvergiert.
Jetzt untersuchen wir diesen Prozess mit einer allgemeineren Orts- und Maßstabsfamilie. f( y) = 1σf0( y- μσ)mit weniger Details. LassenY.1, Y2, … , Ynsei unabhängig von der obigen Dichte. Definiere auchϵich= yich- μσ. Die Loglikelihood-Funktion ist
l ( y) = - n2Log( σ2) + ∑ log( f0( yich- μσ) ).
Schreiben
ν= σ2, beachten Sie, dass
∂ϵich∂μ=−1σ
and
∂ϵi∂ν=(yi−μ)(1ν−−√)′=(yi−μ)⋅−12σ3.
Calculating the loglikelihood derivative
∂l(y)∂μ=∑f′0(ϵi)f0(ϵi)⋅∂ϵi∂μ=∑f′0(ϵi)f0(ϵi)⋅(−1σ)=−1σ∑f′o(ϵi)f0(ϵi)⋅(−1ϵi)(−ϵi)=1σ∑wiϵi
and equaling this to zero gives the same estimating equation as the first example. Then searching for an estimator for
σ2:
∂l(y)∂ν=====−n21ν+∑f′0(ϵi)f0(ϵi)⋅∂ϵi∂ν−n21ν+∑f′0(ϵi)f0(ϵi)⋅(−(yi−μ)2σ3)−n21ν−121σ2∑f′0(ϵi)f0(ϵi)⋅ϵi−n21ν−121ν∑f′0(ϵi)f0(ϵi)⋅(−1ϵi)(−ϵi)⋅ϵi−n21ν+121ν∑wiϵ2i=!0.
leading to the estimator
σ2^=1n∑wi(yi−μ^)2.
The iterative algorithm above can be used in this case as well.
In the following we give a numerical examle using R, for the double exponential model (with known scale) and with data y <- c(-5,-1,0,1,5)
. For this data the true value of the ML estimator is 0.
The initial value will be mu <- 0.5
. One pass of the algorithm is
iterest <- function(y, mu) {
w <- 1/abs(y-mu)
weighted.mean(y,w)
}
with this function you can experiment with doing the iterations "by hand"
Then the iterative algorithm can be done by
mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
if (abs(mu_0 - mu) < 0.000001) break
mu_0 <- mu }
Exercise: If the model is a tk distribution with scale parameter σ show the iterations are given by the weight
wi=k+1k+ϵ2i.
Exercise: If the density is logistic, show the weights are given by
w(ϵ)=1−eϵ1+eϵ⋅−1ϵ.
For the moment I will leave it here, I will continue this post.