Bei Ihrer ersten Frage sollte man "Standard" definieren oder anerkennen, dass nach und nach ein "kanonisches Modell" erstellt wurde. Wie ein Kommentar zeigt, scheint es zumindest so, als ob die Art und Weise, wie Sie IRWLS verwenden, eher Standard ist.
Was Ihre zweite Frage betrifft, könnte "Kontraktionsabbildung in der Wahrscheinlichkeit" (jedoch informell) mit der Konvergenz von "rekursiven stochastischen Algorithmen" verbunden sein. Nach allem, was ich lese, gibt es eine riesige Literatur zu diesem Thema, hauptsächlich im Ingenieurwesen. In Economics verwenden wir ein winziges Stück davon, insbesondere die wegweisenden Arbeiten von Lennart Ljung - das erste Papier war Ljung (1977) -, die zeigten, dass die Konvergenz (oder nicht) eines rekursiven stochastischen Algorithmus durch die Stabilität (oder nicht) einer verwandten gewöhnlichen Differentialgleichung.
(Das Folgende wurde nach einer fruchtbaren Diskussion mit dem OP in den Kommentaren überarbeitet.)
Konvergenz
Ich werde Sabre Elaydi "An Introduction to Difference Equations", 2005, 3d ed als Referenz verwenden .
Die Analyse hängt von einer bestimmten Datenstichprobe ab, sodass die Werte als fest behandelt werden. x′s
Die Bedingung erster Ordnung für die Minimierung der Zielfunktion, betrachtet als rekursive Funktion in ,
m ( k + 1 ) = N Σ i = 1 v i [ m ( k ) ] x i ,m
m ( k + 1 ) = ∑i = 1Nvich[ m ( k ) ] xich,vich[ m ( k ) ] ≡ wich[ m ( k ) ]∑Ni = 1wich[ m ( k ) ][ 1 ]
hat einen festen Punkt (das Argmin der Zielfunktion). Nach Theorem 1.13, S. 27-28 von Elaydi ist, wenn die erste Ableitung in Bezug auf der RHS von , die am Fixpunkt ausgewertet wird , , kleiner als Eins in Absolutwert, dann ist asymptotisch stabil (AS). Weiter haben wir nach Satz 4.3 S.179, dass dies auch impliziert, dass der Fixpunkt einheitlich AS (UAS) ist.
"Asymptotisch stabil" bedeutet, dass für einen gewissen Wertebereich um den Fixpunkt, eine Nachbarschaft , die nicht notwendigerweise klein ist, der Fixpunkt attraktiv ist[ 1 ] m * A ' ( m * ) m * ( m * ± γ ) γ = ∞m[ 1 ]m∗EIN′( m∗)m∗
( m∗± γ)Wenn der Algorithmus also Werte in dieser Nachbarschaft angibt, konvergiert er. Die Eigenschaft "einheitlich" bedeutet, dass die Grenze dieser Nachbarschaft und damit ihre Größe unabhängig vom Anfangswert des Algorithmus ist. Der Fixpunkt wird global UAS, wenn .
Also in unserem Fall, wenn wir das beweisenγ= ∞
| EIN′( m∗) | ≡ |∣∣∣∑i = 1N∂vich( m∗)∂mxich∣∣∣∣< 1[ 2 ]
Wir haben die UAS-Eigenschaft bewiesen, jedoch ohne globale Konvergenz. Dann können wir entweder versuchen festzustellen, dass die Nachbarschaft der Anziehung tatsächlich die ganzen erweiterten reellen Zahlen sind, oder dass der spezifische Startwert, den das OP verwendet, wie in den Kommentaren erwähnt (und er ist Standard in der IRLS-Methodik), dh der Stichprobenmittelwert von den 's gehört immer zur Nachbarschaft der Anziehungskraft des Fixpunktes.ˉ xxx¯
Wir berechnen die Ableitung
∂vich( m∗)∂m= ∂wich( m∗)∂m∑Ni = 1wich( m∗) - wich( m∗) ∑Nich= 1∂wich(m∗)∂m( ∑Ni = 1wich(m∗) )2
= 1∑Ni = 1wich( m∗)⋅ [ ∂wich( m∗)∂m- vich( m∗) ∑i = 1N∂wich( m∗)∂m]
Dann
EIN′( m∗) = 1∑Ni = 1wich( m∗)⋅ [ ∑i = 1N∂wich( m∗)∂mxich- ( ∑i = 1N∂wich( m∗)∂m) ∑i = 1Nvich( m∗) xich]
= 1∑Ni = 1wich( m∗)⋅ [ ∑i = 1N∂wich( m∗)∂mxich- ( ∑i = 1N∂wich( m∗)∂m) m∗]
und
| EIN′( m∗) | < 1 ⇒ ∣∣∣∣∑i = 1N∂wich( m∗)∂m( xich- m∗) ∣∣∣∣< ∣∣∣∣∑i = 1Nwich( m∗) ∣∣∣∣[ 3 ]
wir haben
∂wich( m∗)∂m=- ρ''( | xich- m∗| )⋅ xich- m∗| xich- m∗|| xich- m∗| + xich- m∗| xich- m∗|ρ′( | xich- m∗| )| xich- m∗|2= xich- m∗| xich- m∗|3ρ′( | xich- m∗| )- ρ''( | xich- m∗| )⋅ xich- m∗| xich- m∗|2= xich- m∗| xich- m∗|2⋅ [ ρ′( | xich- m∗| )| xich- m∗|- ρ''( | xich- m∗| ) ]= xich- m∗| xich- m∗|2⋅ [ wich( m∗) - ρ''( | xich- m∗| ) ]
Einfügen in wir[ 3 ]
∣∣∣∣∑i = 1Nxich- m∗| xich- m∗|2⋅ [ wich( m∗) - ρ''( | xich- m∗| ) ] ( xich- m∗) ∣∣∣∣< ∣∣∣∣∑i = 1Nwich( m∗) ∣∣∣∣
⇒ ∣∣∣∣∑i = 1Nwich( m∗) - ∑i = 1Nρ''( | xich- m∗| ) ∣∣∣∣< ∣∣∣∣∑i = 1Nwich( m∗) ∣∣∣∣[ 4 ]
Dies ist die Bedingung, die erfüllt sein muss, damit der Festpunkt UAS ist. Da in unserem Fall die Straffunktion konvex ist, sind die Beträge positiv. Bedingung ist also äquivalent zu[ 4 ]
∑i = 1Nρ''( | xich- m∗| )<2 ∑i = 1Nwich( m∗)[ 5 ]
Wenn Huberts Verlustfunktion ist, dann haben wir einen quadratischen ( ) und einen linearen ( ) Zweig,ρ ( | xich- m | )ql
ρ ( | xich- m | ) = ⎧⎩⎨( 1 / 2 ) | xich- m |2| xich- m | ≤ δδ( | xich- m | - δ/ 2 )| xich- m | > δ
und
ρ′( | xich- m | ) = { | xich- m || xich- m | ≤ δδ| xich- m | > δ
ρ''( | xich- m | ) = { 1| xich- m | ≤ δ0| xich- m | > δ
⎧⎩⎨⎪⎪wi , q( m ) = 1| xich- m | ≤ δwi , l( m ) = δ| xich- m |< 1| xich- m | > δ
Da wir nicht wissen, wie viele der uns in den quadratischen Zweig und wie viele in den linearen, zerlegen wir Bedingung als ( )| xich- m∗|[ 5 ]Nq+ Nl= N
∑i = 1Nqρ''q+ ∑i = 1Nlρ''l< 2 [ ∑i = 1Nqwi , q+ ∑i = 1Nlwi , l]
⇒ Nq+ 0 < 2 [ Nq+ ∑i = 1Nlwi , l] ⇒0< Nq+ 2 ∑i = 1Nlwi , l
was gilt. Für die Huber-Verlustfunktion ist der Fixpunkt des Algorithmus also unabhängig von den -Werten gleichmäßig asymptotisch stabil . Wir stellen fest, dass die erste Ableitung für jedes kleiner als die absolute Einheit ist , nicht nur für den festen Punkt. xm
Was wir jetzt tun sollten, ist entweder zu beweisen, dass die UAS-Eigenschaft auch global ist, oder dass, wenn dann zur Nachbarschaft der Anziehungskraft von .m ( 0 ) = x¯m ( 0 )m∗