Herleitung der Normalisierungstransformation für GLMs


15

Wie lautet die -Normalisierungstransformation für die Exponentialfamilie? abgeleitet? A ( ) = d uV 1 / 3 ( μ )A()=duV1/3(μ)

Genauer gesagt : Ich habe versucht, der Taylor-Erweiterungsskizze auf Seite 3, Folie 1, zu folgen, habe aber mehrere Fragen. Mit aus einer Exponentialfamilie, Transformation und \ kappa _i, die das i ^ {th} -Kumulat bezeichnet, argumentieren die Folien, dass: \ kappa _3 (h (\ bar {X})) \ approx h '(\ mu) ^ 3 \ frac {\ kappa _3 (\ bar {X})} {N ^ 2} + 3h '(\ mu) ^ 2h' '(\ mu) \ frac {\ sigma ^ 4} {N} + O (N ^ {- 3}), und es bleibt einfach h (X) zu finden, so dass das obige zu 0 ausgewertet wird.Xh(X)κiithκ 3 ( h ( ˉ X ) ) h ' ( μ ) 3 κ 3 ( ˉ X )N 2 +3h'(μ)2h' '(μ)σ4N +O(N-3),

κ3(h(X¯))h(μ)3κ3(X¯)N2+3h(μ)2h′′(μ)σ4N+O(N3),
h(X)h(X)
  1. Meine erste Frage betrifft die Arithmetik: Meine Taylor-Expansion hat unterschiedliche Koeffizienten, und ich kann nicht rechtfertigen, dass sie viele der Terme fallengelassen hat.

    Seit  h ( x )H ( μ ) + h ' ( μ ) ( x - μ ) + h " ( x )2 (x-μ)2haben wir:h( ˉ X ) - h ( u )h ' ( u ) ) ( ˉ X - μ ) + h " ( x )2 ( ˉ X -μ)2E(h(ˉX)h(u))3h(μ)3E(ˉXμ)3+32h(μ)2h(μ)E(ˉXμ)4+34h(μ)h(μ)2E(ˉXμ)5+18h(μ)3E(ˉXμ)6.

    Since h(x)h(X¯)h(u)E(h(X¯)h(u))3h(μ)+h(μ)(xμ)+h′′(x)2(xμ)2, we have:h(u))(X¯μ)+h′′(x)2(X¯μ)2h(μ)3E(X¯μ)3+32h(μ)2h′′(μ)E(X¯μ)4+34h(μ)h′′(μ)2E(X¯μ)5+18h′′(μ)3E(X¯μ)6.

    Ich kann zu etwas Ähnlichem gelangen, indem ich die zentralen Momente durch ihre kumulativen Entsprechungen ersetze, aber es summiert sich immer noch nicht.

  2. Die zweite Frage: Warum beginnt die Analyse mit ˉXX¯ anstelle von XX , der Menge, um die wir uns eigentlich kümmern?


Sie scheinen zu haben uu mehrmals , wo Sie bedeuten μμ
Glen_b -Reinstate Monica

Antworten:


2

Die Folien, auf die Sie verlinken, sind etwas verwirrend, lassen Schritte aus und machen ein paar Tippfehler, aber letztendlich sind sie korrekt. Es wird hilfreich sein, zuerst Frage 2 zu beantworten, dann Frage 1 und schließlich die Symmetrisierungstransformation abzuleiten. .A ( u ) = u - 1[ V ( θ ) ] 1 / 3 dθA(u)=u1[V(θ)]1/3dθ

Frage 2. Wir analysieren als Mittelwert einer Stichprobe der Größe von iid Zufallsvariablen . Dies ist eine wichtige Größe, da es in der Wissenschaft immer wieder vorkommt, die gleiche Verteilung abzutasten und den Mittelwert zu bilden. Wir wollen wissen, wie nahe am wahren Mittelwert . Der zentrale Grenzwertsatz besagt, dass er gegen als konvergiert, aber wir möchten die Varianz und die Schiefe von .ˉ X NX1,. . . ,XN ˉ X & mgr;& mgr;N ˉ XX¯NX1,...,XNX¯μμNX¯

Frage 1. Ihre Taylorreihenannäherung ist nicht falsch, aber wir müssen sorgfältig darauf achten, vs. und Potenzen von zu verfolgen , um zu derselben Schlussfolgerung wie die Folien zu gelangen. Wir beginnen mit den Definitionen von und den zentralen Momenten von und leiten die Formel für :X XiNX Xiκ3(h(X ))X¯XiNX¯Xiκ3(h(X¯))

ˉ X =1N N i = 1 XiX¯=1NNi=1Xi

E [ X i ] = μE[Xi]=μ

V ( X i ) = E [ ( X i - μ ) 2 ] = σ 2V(Xi)=E[(Xiμ)2]=σ2

κ 3 ( X i ) = E [ ( X i - μ ) 3 ]κ3(Xi)=E[(Xiμ)3]

Nun die zentralen Momente von :ˉ XX¯

E [ ˉ X ] = 1N N i = 1 E[Xi]=1N (Nu)=uE[X¯]=1NNi=1E[Xi]=1N(Nμ)=μ

V ( ˉ X )= E [ ( ˉ X - μ ) 2 ]= E [ ( ( 1N N i=1Xi)-μ ) 2]= E [ ( 1NNi=1(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2V(X¯)=E[(X¯μ)2]=E[((1Ni=1NXi)μ)2]=E[(1Ni=1N(Xiμ))2]=1N2(NE[(Xiμ)2]+N(N1)E[Xiμ]E[Xjμ])=1Nσ2

Der letzte Schritt folgt, da und . Dies war möglicherweise nicht die einfachste Herleitung von , aber es ist der gleiche Vorgang, den wir müssen, um und , wobei wir ein Produkt einer Summation auflösen und die Anzahl der Terme mit Potenzen verschiedener Variablen zählen. Im obigen Fall gab es Terme der Form und Terme der Form .E[Xiμ]=0E[Xiμ]=0E[(Xiμ)2]=σ2E[(Xiμ)2]=σ2V(ˉX)V(X¯)κ3(ˉX)κ3(X¯)κ3(h(ˉX))κ3(h(X¯))NN(Xiμ)2(Xiμ)2N(N1)N(N1)(Xiμ)(Xjμ)(Xiμ)(Xjμ)

κ3(ˉX)=E[(ˉXμ)3)]=E[((1NNi=1Xi)μ)3]=E[(1NNi=1(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2κ3(X¯)=E[(X¯μ)3)]=E[((1Ni=1NXi)μ)3]=E[(1Ni=1N(Xiμ))3]=1N3(NE[(Xiμ)3]+3N(N1)E[(Xiμ)E[(Xjμ)2]+N(N1)(N2)E[(Xiμ)]E[(Xjμ)]E[(Xkμ)]=1N2E[(Xiμ)3]=κ3(Xi)N2

Als Nächstes werden wir in einer Taylor-Reihe wie folgt erweitern :h(ˉX)h(X¯)

h(ˉX)=h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+13h(μ)(ˉXμ)3+...h(X¯)=h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+13h′′′(μ)(X¯μ)3+...

E[h(ˉX)]=h(μ)+h(μ)E[ˉXμ]+12h(μ)E[(ˉXμ)2]+13h(μ)E[(ˉXμ)3]+...=h(μ)+12h(μ)σ2N+13h(μ)κ3(Xi)N2+...E[h(X¯)]=h(μ)+h(μ)E[X¯μ]+12h′′(μ)E[(X¯μ)2]+13h′′′(μ)E[(X¯μ)3]+...=h(μ)+12h′′(μ)σ2N+13h′′′(μ)κ3(Xi)N2+...

Mit etwas mehr Aufwand können Sie beweisen, dass die restlichen Begriffe . Schließlich ist , (was nicht mit identisch ist ), führen wir erneut eine ähnliche Berechnung durch:O(N3)O(N3)κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]E[(h(ˉX)h(μ))3]E[(h(X¯)h(μ))3]

κ3(h(ˉX))=E[(h(ˉX)E[h(ˉX)])3]=E[(h(μ)+h(μ)(ˉXμ)+12h(μ)(ˉXμ)2+O((ˉXμ)3)h(μ)12h(μ)σ2NO(N2))3]κ3(h(X¯))=E[(h(X¯)E[h(X¯)])3]=E[(h(μ)+h(μ)(X¯μ)+12h′′(μ)(X¯μ)2+O((X¯μ)3)h(μ)12h′′(μ)σ2NO(N2))3]

Wir sind nur an den Begriffen interessiert, die zu der Reihenfolge , und mit zusätzlicher Arbeit könnten Sie zeigen, dass Sie die Begriffe " nicht benötigen. "oder" ", bevor die dritte Potenz genommen wird, da sie nur die Reihenfolge . Vereinfacht gesagt, bekommen wirO(N2)O(N2)O((ˉXμ)3)O((X¯μ)3)O(N2)O(N2)O(N3)O(N3)

κ3(h(ˉX))=E[(h(μ)(ˉXμ)+12h(μ)(ˉXμ)212h(μ)σ2N))3]=E[h(μ)3(ˉXμ)3+18h(μ)3(ˉXμ)618h(μ)3σ6N3+32h(μ)2h(μ)(ˉXμ)4+34h(μ)h(μ)(ˉXμ)532h(μ)2h(μ)(ˉXμ)2σ2N+O(N3)]κ3(h(X¯))=E[(h(μ)(X¯μ)+12h′′(μ)(X¯μ)212h′′(μ)σ2N))3]=E[h(μ)3(X¯μ)3+18h′′(μ)3(X¯μ)618h′′(μ)3σ6N3+32h(μ)2h′′(μ)(X¯μ)4+34h(μ)h′′(μ)(X¯μ)532h(μ)2h′′(μ)(X¯μ)2σ2N+O(N3)]

Ich habe einige Begriffe weggelassen, die in diesem Produkt offensichtlich lauten. Sie müssen sich selbst davon überzeugen, dass die Begriffe und lauten auch. Jedoch,O(N3)O(N3)E[(ˉXμ)5]E[(X¯μ)5]E[(ˉXμ)6]E[(X¯μ)6]O(N3)O(N3)

E[(ˉXμ)4]=E[1N4(Ni=1(ˉXμ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)E[(X¯μ)4]=E[1N4(i=1N(X¯μ))4]=1N4(NE[(Xiμ)4]+3N(N1)E[(Xiμ)2]E[(Xjμ)2]+0)=3N2σ4+O(N3)

Dann verteilt die Erwartung auf unserer Gleichung für , haben wirκ3(h(ˉX))κ3(h(X¯))

κ3(h(ˉX))=h(μ)3E[(ˉXμ)3]+32h(μ)2h(μ)E[(ˉXμ)4]32h(μ)2h(μ)E[(ˉXμ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h(μ)σ4N232h(μ)2h(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2+O(N3)κ3(h(X¯))=h(μ)3E[(X¯μ)3]+32h(μ)2h′′(μ)E[(X¯μ)4]32h(μ)2h′′(μ)E[(X¯μ)2]σ2N+O(N3)=h(μ)3κ3(Xi)N2+92h(μ)2h′′(μ)σ4N232h(μ)2h′′(μ)σ4N2+O(N3)=h(μ)3κ3(Xi)N2+3h(μ)2h′′(μ)σ4N2+O(N3)

Damit ist die Herleitung von . Nun leiten wir endlich die Symmetrisierungstransformation .κ3(h(ˉX))κ3(h(X¯))A(u)=u1[V(θ)]1/3dθA(u)=u1[V(θ)]1/3dθ

Für diese Transformation ist es wichtig, dass aus einer Exponentialfamilienverteilung und insbesondere einer natürlichen Exponentialfamilie (oder sie wurde in diese Verteilung transformiert) der FormXiXifXi(x;θ)=h(x)exp(θxb(θ))fXi(x;θ)=h(x)exp(θxb(θ))

In diesem Fall sind die Kumulanten der Verteilung gegeben durch . So , und . Wir können den Parameter als eine Funktion von ; schreiben, indem wir einfach die Umkehrung von und schreiben . Dannκk=b(k)(θ)κk=b(k)(θ)μ=b(θ)μ=b(θ)σ2=V(θ)=b(θ)σ2=V(θ)=b′′(θ)κ3=b(θ)κ3=b′′′(θ)θθμμbbθ(μ)=(b)1(μ)θ(μ)=(b)1(μ)

θ(μ)=1b((b)1(μ))=1b(θ))=1σ2θ(μ)=1b′′((b)1(μ))=1b′′(θ))=1σ2

Als nächstes können wir die Varianz als Funktion von schreiben und diese Funktion aufrufen :μμˉVV¯

ˉV(μ)=V(θ(μ))=b(θ(μ))

Dann

ddμˉV(μ)=V(θ(μ))θ(μ)=b(θ)1σ2=κ3σ2

Also als eine Funktion von , .μκ3(μ)=ˉV(μ)ˉV(μ)

Nun wollen wir für die Symmetrisierungstransformation die Schiefe von verringern, indem wir , so daß ist . Also wollen wirh(ˉX)h(μ)3κ3(Xi)N2+3h(μ)2h(μ)σ4N2=0h(ˉX)O(N3)

h(μ)3κ3(Xi)+3h(μ)2h(μ)σ4=0

Wenn wir unsere Ausdrücke für und als Funktionen von , haben wir:σ2κ3μ

h(μ)3ˉV(μ)ˉV(μ)+3h(μ)2h(μ)ˉV(μ)2=0

Also , was zu .h(μ)3ˉV(μ)+3h(μ)2h(μ)ˉV(μ)=0ddμ(h(μ)3ˉV(μ))=0

Eine Lösung für diese Differentialgleichung lautet:

h(μ)3ˉV(μ)=1 ,

h(μ)=1[ˉV(μ)]1/3

Also ist für jede Konstante, . Dies gibt uns die Symmetrisierungstransformation , wobei die Varianz als ist eine Funktion des Mittelwerts in einer natürlichen Exponentialfamilie.h(μ)=μc1[ˉV(θ)]1/3dθcA(u)=u1[V(θ)]1/3dθV


1

1.Warum kann ich nicht das gleiche Ergebnis indem ich die nichtzentralen Momente approximiere und dann die zentralen Momente Verwendung der approximierenden nichtzentralen Momente?EˉXkE(ˉXEˉX)k

Weil Sie die Ableitung beliebig ändern und den wichtigen Restbegriff fallen lassen. Wenn Sie mit der großen O-Notation und den relevanten Ergebnissen nicht vertraut sind, ist [Casella & Lehmann] eine gute Referenz.

h(ˉX)h(u)h(u)(ˉXμ)+h(x)2(ˉXμ)2+O[(ˉXμ)3]

E[h(ˉX)h(u)]h(u)E(ˉXμ)+h(x)2E(ˉXμ)2+(?)

Aber selbst wenn Sie den Rückstand nicht löschen, indem Sie behaupten, dass Sie immer (was nicht legal ist ...), führen Sie den folgenden Schritt aus: besagt, dassN\E(h(ˉX)h(u))3h(μ)3\E(ˉXμ)3+32h(μ)2h(μ)\E(ˉXμ)4+34h(μ)h(μ)2\E(ˉXμ)5+18h(μ)3\E(ˉXμ)6.(1)

[h(x)h(x0)]3dx=[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3dx=(1)

Wenn dies immer noch nicht klar ist, können wir die Algebra der Erweiterung des Integranden als sehen

[h(x0)(xx0)+12h(x0)(xx0)2+O((xx0)3)]3(2)

Vermietung , ,A=h(x0)(xx0)B=12h(x0)(xx0)2C=O((xx0)3) (2)=[A+B+C]3 [A3+3A2B+3AB2+B3]=[A+B]3=(1)

Ihr Fehler besteht darin, den Rest vor der Erweiterung wegzulassen. Dies ist ein "klassischer" Fehler in der Big-O-Notation und wurde später zu einer Kritik an der Verwendung der Big-O-Notation.

beginnt die Analyse mit anstelle von , der Menge, um die wir uns eigentlich kümmern?ˉXX

Weil wir unsere Analyse auf die ausreichende Statistik des Exponentialmodells stützen wollen, das wir einführen. Wenn Sie eine Stichprobe der Größe 1 haben, gibt es keinen Unterschied, ob Sie mit ODER analysieren .ˉX=1nni=1XiX1

Dies ist eine gute Lektion in Big-O-Notation, obwohl sie für GLM nicht relevant ist ...

Referenz [Casella & Lehmann] Lehmann, Erich Leo und George Casella. Theorie der Punktschätzung. Springer Science & Business Media, 2006.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.