Ein Problem bei der Schätzbarkeit von Parametern


13

Sei Y1,Y2,Y3 und Y4 vier Zufallsvariablen, so dass E(Y1)=θ1θ3;  E(Y2)=θ1+θ2θ3;  E(Y3)=θ1θ3;  E(Y4)=θ1θ2θ3 , wobeiθ1,θ2,θ3 unbekannte Parameter sind. Man nehme auch andassVar(Yi)=σ2 ,i=1,2,3,4. Dann welche wahr ist?

A. θ1,θ2,θ3 thgr ; 3 sind abschätzbar.

B. θ1+θ3 ist abschätzbar.

C. θ1θ3 ist abschätzbar und 12(Y1+Y3)ist die beste lineare unverzerrte Schätzung vonθ1θ3.

D. θ2 ist abschätzbar.

Die Antwort lautet C, was für mich seltsam aussieht (weil ich D habe).

Warum habe ich D? Da ist E(Y2Y4)=2θ2 .

Warum verstehe ich nicht, dass C eine Antwort sein könnte? Ok, ich kann sehen, Y1+Y2+Y3+Y44 ist ein unverzerrter Schätzer vonθ1θ3;1-& thgr;3, und seine Varianz ist kleiner alsY1+Y32 .

Bitte sag mir, wo ich falsch mache.

Auch hier gepostet: /math/2568894/a-problem-on-estimability-of-parameters


1
Setzen Sie einen self-studyTag ein oder jemand kommt vorbei und schließt Ihre Frage.
Carl

@ Carl es ist geschafft, aber warum?
Stat_prob_001

Dies sind die Regeln für die Site, nicht meine Regeln, Site-Regeln.
Carl

Ist Y1Y3 ?
Carl

1
@Carl Sie können folgendermaßen denken: wobei ϵ 1 ein rv mit dem Mittelwert 0 und der Varianz σ 2 ist . Und Y 3 = θ 1 - θ 3 + ε 3 wobei ε 3 ist ein rv mit Mittelwert 0 und der Varianz σ 2Y1=θ1θ3+ϵ1ϵ10σ2Y3=θ1θ3+ϵ3ϵ30σ2
Stat_prob_001

Antworten:


8

Diese Antwort betont die Überprüfung der Schätzbarkeit. Die Eigenschaft der minimalen Varianz ist von meiner sekundären Überlegung.

Fassen Sie zunächst die Informationen in Form einer Matrix eines linearen Modells wie folgt zusammen: wobeiE(ε)=0,Var(ε)=σ2I(um die Abschätzbarkeit zu diskutieren, ist die Sphäritätsannahme nicht erforderlich. Um jedoch die Gauß-Markov-Eigenschaft zu diskutieren, müssen wir die Sphärität annehmen vonε).

(1)Y:=[Y1Y2Y3Y4]=[101111101111][θ1θ2θ3]+[ε1ε2ε3ε4]:=Xβ+ε,
E(ε)=0,Var(ε)=σ2Iε

Wenn die Designmatrix vollen Rang ist, dann ist die ursprünglichen Parameter β hat eine eindeutige Least-Squares - Schätzung β = ( X ' X ) - 1 X ' Y . Folglich jeder Parameter φ , als eine lineare Funktion definiert φ ( β ) von β ist , in dem Sinne , dass es schätzen eindeutig durch die Daten über die kleinsten Quadrate geschätzt werden , abzuschätzen β als φ = p ' β .Xββ^=(XX)1XYϕϕ(β)ββ^ϕ^=pβ^

Die Subtilität entsteht, wenn nicht den vollen Rang hat. Um eine eingehende Erörterung zu ermöglichen, werden zunächst einige Notationen und Ausdrücke festgelegt (ich befolge die Konvention des koordinatenfreien Ansatzes für lineare Modelle , Abschnitt 4.8. Einige der Ausdrücke klingen unnötig technisch). Darüber hinaus gilt die Diskussion zu dem allgemeinen linearen Modell Y = X β + ε mit X R n × k und β R k .XY=Xβ+εXRn×kβRk

  1. Eine Regressions Verteiler ist die Sammlung von Mittelwertvektoren als über variiert R k : M = { X β : β R k } .βRk
    M={Xβ:βRk}.
  2. Eine parametrische Funktion ist eine lineare Funktion von β , ϕ ( β ) = p β = p 1 β 1 + + p k β k .ϕ=ϕ(β)β
    ϕ(β)=pβ=p1β1++pkβk.

Wie oben erwähnt, ist, wenn , nicht jede parametrische Funktion ϕ ( β ) abschätzbar. Aber warten Sie, wie ist die Definition des Begriffs technisch abschätzbar ? Es scheint schwierig zu sein, eine klare Definition zu geben, ohne sich um eine kleine lineare Algebra zu kümmern. Eine Definition, die ich für die intuitivste halte, lautet wie folgt (aus derselben oben genannten Referenz):rank(X)<kϕ(β)

Definition 1. Eine parametrische Funktion ist abschätzbar, wenn sie durch X β eindeutigin dem Sinne bestimmt wird, dass ϕ ( β 1 ) = ϕ ( β 2 ) ist, wenn β 1 , β 2R k X β 1 = X erfüllen β 2 .ϕ(β)Xβϕ(β1)=ϕ(β2)β1,β2RkXβ1=Xβ2

Deutung. Die obige Definition legt fest, dass die Abbildung von der Regressions Mannigfaltigkeit auf den Parameterraum von ϕ eins zu eins sein muss, was garantiert ist, wenn Rang ( X ) = k ist (dh wenn X selbst eins zu eins ist). Wenn Rang ( X ) < k ist , wissen wir, dass es β 1β 2 gibt, so dass X β 1 = X β 2 istMϕrank(X)=kXrank(X)<kβ1β2Xβ1=Xβ2. Die vorstehende abschätzbare Definition schließt diejenigen strukturdefizienten parametrischen Funktionen aus, die selbst bei gleichem Wert für unterschiedlichen Werten führen , was auf natürliche Weise keinen Sinn ergibt . Andererseits erlaubt eine schätzbare parametrische Funktion ϕ ( ) den Fall ϕ ( β 1 ) = ϕ ( β 2 ) mit β 1β 2 , solange die Bedingung X β 1 = X β 2 erfüllt ist.Mϕ()ϕ(β1)=ϕ(β2)β1β2Xβ1=Xβ2

There are other equivalent conditions to check the estimability of a parametric functional given in the same reference, Proposition 8.4.

After such a verbose background introduction, let's come back to your question.

A. β itself is non-estimable for the reason that rank(X)<3, which entails Xβ1=Xβ2 with β1β2. Although the above definition is given for scalar functionals, it is easily generalized to vector-valued functionals.

ϕ1(β)=θ1+θ3=(1,0,1)ββ1=(0,1,0)β2=(1,1,1), which gives Xβ1=Xβ2 but ϕ1(β1)=0+0=0ϕ1(β2)=1+1=2

ϕ2(β)=θ1θ3=(1,0,1)βXβ1=Xβ2 trivially implies θ1(1)θ3(1)=θ1(2)θ3(2), i.e., ϕ2(β1)=ϕ2(β2).

D. ϕ3(β)=θ2=(0,1,0)β is also estimable. The derivation from Xβ1=Xβ2 to ϕ3(β1)=ϕ3(β2) is also trivial.

After the estimability is verified, there is a theorem (Proposition 8.16, same reference) claims the Gauss-Markov property of ϕ(β). Based on that theorem, the second part of option C is incorrect. The best linear unbiased estimate is Y¯=(Y1+Y2+Y3+Y4)/4, by the theorem below.

Theorem. Let ϕ(β)=pβ be an estimable parametric functional, then its best linear unbiased estimate (aka, Gauss-Markov estimate) is ϕ(β^) for any solution β^ to the normal equations XXβ^=XY.

The proof goes as follows:

Proof. Straightforward calculation shows that the normal equations is

[404020404]β^=[111101011111]Y,
which, after simplification, is
[ϕ(β^)θ^2/2ϕ(β^)]=[Y¯(Y2Y4)/4Y¯],
i.e., ϕ(β^)=Y¯.

Therefore, option D is the only correct answer.


Addendum: The connection of estimability and identifiability

When I was at school, a professor briefly mentioned that the estimability of the parametric functional ϕ corresponds to the model identifiability. I took this claim for granted then. However, the equivalance needs to be spelled out more explicitly.

According to A.C. Davison's monograph Statistical Models p.144,

Definition 2. A parametric model in which each parameter θ generates a different distribution is called identifiable.

For linear model (1), regardless the spherity condition Var(ε)=σ2I, it can be reformulated as

(2)E[Y]=Xβ,βRk.

It is such a simple model that we only specified the first moment form of the response vector Y. When rank(X)=k, model (2) is identifiable since β1β2 implies Xβ1Xβ2 (the word "distribution" in the original definition, naturally reduces to "mean" under model (2).).

Now suppose that rank(X)<k and a given parametric functional ϕ(β)=pβ, how do we reconcile Definition 1 and Definition 2?

Well, by manipulating notations and words, we can show that (the "proof" is rather trivial) the estimability of ϕ(β) is equivalent to that the model (2) is identifiable when it is parametrized with parameter ϕ=ϕ(β)=pβ (the design matrix X is likely to change accordingly). To prove, suppose ϕ(β) is estimable so that Xβ1=Xβ2 implies pβ1=pβ2, by definition, this is ϕ1=ϕ2, hence model (3) is identifiable when indexing with ϕ. Conversely, suppose model (3) is identifiable so that Xβ1=Xβ2 implies ϕ1=ϕ2, which is trivially ϕ1(β)=ϕ2(β).

Intuitively, when X is reduced-ranked, the model with β is parameter redundant (too many parameters) hence a non-redundant lower-dimensional reparametrization (which could consist of a collection of linear functionals) is possible. When is such new representation possible? The key is estimability.

To illustrate the above statements, let's reconsider your example. We have verified parametric functionals ϕ2(β)=θ1θ3 and ϕ3(β)=θ2 are estimable. Therefore, we can rewrite the model (1) in terms of the reparametrized parameter (ϕ2,ϕ3) as follows

E[Y]=[10111011][ϕ2ϕ3]=X~γ.

Clearly, since X~ is full-ranked, the model with the new parameter γ is identifiable.


If you need a proof for the second part of option C, I will supplement my answer.
Zhanxiong

2
thanks! for such a detailed answer. Now, about the second part of C: I know that "best" relates to minimum variance. So, why not 14(Y1+Y2+Y3+Y4) is not "best"?
Stat_prob_001

2
Oh, I don't know why I thought it is the estimator in C. Actually (Y1+Y2+Y3+Y4)/4 is the best estimator. Will edit my answer
Zhanxiong

6

Apply the definitions.

I will provide details to demonstrate how you can use elementary techniques: you don't need to know any special theorems about estimation, nor will it be necessary to assume anything about the (marginal) distributions of the Yi. We will need to supply one missing assumption about the moments of their joint distribution.

Definitions

All linear estimates are of the form

tλ(Y)=i=14λiYi
for constants λ=(λi).

An estimator of θ1θ3 is unbiased if and only if its expectation is θ1θ3. By linearity of expectation,

θ1θ3=E[tλ(Y)]=i=14λiE[Yi]=λ1(θ1θ3)+λ2(θ1+θ2θ3)+λ3(θ1θ3)+λ4(θ1θ2θ3)=(λ1+λ2+λ3+λ4)(θ1θ3)+(λ2λ4)θ2.

Comparing coefficients of the unknown quantities θi reveals

(1)λ2λ4=0 and λ1+λ2+λ3+λ4=1.

In the context of linear unbiased estimation, "best" always means with least variance. The variance of tλ is

Var(tλ)=i=14λi2Var(Yi)+ij4λiλjCov(Yi,Yj).

The only way to make progress is to add an assumption about the covariances: most likely, the question intended to stipulate they are all zero. (This does not imply the Yi are independent. Furthermore, the problem can be solved by making any assumption that stipulates those covariances up to a common multiplicative constant. The solution depends on the covariance structure.)

Since Var(Yi)=σ2, we obtain

(2)Var(tλ)=σ2(λ12+λ22+λ32+λ42).

The problem therefore is to minimize (2) subject to constraints (1).

Solution

The constraints (1) permit us to express all the λi in terms of just two linear combinations of them. Let u=λ1λ3 and v=λ1+λ3 (which are linearly independent). These determine λ1 and λ3 while the constraints determine λ2 and λ4. All we have to do is minimize (2), which can be written

σ2(λ12+λ22+λ32+λ42)=σ24(2u2+(2v1)2+1).

No constraints apply to (u,v). Assume σ20 (so that the variables aren't just constants). Since u2 and (2v1)2 are smallest only when u=2v1=0, it is now obvious that the unique solution is

λ=(λ1,λ2,λ3,λ4)=(1/4,1/4,1/4,1/4).

Option (C) is false because it does not give the best unbiased linear estimator. Option (D), although it doesn't give full information, nevertheless is correct, because

θ2=E[t(0,1/2,0,1/2)(Y)]

is the expectation of a linear estimator.

It is easy to see that neither (A) nor (B) can be correct, because the space of expectations of linear estimators is generated by {θ2,θ1θ3} and none of θ1,θ3, or θ1+θ3 are in that space.

Consequently (D) is the unique correct answer.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.