Eine intuitive Erklärung könnte helfen.
(i) E [ u ] = 0E[u]=0 gegen E [ u | x ] = 0E[u|x]=0 : Stellen Sie sich vor, Sie dividieren die Population durch den Wert von x,x sodass in jedem Teil der Population derselbe Wert von x enthaltenx ist. Sie können dann den Mittelwert von uu für jede Scheibe erhalten. " E [ u | x ] = 0E[ u | x ] = 0 ", was eine Abkürzung von " E [ u | x = c ] = 0E[ u | x = c ] = 0 für (fast) alle c istc", bedeutet, dass der Durchschnitt von uu in jeder Partition Null ist. Sie können auch den Durchschnitt von uu für die gesamte Bevölkerung ermitteln." E [ u ] = 0E[ u ] = 0 "bedeutet, dass der Durchschnitt von uu für die gesamte Bevölkerung Null ist.
Zum Beispiel sei xx Jahre der Bildung. E [ u | x ] = 0E[ u | x ] = 0 bedeutet, dass der Durchschnitt von uu für diejenigen mit 9 Jahren Ausbildung Null ist, der Durchschnitt von uu für diejenigen mit 10 Jahren Ausbildung Null ist usw., während E [ u ] = 0E[ u ] = 0 bedeutet, dass der Durchschnitt von u istu für die gesamte Bevölkerung ist Null.
Sie sehen, dass " E [ u | x ] = 0E[ u | x ] = 0 " eine Art " u " impliziertu nicht mit xx verwandt ist ", und dies wird als mittlere Unabhängigkeit bezeichnet . Andererseits sagt E [ u ] = 0E[ u ] = 0 nichts über die Beziehung zwischen uu und x ausx . E [ u ] = 0E[ u ] = 0 macht Sinn, ohne dass xx involviert ist, während E [ u | x ] = 0E[ u | x ] = 0macht nur in Bezug auf xx Sinn .
(ii) v a r ( u ) = σ 2v a r ( u ) = σ2 vs v a r ( u | x ) = σ 2v a r ( u | x ) = σ2 :Man stelledie Population Partitionieren durch den Wert von x . Sie können die Varianz von u für jede Scheibe erhalten. ' v a r ( u | x ) = σ 2 ' bedeutet, dass die Varianz von u für jede Partition σ 2 ist . Hier ist der entscheidende Punkt, dass σ 2 ist eine Konstante und ist nicht an x beteiligt . Dies bedeutet, dass alle Schichten die gleiche Varianz haben. v a r (xuv a r ( u | x ) = σ2uσ2σ2x u | x ) = σ 2v a r ( u | x ) = σ2 ist sehr informativ. Als nächstes können Sie auch die Varianz erhalten uu für die gesamte Bevölkerung, und v a r ( u ) = σ 2v a r ( u ) = σ2 bedeutetdass die Varianz (von uu für die Gesamtbevölkerung) bezeichnet σ 2σ2 , wobei σ 2σ2 nur eine Schreibweise ist.
v a r ( u | x )v a r ( u | x ) kann von xx (Heteroskedastizität)abhängen, aber es ist völlig unsinnig zu fragen, ob v a r ( u )v a r ( u ) von xx abhängt,weil v a r ( u )v a r ( u ) von Anfangan nichts mit xx zu tun hat( es sei denn, Sie meinen v a r ( u | x )v a r ( u | x ) mit v a r ( u )v a r ( u ) ).
(iii) c o v ( x , u ) = 0c o v ( x , u ) = 0 : Dies bedeutet nur, dass c o v ( x , u ) = 0 istc o v ( x , u ) = 0 , wobei c o v ( a , b ) definiert ist als E [ ( a - E a ) ( b - E b ) ] . In Ihrem Fall c o v ( x , u )= E [ x u ], weil E [ uc o v ( a , b )E[ ( a - Ea ) ( b - Eb ) ]c o v ( x , u ) = E[ x u ] ] = 0E[ u ] = 0 . Wenn Sie eine Vorstellung über die Bedeutung von c o v ( x , u ) = 0c o v ( x , u ) = 0 benötigen, stellen Sie sich vor, Sie haben ( x , u )( x , u ) -Werte für die gesamte Grundgesamtheit in der XY-Ebene aufgetragen, wobei xx auf der horizontalen Achse und uu auf der vertikalen Achse liegt . Sie zeichnen eine schöne gerade Linie (wo es wichtig ist, gerade zu sein). c o v ( x , u )= 0c o v ( x , u ) = 0 bedeutet, dass die Gerade horizontal ist. Es sagt etwas darüber aus, dass uu und xx nicht verwandt sind, und wenn es passiert, sagen wir, dass " xx und uu nicht korreliert sind".
E [ u | x ] = 0E[ u | x ] = 0 impliziert c o v ( x , u ) = 0c o v ( x , u ) = 0 , aber nicht umgekehrt, was der Grund istwarum c o v ( x , u ) istschwächerals E [ u | x ] = 0 . Sie können es mit dem Gesetz der wiederholten Erwartungen beweisen: E [ x u ] = E [ x E ( u| x ) ] = E [ x ≤ 0 ] = E [ 0 ] = 0 . Nehmen wir für ein Gegenbeispiel umgekehrt an, dass x ∼ N ( 0 ,cov(x,u)E[u|x]=0E[xu]=E[xE(u|x)]=E[x⋅0]=E[0]=0 1 )x∼N(0,1) und u = x 2 - 1 sindu=x2−1 . Dann ist E [ u | x ] = x 2 - 1E[u|x]=x2−1 , was nicht Null ist, außer x = ± 1,x=±1 aber c ov ( x , u ) = E [ x ( x 2 - 1 ) ] = E [ x 3 ] - E [ x ] = 0 - 0 = 0cov(x,u)=E[x(x2−1)]=E[x3]−E[x]=0−0=0 .
(iv) Was ist der Unterschied zwischen c o v ( y , x )cov(y,x) und c o v ( u , x )cov(u,x) ? Wenn y = β 0 + β 1 x + uy=β0+β1x+u , c o v ( y , x ) = c o v ( β 0 + β 1 x + u , x ) = β 1c o v ( x , x ) + c o v ( u , x )cov(y,x)=cov(β0+β1x+u,x)=β1cov(x,x)+cov(u,x) , wobei c o v ( x , x ) = v a r ( x )cov(x,x)=var(x) per Definition. Das ist der unterschied
HINZUFÜGEN:
Ich habe bemerkt , nur die Verwirrung des OP über c o v ( x i , u i )cov(xi,ui) und c o v ( x , u )cov(x,u) . Erstens kann c o v ( x , u )cov(x,u) intuitiv als die oben in (iii) erläuterte Bevölkerungseigenschaft verstanden werden. c o v ( x , u )cov(x,u) handelt von der Population und sagt nichts über die Stichprobe aus. Die Notation c o v ( x i , u i )cov(xi,ui) ist auf der anderen Seite über die Probe, und inTat soll so etwas wie "bedeutet , c o v ( x i , u i )cov(xi,ui) , i = 1 , ... , ni=1,…,n ", dh c o v ( x 1 , u 1 )cov(x1,u1) , c o v ( x 2 , u 2 ) , ... und c o v ( x n , un ) . Sie sind alle gleich, wenn die erste Person, die zweite Person, ..., diecov(x2,u2)cov(xn,un)nn te Person unabhängige Zufallszahlen aus derselben Population sind (was die Bedeutung von i i d istiid ). Wenn sie aus verschiedenen Populationen stammen, kann c o v ( x i , u i )cov(xi,ui) für verschiedene ii unterschiedlich sein , aber ich bin mir ziemlich sicher, dass Sie von i i d ausgeheniid .
Nun, was ist c o v ( x 1 , u 1 )cov(x1,u1) dann? Das ist der schwierige Teil. Um seine Bedeutung zu verstehen, sollten Sie verstehen, dass ( x 1 , u 1 ) einZufallsvektor ist, dessen Wert sich ändern kann, wenn Sie die Abtastung in Ihren Gedankenexperimenten wiederholen. (Dies wird Sie so lange verwirren, bis Sie diesen Punkt verstanden haben.) Die "erste Person" in der Stichprobe ändert sich immer wieder, wenn Sie die Stichprobe immer wieder in Ihrem Kopf zeichnen, und damit die ( x 1 , u 1 ) über den wiederholten Stichproben. Wenn Sie die erste Beobachtung unabhängig von der Grundgesamtheit zeichnen, in der Sie über c o v sprechen(x1,u1)(x1,u1)Der Wert ändert sich bei wiederholten Proben. Wenn Sie also die Abtastung auf unbestimmte Zeit wiederholen, ändern sich die Werte von x 1x1 und u 1u1 und bilden eine (gemeinsame) Verteilung. c o v ( x 1 , u 1 )cov(x1,u1) ist die Kovarianz dieser gemeinsamen Verteilung. Ebenso können Sie c o v ( x 2 , u 2 )cov(x2,u2) als die Kovarianz von x 2x2 und u 2 verstehenu2 ( x , u )cov(x,u), ist c o v ( x 1 , u 1 ) = c o v ( x , u )cov(x1,u1)=cov(x,u) .
Wenn wir also über das Populationsvermögen sprechen, verwenden wir die Notation c o v ( x , u )cov(x,u) . Wenn wir über die Kovarianz von x 1x1 und u 1u1 (über wiederholte Samples) sprechen , verwenden wir die Notation c o v ( x 1 , u 1 )cov(x1,u1) . Die Notation c o v ( x i , u i )cov(xi,ui) ist eine (schlampige) Kurznotation von c o v ( x 1 , u 1 ) , … , c o v ( x n , u n )cov(x1,u1),…,cov(xn,un) . " c o v ( x i , u i )cov(xi,ui) " selbst macht nicht viel Sinn, bis Sie sagen, was ichi bin, wie in " c o v ( x i , u i )cov(xi,ui) ist Null für jedes i = 1 , ... , ni=1,…,n " , oder " c o v ( x i ,u i )cov(xi,ui) ist für alle NichtNull - i = 1 , ... , ni=1,…,n , aber sie sind für alle gleich ii .“Die Aussage " c o v ( x i , u i ) = 0cov(xi,ui)=0 " istRegel ein fauler (oder ungeschickt) schriftlich " c o v ( x i , u i ) = 0cov(xi,ui)=0 für alle i = 1 , ... , ni=1,…,n ", was c o v bedeutet( x 1 , u 1 ) = 0cov(x1,u1)=0 , c o v ( x 2 , u 2 ) = 0cov(x2,u2)=0 , ..., c o v ( x n , u n ) = 0cov(xn,un)=0 .