Man kann nur raten, was ein bestimmter Autor unter "gemeinsamer Varianz" verstehen könnte. Wir könnten hoffen, die Möglichkeiten zu umschreiben, indem wir überlegen, welche Eigenschaften dieses Konzept (intuitiv) haben sollte. Wir wissen, dass "Varianzen addieren": Die Varianz einer Summe ist die Summe der Varianzen von und wenn und keine Kovarianz haben. Es ist natürlich, die "gemeinsame Varianz" von zu definieren, wobei die Summe der Bruchteil der Varianz der Summe ist, die durch die Varianz von . Dies reicht aus, um die gemeinsamen Varianzen von zwei beliebigen Zufallsvariablen zu implizieren X ε X ε X X X Y.X.+ εX.εXεXXXund muss das Quadrat ihres Korrelationskoeffizienten sein.Y
Dieses Ergebnis gibt der Interpretation eines quadratischen Korrelationskoeffizienten als "gemeinsame Varianz" eine Bedeutung: In einem geeigneten Sinne ist es tatsächlich ein Bruchteil einer Gesamtvarianz, die einer Variablen in der Summe zugeordnet werden kann.
Die Details folgen.
Prinzipien und ihre Auswirkungen
Wenn , sollte ihre "gemeinsame Varianz" (von nun an "SV") 100% betragen. Aber was ist, wenn und nur skalierte oder verschobene Versionen voneinander sind? Was ist zum Beispiel, wenn die Temperatur einer Stadt in Grad F und die Temperatur in Grad C darstellt? Ich möchte vorschlagen, dass in solchen Fällen und immer noch 100% SV haben sollten, damit dieses Konzept unabhängig davon, wie und gemessen werden könnten, aussagekräftig bleibt :Y X Y X X Y X Y.Y=XYXYXXYXY
SV(α+βX,γ+δY)=SV(X,Y)(1)
für beliebige Zahlen und Zahlen ungleich Null .β , δα,γβ,δ
Ein anderes Prinzip könnte sein, dass wenn eine von unabhängige Zufallsvariable ist , die Varianz von eindeutig in zwei nicht negative Teile zerlegt werden kann.X X + εεXX+ε
Var(X+ε)=Var(X)+Var(ε),
Wir schlagen vor, SV in diesem speziellen Fall als zu definieren
SV(X,X+ε)=Var(X)Var(X)+Var(ϵ).(2)
Da alle diese Kriterien nur bis zur zweiten Ordnung sind - sie werden nur die ersten und zweiten Momente der Variablen in den Formen der Erwartungen beinhalten und Varianzen - lassen Sie uns entspannen die Forderung , dass und sein unabhängig und nur verlangen , dass sie sein unkorreliert . Dadurch wird die Analyse viel allgemeiner als sonst.εXε
Die Ergebnisse
Diese Prinzipien führen - wenn Sie sie akzeptieren - zu einem einzigartigen, vertrauten und interpretierbaren Konzept. Der Trick wird darin bestehen, den allgemeinen Fall auf den Sonderfall einer Summe zu reduzieren, in der wir die Definition anwenden können .(2)
Wenn , versuchen wir einfach, in eine skalierte, verschobene Version von plus eine Variable zu zerlegen , die nicht mit korreliert ist. Das heißt, wir finden (wenn es möglich ist) die Konstanten und und eine Zufallsvariable für welcheY X X α β ϵ(X,Y)YXXαβϵ
Y=α+βX+ε(3)
mit . Damit die Zersetzung eine Chance hat, einzigartig zu sein, sollten wir dies fordernCov(X,ε)=0
E[ε]=0
Sobald gefunden ist, wird durch bestimmtβα
α=E[Y]−βE[X].
Dies sieht sehr nach linearer Regression aus und ist es auch. Das erste Prinzip besagt, dass wir und skalieren können, um eine Einheitsvarianz zu erhalten (vorausgesetzt, sie haben jeweils eine Varianz ungleich Null), und dass Standardregressionsergebnisse den Wert von in als Korrelation von und :XYβ(3)XY
β=ρ(X,Y).(4)
Darüber hinaus ergibt sich aus den Varianzen von(1)
1=Var(Y)=β2Var(X)+Var(ε)=β2+Var(ε),
impliziert
Var(ε)=1−β2=1−ρ2.(5)
Folglich
SV(X,Y)=SV(X,α+βX+ε)=SV(βX,βX+ε)=Var(βX)Var(βX)+Var(ϵ)=β2β2+(1−β2)=β2=ρ2(Model 3)(Property 1)(Definition 2)(Result 5)(Relation 4).
Beachten Sie, dass die "gemeinsame Varianz" selbst symmetrisch ist , da der Regressionskoeffizient für (wenn auf Einheitsvarianz standardisiert) ist, was eine Terminologie rechtfertigt, die die Reihenfolge von vorschlägt und spielt keine Rolle:Yρ(Y,X)=ρ(X,Y)XY
SV(X,Y)=ρ(X,Y)2=ρ(Y,X)2=SV(Y,X).