Intuition (geometrische oder andere) von


18

Betrachten Sie die elementare Identität der Varianz:

Var(X)=E[(XE[X])2]=...=E[X2](E[X])2

Es ist eine einfache algebraische Manipulation der Definition eines zentralen Moments in nicht-zentrale Momente.

Es ermöglicht die bequeme Manipulation von Var(X) in anderen Zusammenhängen. Es ermöglicht auch die Berechnung der Varianz über einen einzelnen Durchgang über Daten anstelle von zwei Durchgängen, um zuerst den Mittelwert und dann die Varianz zu berechnen.

Aber was heißt das ? Für mich gibt es keine unmittelbare geometrische Intuition , die Verbreitung über den Mittelwert zu Spread etwa 0. Wie bezieht X ist ein Satz auf einer einzigen Dimension, wie sehen Sie die Ausbreitung um einen Mittelwert als die Differenz zwischen Ausbreitung um den Ursprung und das Quadrat der bedeuten?

Gibt es eine gute lineare Algebra, physikalische oder andere Interpretation, die einen Einblick in diese Identität gibt?


7
Hinweis: Dies ist der Satz von Pythagoras.
Whuber

1
@Matthew Ich frage mich, was " E " bedeuten soll. Ich vermute, es ist keine Erwartung, sondern nur eine Abkürzung für das arithmetische Mittel. Andernfalls wären die Gleichungen falsch (und nahezu bedeutungslos, da sie dann Zufallsvariablen mit Zahlen gleichsetzen würden).
whuber

2
@whuber Da innere Produkte die Idee von Abständen und Winkeln einführen und das innere Produkt des Vektorraums von reellen Zufallsvariablen als E[XY] (?) definiert ist, frage ich mich, ob eine geometrische Intuition über die gegeben werden könnte Dreiecksungleichung. Ich habe keine Ahnung, wie ich vorgehen soll, aber ich habe mich gefragt, ob es überhaupt Sinn macht.
Antoni Parellada

1
@Antoni Die Dreiecksungleichung ist zu allgemein. Ein inneres Produkt ist ein viel spezielleres Objekt. Glücklicherweise ist die passende geometrische Intuition genau die der euklidischen Geometrie. Darüber hinaus kann die notwendige Geometrie auch für die Zufallsvariablen X und Y auf den durch X und erzeugten zweidimensionalen reellen Vektorraum beschränkt werden, dh Yauf die euklidische Ebene selbst. Im vorliegenden Fall scheint X kein Wohnmobil zu sein: Es ist nur ein n Vektor. Hier wird der von X und ( 1 , 1 , , 1 ) aufgespannte Raum(1,1,,1)ist die euklidische Ebene, in der die gesamte Geometrie vorkommt.
Whuber

3
Einstellen β 1 = 0 in der Antwort , die ich verknüpfen und Dividieren alle Bedingungen von n (wenn Sie möchten) gibt Ihnen die volle algebraische Lösung für die Varianz: Es gibt keinen Grund , es noch einmal zu kopieren. Das ist , weil β 0 das arithmetische Mittel der ist y , von wo aus | | y - y | | 2 ist nur das n- fache der Varianz, wie Sie sie hier definiert haben, | | y | | 2 ist das n- fache des quadratischen arithmetischen Mittels und |β^1=0nβ^0y||yy^||2n||y^||2n||y||2 ist dasn fache des arithmetischen Mittels der quadrierten Werte.
Whuber

Antworten:


21

Wenn Sie den Punkt von @ whuber in den Kommentaren erweitern und Y und Z orthogonal sind, haben Sie den Satz von Pythagoras :

Y2+Z2=Y+Z2

Man beachte , daß a gilt Skalarprodukt und daß Y = Y,ZE[YZ] ist dieNorm, die durch dieses innere Produkt induziert wird.Y=E[Y2]

Sei eine zufällige Variable. Sei Y = E [ X ] , sei Z = X - E [ X ] . Wenn Y und Z orthogonal sind:XY=E[X]Z=XE[X]YZ

Y2+Z2=Y+Z2E[E[X]2]+E[(XE[X])2]=E[X2]E[X]2+Var[X]=E[X2]

Und es ist leicht zu zeigen, dass und Z = X - E [ X ] unter diesem inneren Produkt orthogonal sind :Y=E[X]Z=XE[X]

Y,Z=E[E[X](XE[X])]=E[X]2E[X]2=0

Einer der Schenkel des Dreiecks , der andere Schenkel ist E [ X ] und die Hypotenuse ist X . Und das pythagoreische Theorem kann angewendet werden, weil eine erniedrigte Zufallsvariable orthogonal zu ihrem Mittelwert ist.XE[X]E[X]X


Technische Bemerkung:

in diesem Beispiel tatsächlich der Vektor Y = E [ X ] 1 sein , dh der Skalar E [ X ] multipliziert mit dem konstanten Vektor 1 (z. B. 1 = [ 1 , 1 , 1 , , 1 ] ' in der Diskreten endlicher Endpunktfall). Y ist dieVektorprojektionvon X auf den konstanten Vektor 1 .YY=E[X]1E[X]11=[1,1,1,,1]YX1

Einfaches Beispiel

Betrachten Sie den Fall, in dem eine Bernoulli-Zufallsvariable mit p = .2 ist . Wir haben:Xp=.2

X=[10]P=[.2.8]E[X]=iPiXi=.2

Y=E[X]1=[.2.2]Z=XE[X]=[.8.2]

Und das Bild ist: enter image description here

Die quadratische Größe des roten Vektors ist die Varianz von , die quadratische Größe des blauen Vektors ist E [ X ] 2 und die quadratische Größe des gelben Vektors ist E [ X 2 ] .XE[X]2E[X2]

REMEMBER aber , dass diese Größen, die Orthogonalität etc ... sind nicht in Bezug auf die übliche Skalarprodukt , aber die innere Produkt Σ i P i Y i Z i . Die Größe des gelben Vektors ist nicht 1, sondern 0,2.iYiZiiPiYiZi

Der rote Vektor und die blaue Vektor Z = X - E [ X ] ist senkrecht unter dem Skalarprodukt Σ i P i Y i Z i , aber sie sind nicht senkrecht im Intro, High - School - Geometrie Sinne. Denken Sie daran, wir verwenden nicht das übliche Skalarprodukt i Y i Z i als inneres Produkt!Y=E[X]Z=XE[X]iPiYiZiiYiZi


Das ist wirklich gut!
Antoni Parellada

1
Gute Antwort (+1), aber es fehlt eine Zahl, und könnte auch ein bisschen verwirrend für OP sein, weil Ihr Z ihr X ist ...
Amöbe sagt Reinstate Monica

@MatthewGunn, tolle Antwort. Sie können meine Antwort unten auf eine Darstellung überprüfen, in der Orthogonalität im euklidischen Sinne ist.
YBE

Ich hasse es stumpf zu sein, aber ich habe Probleme keeping , V a r ( X ) , und die Richtung der Logik gerade ( ‚weil‘ kommt an Orten, die nicht Sinn für mich). Es fühlt sich so an, als würden viele (gut begründete) Fakten zufällig angegeben. In welchem ​​Raum befindet sich das innere Produkt? Warum 1 ? ZVar(X)
Mitch

@Mitch Die logische Reihenfolge ist: (1) Beachten Sie, dass ein Wahrscheinlichkeitsraum einen Vektorraum definiert; wir können Zufallsvariablen als Vektoren behandeln. (2) Definieren Sie das innere Produkt der Zufallsvariablen und Z als E [ Y Z ] . In einem inneren Produktraum sind die Vektoren Y und Z als orthogonal definiert, wenn ihr inneres Produkt Null ist. (3a) Sei X eine Zufallsvariable. (3b) Sei Y = E [ X ] und Z = X - E [ X ] . (4) Beachten Sie, dass Y und ZYZE[YZ]YZXY=E[X]Z=XE[X]YZdefiniert auf diese Weise sind orthogonal. (5) Da und Z orthogonal sind, gilt das pythagoräische Theorem. YZ
Matthew Gunn

7

I will go for a purely geometric approach for a very specific scenario. Let us consider a discrete valued random variable X taking values {x1,x2} with probabilities (p1,p2). We will further assume that this random variable can be represented in R2 as a vector, X=(x1p1,x2p2). enter image description here

Notice that the length-square of X is x12p1+x22p2 which is equal to E[X2]. Thus, X=E[X2].

Since p1+p2=1, the tip of vector X actually traces an ellipse. This becomes easier to see if one reparametrizes p1 and p2 as cos2(θ) and sin2(θ). Hence, we have p1=cos(θ) and p2=sin(θ).

One way of drawing ellipses is via a mechanism called Trammel of Archimedes. As described in wiki: It consists of two shuttles which are confined ("trammelled") to perpendicular channels or rails, and a rod which is attached to the shuttles by pivots at fixed positions along the rod. As the shuttles move back and forth, each along its channel, the end of the rod moves in an elliptical path. This principle is illustrated in the figure below.

Now let us geometrically analyze one instance of this trammel when the vertical shuttle is at A and the horizontal shuttle is at B forming an angle of θ. Due to construction, |BX|=x2 and |AB|=x1x2, θ (here x1x2 is assumed wlog).

enter image description here

Let us draw a line from origin, OC, that is perpendicular to the rod. One can show that |OC|=(x1x2)sin(θ)cos(θ). For this specific random variable

Var(X)=(x12p1+x22p2)(x1p1+x2p2)2=x12p1+x22p2x12p12x22p222x1x2p1p2=x12(p1p12)+x22(p2p22)2x1x2p1p2=p1p2(x122x1x2+x22)=[(x1x2)p1p2]2=|OC|2
Therefore, the perpendicular distance |OC| from the origin to the rod is actually equal to the standard deviation, σ.

If we compute the length of segment from C to X:

|CX|=x2+(x1x2)cos2(θ)=x1cos2(θ)+x2sin2(θ)=x1p1+x2p2=E[X]

Applying the Pythagorean Theorem in the triangle OCX, we end up with

E[X2]=Var(X)+E[X]2.

To summarize, for a trammel that describes all possible discrete valued random variables taking values {x1,x2}, E[X2] is the distance from the origin to the tip of the mechanism and the standard deviation σ is the perpendicular distance to the rod.

Note: Notice that when θ is 0 or π/2, X is completely deterministic. When θ is π/4 we end up with maximum variance.


1
+1 Nice answer. And multiplying vectors by the square of the probabilities is a cool/useful trick to make the usual probabilistic notion of orthogonality look orthogonal!
Matthew Gunn

Great graphics. The symbols all make sense (the trammel describing an ellipse and then the Pythagorean Thm applies) but somehow I'm not getting intuitively how it gives an idea of how 'magically' it relates the moments (the spread and center.
Mitch

consider the trammel as a process that defines all the possible (x1,x2) valued random variables. When the rod is horizontal or vertical you have a deterministic RV. In the middle there is randomness and it turns out that in my proposed geometric framework how random a RV (its std) is exactly measured by the distance of the rod to the origin. There might be a deeper relationship here as elliptic curves connects various objects in math but I am not a mathematician so I cannot really see that connection.
YBE

3

You can rearrange as follows:

Var(X)=E[X2](E[X])2E[X2]=(E[X])2+Var(X)

Then, interpret as follows: the expected square of a random variable is equal to the square of its mean plus the expected squared deviation from its mean.


Oh. Huh. Simple. But the squares still seem kinda uninterpreted. I mean it makes sense (sort of, extremely loosely) without the squares.
Mitch

3
I am not sold on this.
Michael R. Chernick

1
If the Pythagorean theorem applies, what is the triangle with what sides and how are the two legs perpendicular?
Mitch

1

Sorry for not having the skill to elaborate and provide a proper answer, but I think the answer lies in the physical classical mechanics concept of moments, especially the conversion between 0 centred "raw" moments and mean centred central moments. Bear in mind that variance is the second order central moment of a random variable.


1

The general intuition is that you can relate these moments using the Pythagorean Theorem (PT) in a suitably defined vector space, by showing that two of the moments are perpendicular and the third is the hypotenuse. The only algebra needed is to show that the two legs are indeed orthogonal.

For the sake of the following I'll assume you meant sample means and variances for computation purposes rather than moments for full distributions. That is:

E[X]=1nxi,mean,first central sample momentE[X2]=1nxi2,second sample moment (noncentral)Var(X)=1n(xiE[X])2,variance,second central sample moment

(where all sums are over n items).

For reference, the elementary proof of Var(X)=E[X2]E[X]2 is just symbol pushing:

Var(X)=1n(xiE[X])2=1n(xi22E[X]xi+E[X]2)=1nxi22nE[X]xi+1nE[X]2=E[X2]2E[X]2+1nnE[X]2=E[X2]E[X]2

There's little meaning here, just elementary manipulation of algebra. One might notice that E[X] is a constant inside the summation, but that is about it.

Now in the vector space/geometrical interpretation/intuition, what we'll show is the slightly rearranged equation that corresponds to PT, that

Var(X)+E[X]2=E[X2]

So consider X, the sample of n items, as a vector in Rn. And let's create two vectors E[X]1 and XE[X]1.

The vector E[X]1 has the mean of the sample as every one of its coordinates.

The vector XE[X]1 is x1E[X],,xnE[X].

These two vectors are perpendicular because the dot product of the two vectors turns out to be 0:

E[X]1(XE[X]1)=E[X](xiE[X])=(E[X]xiE[X]2)=E[X]xiE[X]2=nE[X]E[X]nE[X]2=0

So the two vectors are perpendicular which means they are the two legs of a right triangle.

Then by PT (which holds in Rn), the sum of the squares of the lengths of the two legs equals the square of the hypotenuse.

By the same algebra used in the boring algebraic proof at the top, we showed that we get that E[X2] is the square of the hypotenuse vector:

(XE[X])2+E[X]2=...=E[X2] where squaring is the dot product (and it's really E[x]1 and (XE[X])2 is Var(X).

The interesting part about this interpretation is the conversion from a sample of n items from a univariate distribution to a vector space of n dimensions. This is similar to n bivariate samples being interpreted as really two samples in n variables.

In one sense that is enough, the right triangle from vectors and E[X2] pops out as the hypotnenuse. We gave an interpretation (vectors) for these values and show they correspond. That's cool enough, but unenlightening either statistically or geometrically. It wouldn't really say why and would be a lot of extra conceptual machinery to, in the end mostly, reproduce the purely algebraic proof we already had at the beginning.

Another interesting part is that the mean and variance, though they intuitively measure center and spread in one dimension, are orthogonal in n dimensions. What does that mean, that they're orthogonal? I don't know! Are there other moments that are orthogonal? Is there a larger system of relations that includes this orthogonality? central moments vs non-central moments? I don't know!


I am also interested in an interpretation/intuition behind the superficially similar bias variance tradeoff equation. Does anybody have hints there?
Mitch

Let pi be the probability of state i occurring. If pi=1n then ipiXiYi=1niXiYi, that is, E[XY] is simply the dot product between X and Y divided by n. If ipi=1n, what I used as an inner product ( E[XY]=ipiXiYi) is basically the dot product divided by n. This whole Pythagorean interpretation still needs to you use the particular inner product E[XY] (though it's algebriacly close to the classic dot product for a probability measure P such that ipi=1n).
Matthew Gunn

Btw, the trick @YBE did is to define new vectors x^ and y^ such that x^i=xipi and y^i=xipi. Then dot product x^y^=ixipiyipi=ipixiyi=E[xy].The dot product of x^ and y^ corresponds to E[xy] (which is what I used as an inner product).
Matthew Gunn
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.