Warum ist Varianz nicht definiert als der Unterschied zwischen jedem Wert, der aufeinander folgt?


19

Dies mag für viele eine einfache Frage sein, aber hier ist sie:

Warum wird Varianz nicht als Differenz zwischen den aufeinander folgenden Werten definiert, anstatt als Differenz zum Durchschnitt der Werte?

Dies wäre die logischere Wahl für mich, ich schätze, ich habe offensichtlich einige Nachteile. Vielen Dank

BEARBEITEN:

Lassen Sie mich so klar wie möglich umformulieren. Das ist was ich meine:

  1. Angenommen, Sie haben einen Bereich von Zahlen, sortiert nach: 1,2,3,4,5
  2. Berechnen und summieren Sie (die absoluten) Differenzen (fortlaufend, zwischen jedem folgenden Wert, nicht paarweise) zwischen Werten (ohne den Durchschnitt zu verwenden).
  3. Teilen Sie durch die Anzahl der Unterschiede
  4. (Follow-up: Wäre die Antwort anders, wenn die Nummern nicht sortiert wären)

-> Was sind die Nachteile dieses Ansatzes gegenüber der Standardformel für die Varianz?


1
Möglicherweise möchten Sie auch etwas über Autokorrelation lesen (z . B. stats.stackexchange.com/questions/185521/… ).
Tim

2
@ user2305193 whubers Antwort ist richtig, aber seine Formel verwendet den quadratischen Abstand zwischen einer Sortierung der Daten und der Mittelung über alle Sortierungen. Ein guter Trick, aber das Finden der von Ihnen angegebenen Varianz ist genau das, was ich in meiner Antwort versucht habe und gezeigt habe, dass es keinen guten Job machen würde. Ich versuche, die Verwirrung zu beseitigen.
Greenparker

1
Schauen Sie sich zum Spaß die Allan Variance an.
Hobbs

Bei einem anderen Gedanken denke ich, da Sie keine Differenzen quadrieren (und anschließend nicht die Quadratwurzel ziehen), sondern die absoluten Werte nehmen, sollte dies eher "Warum berechnen wir nicht so die Standardabweichung" sein. statt 'warum berechnen wir nicht so die Varianz'. Aber ich werde es jetzt ausruhen
user2305193

Antworten:


27

Der offensichtlichste Grund ist, dass die Werte häufig keine zeitliche Abfolge aufweisen. Wenn Sie also die Daten durcheinander bringen, hat dies keinen Einfluss auf die von den Daten übermittelten Informationen. Wenn wir Ihrer Methode folgen, erhalten Sie bei jedem Durcheinander der Daten eine andere Stichprobenvarianz.

Die theoretischere Antwort ist, dass die Stichprobenvarianz die wahre Varianz einer Zufallsvariablen schätzt. Die wahre Varianz einer Zufallsvariablen ist E [ ( X - E X ) 2 ] .X

E[(XEX)2].

Hier steht für Erwartung oder "Durchschnittswert". Die Definition der Varianz ist also der durchschnittliche quadratische Abstand zwischen der Variablen und ihrem Durchschnittswert. Wenn Sie sich diese Definition ansehen, gibt es hier keine "Zeitreihenfolge", da es keine Daten gibt. Es ist nur ein Attribut der Zufallsvariablen.E

Wenn Sie ID-Daten von dieser Distribution sammeln, haben Sie Realisierungen . Der beste Weg, die Erwartung abzuschätzen, besteht darin, die Durchschnittswerte der Stichprobe zu ermitteln. Der Schlüssel hier ist, dass wir ID-Daten haben und daher keine Reihenfolge zu den Daten besteht. Die Stichprobe x 1 , x 2 , ... , x n ist dieselbe wie die Stichprobe x 2 , x 5 , x 1 , x n . .x1,x2,,xnx1,x2,,xnx2,x5,x1,xn..

BEARBEITEN

Die Stichprobenvarianz misst eine bestimmte Art von Streuung für die Stichprobe, die den durchschnittlichen Abstand vom Mittelwert misst. Es gibt andere Arten der Streuung wie Datenbereich und Inter-Quantile-Bereich.

Auch wenn Sie Ihre Werte in aufsteigender Reihenfolge sortieren, ändert dies nichts an den Eigenschaften der Stichprobe. Die Probe (Daten), die Sie erhalten, sind Realisierungen aus einer Variablen. Die Berechnung der Stichprobenvarianz ist vergleichbar mit dem Verständnis der Streuung in der Variablen. Wenn Sie zum Beispiel 20 Personen befragen und deren Größe berechnen, dann sind dies 20 "Realisierungen" aus der Zufallsvariablen Größe der Personen. Die Stichprobenvarianz soll nun allgemein die Variabilität der Körpergröße von Individuen messen. Wenn Sie die Daten 100 , 110 , 123 , 124 , ... bestellen ,X=

100,110,123,124,,

Dies ändert nichts an den Informationen im Beispiel.

Schauen wir uns noch ein Beispiel an. Nehmen wir an, Sie haben 100 Beobachtungen aus einer Zufallsvariablen, die auf diese Weise nach 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 , 10 geordnet wurden Dann beträgt die durchschnittliche Folgeentfernung 1 Einheiten. Nach Ihrer Methode beträgt die Varianz 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

Die Interpretation von "Varianz" oder "Streuung" besteht darin, zu verstehen, welcher Wertebereich für die Daten wahrscheinlich ist. In diesem Fall erhalten Sie eine Reichweite von 0,99 Einheiten, was natürlich die Variation nicht gut darstellt.

Wenn Sie anstelle des Durchschnitts nur die nachfolgenden Differenzen summieren, beträgt Ihre Varianz 99. Dies stellt natürlich nicht die Variabilität in der Stichprobe dar, da 99 Ihnen den Bereich der Daten und kein Gefühl der Variabilität gibt.


1
Mit dem letzten Absatz, den du an mich gerichtet hast, haha, danke für diese verblüffende Antwort, ich wünschte, ich hätte genug Repräsentanten, um sie zu unterstützen, bitte Leute, tu es für mich ;-) AKZEPTIERT !!!
user2305193

Follow-up-to-Follow-up: Was ich wirklich gemeint habe (ja, sorry, ich habe die richtige Frage erst erkannt, nachdem ich Ihre Antwort gelesen habe), war, dass Sie die Unterschiede zusammengefasst und durch die Anzahl der Proben geteilt haben. In deinem letzten Beispiel wäre das 99/100 - kannst du das für völlige Verblüffung erläutern?
user2305193

@ user2305193 Richtig, ich sagte 1 Einheit im Durchschnitt, was falsch ist. Es hätte 0,99 Einheiten sein sollen. Änderte es.
Greenparker

Für weitere Informationen über die 1-100 - Serie: die Varianz in 1-100 würde 841,7 und die Standardabweichung 29,01 seine Quelle . Also in der Tat ein ganz anderes Ergebnis.
user2305193

31

Es ist so definiert!

Hier ist die Algebra. Die Werte seien . Bezeichnen Sie mit F die empirische Verteilungsfunktion dieser Werte (dh jedes x i trägt eine Wahrscheinlichkeitsmasse von 1 / n zum Wert x i bei ) und lassen Sie X und Y unabhängige Zufallsvariablen mit der Verteilung F sein . Aufgrund der grundlegenden Eigenschaften der Varianz (nämlich einer quadratischen Form) sowie der Definition von F und der Tatsachex=(x1,x2,,xn)Fxi1/nxiXYFF und Y haben den gleichen Mittelwert,XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

Diese Formel hängt nicht von der Art und Weise ab, wie geordnet ist: Sie verwendet alle möglichen Komponentenpaare und vergleicht sie mit der Hälfte ihrer quadratischen Differenzen. Sie kann jedoch auf einen Durchschnitt über alle möglichen Ordnungen bezogen werden (die Gruppe S ( n ) aller n ! -Permutationen der Indizes 1 , 2 , ,xS(n)n! ). Nämlich,1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

Die innere Summierung erfolgt die umgeordneten Werte und summiert die (halbe) quadrierten Differenzen zwischen allen n - 1 aufeinanderfolgende Paaren. Die Division durch n mittelt im wesentlichen diese aufeinanderfolgenden quadratischen Differenzen . Es berechnet die sogenannte Lag-1-Semivarianz . Die äußere Summe macht dies für alle möglichen Ordnungen .xσ(1),xσ(2),,xσ(n)n1n


Diese beiden äquivalenten algebraischen Ansichten der Standardvarianzformel geben einen neuen Einblick in die Bedeutung der Varianz. Die Semivarianz ist ein inverses Maß für die serielle Kovarianz einer Sequenz: Die Kovarianz ist hoch (und die Zahlen sind positiv korreliert), wenn die Semivarianz niedrig ist, und umgekehrt. Die Varianz eines ungeordneten Datensatzes ist also eine Art Durchschnitt aller möglichen Semivarianzen, die bei willkürlicher Neuordnung erhältlich sind.


1
@ Mur1lo Im Gegenteil: Ich glaube diese Ableitung ist korrekt. Wenden Sie die Formel auf einige Daten an und sehen Sie!
Whuber

1
Ich denke, Mur1lo hat vielleicht nicht über die Richtigkeit der Varianzformel gesprochen, sondern über den scheinbaren direkten Übergang von den Erwartungen an Zufallsvariablen zu Funktionen der Stichprobenmengen.
Glen_b -Reinstate Monica

1
@glen Aber genau das ermöglicht uns die empirische Verteilungsfunktion. Das ist der ganze Sinn dieses Ansatzes.
Whuber

3
Ja, das ist mir klar. Ich versuchte herauszufinden, wo die Verwirrung zu liegen schien. Tut mir leid vage zu sein. Hoffentlich ist jetzt klarer, warum es nur ein Problem zu sein scheint.* (aus diesem Grund habe ich das Wort "scheinbar" früher verwendet, um zu betonen, dass es nur das nicht kontextbezogene Erscheinungsbild dieses Schritts war, das wahrscheinlich die Ursache für die Verwirrung war)
Glen_b

2
@Mur1o The only thing I have done in any of these equations is to apply definitions. There is no passing from expectations to "sample quantities". (In particular, no sample of F has been posited or used.) Thus I am unable to identify what the apparent problem is, nor suggest an alternative explanation. If you could expand on your concern then I might be able to respond.
whuber

11

Just a complement to the other answers, variance can be computed as the squared difference between terms:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

I think this is the closest to the OP proposition. Remember the variance is a measure of dispersion of every observation at once, not only between "neighboring" numbers in the set.


UPDATE

Using your example: X=1,2,3,4,5. We know the variance is Var(X)=2.

With your proposed method Var(X)=1, so we know beforehand taking the differences between neighbors as variance doesn't add up. What I meant was taking every possible difference squared then summed:

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2

Now I'm seriously confused guys
user2305193

@user2305193 In your question, did you mean every pairwise difference or did you mean the difference between a value and the next in a sequence? Could you please clarify?
Firebug

2
@Mur1lo no one is though, I have no idea what you're referring to.
Firebug

2
@Mur1lo This is a general question, and I answered it generally. Variance is a computable parameter, which can be estimated from samples. This question isn't about estimation though. Also we are talking about discrete sets, not about continuous distributions.
Firebug

1
You showed how to estimate the variance by its U-statistic and its fine. The problem is when you write: Var("upper case"X) = things involving "lower case" x, you are mixing the two different notions of parameter and of estimator.
Mur1lo

6

Others have answered about the usefulness of variance defined as usual. Anyway, we just have two legitimate definitions of different things: the usual definition of variance, and your definition.

Then, the main question is why the first one is called variance and not yours. That is just a matter of convention. Until 1918 you could have invented anything you want and called it "variance", but in 1918 Fisher used that name to what is still called variance, and if you want to define anything else you will need to find another name to name it.

The other question is if the thing you defined might be useful for anything. Others have pointed its problems to be used as a measure of dispersion, but it's up to you to find applications for it. Maybe you find so useful applications that in a century your thing is more famous than variance.


I know every definition is up to the people deciding on it, I really was looking for help in up/downsides for each approaches. Usually there's good reason for people converging to a definition and as I suspected didn't see why straight away.
user2305193

1
Fisher introduced variance as a term in 1918 but the idea is older.
Nick Cox

As far as I know, Fisher was the first one to use the name "variance" for variance. That's why I say that before 1918 you could have use "variance" to name anything else you had invented.
Pere

3

@GreenParker answer is more complete, but an intuitive example might be useful to illustrate the drawback to your approach.

In your question, you seem to assume that the order in which realisations of a random variable appear matters. However, it is easy to think of examples in which it doesn't.

Consider the example of the height of individuals in a population. The order in which individuals are measured is irrelevant to both the mean height in the population and the variance (how spread out those values are around the mean).

Your method would seem odd applied to such a case.


2

Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example if X is a random variable with distribution function FX then its mean μx, which is also a parameter, is:

μX=+xdFX(x)

and the variance of X, σX2, is:

σX2=+(xμX)2dFX(x)

The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.


3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber


1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. It lets you do other stuff. Just an example, in my stats class we saw a video about comparing pitchers (in baseball) over time. As I remember it, pitchers appeared to be getting worse since the proportion of pitches that were hit (or were home-runs) was going up. One reason is that batters were getting better. This made it hard to compare pitchers over time. However, they could use the z-score of the pitchers to compare them over time.

Nonetheless, as @Pere said, your metric might prove itself very useful in the future.


1
A normal distribution can also be determined by its mean and fourth central moment, for that matter -- or by means of many other pairs of moments. The variance is not special in that way.
whuber

@whuber interesting. I'll admit I didn't realize that. Nonetheless, unless I'm mistaken, all the moments are "variance like" in that they are based on distances from a certain point as opposed to dealing with pairs of points in sequence. But I'll edit my answers to make note of what you said.
roundsquare

1
Could you explain the sense in which you mean "deal with pairs of points in sequence"? That's not a part of any standard definition of a moment. Note, too, that all the absolute moments around the mean--which includes all even moments around the mean--give a "measure of how spread out the data" are. One could, therefore, construct an analog of the Z-score with them. Thus, none of your three points appears to differentiate the variance from any absolute central moment.
whuber

@whuber yeah. The original question posited a 4 step sequence where you sort the points, take the differences between each point and the next point, and then average these. That's what I referred to as "deal[ing] with pairs of points in sequence". So you are right, none of the three points I gave distinguishes variance from any absolute central moment - they are meant to distinguish variance (and, I suppose, all absolute central moments) from the procedure described in the original question.
roundsquare
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.