Maximaler Wert des Variationskoeffizienten für den begrenzten Datensatz


17

In der Diskussion nach einer kürzlich gestellten Frage, ob die Standardabweichung den Mittelwert überschreiten kann, wurde eine Frage kurz aufgeworfen, aber nie vollständig beantwortet. Also frage ich es hier.

Betrachten Sie eine Menge von nichtnegativen Zahlen wobei für . Es ist nicht erforderlich, dass x_i unterschiedlich ist, das heißt, dass die Menge eine Mehrfachmenge sein kann. Der Mittelwert und die Varianz der Menge sind definiert als \ bar {x} = \ frac {1} {n} \ sum_ {i = 1} ^ n x_i, ~~ \ sigma_x ^ 2 = \ frac {1} {n} \ sum_ {i = 1} ^ n (x_i - \ bar {x}) ^ 2 = \ left (\ frac {1} {n} \ sum_ {i = 1} ^ n x_i ^ 2 \ right) - \ bar {x} ^ 2 und die Standardabweichung ist \ sigma_x . Beachten Sie, dass die Menge der Zahlen keine Stichprobe aus einer Population ist und wir keinen Populationsmittelwert oder eine Populationsvarianz schätzen. Die Frage ist dann:nxi0xic1inxi

x¯=1ni=1nxi,  σx2=1ni=1n(xix¯)2=(1ni=1nxi2)x¯2
σx

Was ist der Maximalwert von σxx¯ , dem Variationskoeffizienten, über alle Auswahlen der xi im Intervall [0,c] ?

Der Maximalwert, I finden können σxx¯ ist n1 , die erreicht wird , wenn n1 der xi Wert 0 , und die verbleibenden (outlier) xi hat Wert c mit

x¯=cn,  1nxi2=c2nσx=c2nc2n2=cnn1.
Aber das hängt überhaupt nicht von c ab, und ich frage mich, ob größere Werte, möglicherweise abhängig von n und c , erreicht werden können.

Irgendwelche Ideen? Ich bin sicher, dass diese Frage bereits in der statistischen Literatur untersucht wurde, und daher wären Referenzen, wenn nicht die tatsächlichen Ergebnisse, sehr willkommen.


Ich denke, Sie haben Recht damit, dass dies der größtmögliche Wert ist, und ich bin auch überrascht, dass keine Rolle spielt. Cool. c
Peter Flom - Wiedereinsetzung von Monica

7
c sollte das Ergebnis nicht beeinflussen, da sich nicht ändert, wenn alle Werte mit einer positiven Konstante multipliziert werden . σxx¯k
Henry

Antworten:


15

Geometrie bietet Einsicht und klassische Ungleichungen ermöglichen einen einfachen Zugang zu Genauigkeit.

Geometrische Lösung

Aus der Geometrie der kleinsten Quadrate wissen wir , dass die orthogonale Projektion des Vektors der Daten x = ( x 1 , x 2 , , x n ) auf ist der lineare Unterraum, der durch den konstanten Vektor ( 1 , 1 , , 1 ) und das σ x erzeugt wirdx¯=(x¯,x¯,,x¯)x=(x1,x2,,xn)(1,1,,1)σxist direkt proportional zum (euklidischen) Abstand zwischen und ˉ x . Die Nicht-Negativitätsbeschränkungen sind linear, und die Entfernung ist eine konvexe Funktion, von der aus die durch die Beschränkungen bestimmten Extremwerte der Entfernung an den Kanten des Kegels erreicht werden müssen. Dieser Kegel ist die positive Orthante in R n und seine Kanten sind die Koordinatenachsen, woraus unmittelbar folgt, dass alle außer einem der x i bei den maximalen Abständen Null sein müssen. Für einen solchen Datensatz ergibt eine direkte (einfache) Berechnung σ x / ˉ x = xx¯.Rnxiσx/x¯=n.

Lösung, die klassische Ungleichungen ausnutzt

optimiertgleichzeitig mit jeder monotonen Transformation davon. Lassen Sie uns im Lichte dessen maximierenσx/x¯

x12+x22++xn2(x1+x2++xn)2=1n(n1n(σxx¯)2+1)=f(σxx¯).

(Die Formel für kann mysteriös aussehen, bis Sie erkennen, dass sie nur die Schritte aufzeichnet, die bei der algebraischen Manipulation von σ x / ˉ x erforderlich sind , um eine einfach aussehende Form zu erhalten. Dies ist die linke Seite.)fσx/x¯

Ein einfacher Weg beginnt mit Holder Ungleichung ,

x12+x22++xn2(x1+x2++xn)max({xi}).

(In diesem einfachen Zusammenhang bedarf es keines besonderen Beweises: Ersetzen Sie lediglich einen Faktor jedes Terms durch die maximale Komponente max ( { x i } ) : Die Summe der Quadrate nimmt offensichtlich nicht ab der gemeinsame Term max ( { x i } ) ergibt die rechte Seite der Ungleichung.)xi2=xi×ximax({xi})max({xi})

Da die nicht alle 0 sind (was σ x / ˉ x undefiniert lassen würde), ist die Division durch das Quadrat ihrer Summe gültig und ergibt die äquivalente Ungleichungxi0σx/x¯

x12+x22++xn2(x1+x2++xn)2max({xi})x1+x2++xn.

Da der Nenner nicht kleiner sein kann als der Zähler (der selbst nur einer der Begriffe im Nenner ist), wird die rechte Seite von dem Wert dominiert , der nur erreicht wird, wenn alle bis auf eines von x i gleich 0 sind . Woher1xi0

σxx¯f1(1)=(1×(n1))nn1=n.

Alternativer Ansatz

Da die nicht negativ sind und nicht zu 0 summieren können, bestimmen die Werte p ( i ) = x i / ( x 1 + x 2 + + x n ) eine Wahrscheinlichkeitsverteilung F auf { 1 , 2 , , n } . Wenn wir s für die Summe von x i schreiben , erkennen wirxi0p(i)=xi/(x1+x2++xn)F{1,2,,n}sxi

x12+x22++xn2(x1+x2++xn)2=x12+x22++xn2s2=(x1s)(x1s)+(x2s)(x2s)++(xns)(xns)=p1p1+p2p2++pnpn=EF[p].

The axiomatic fact that no probability can exceed 1 implies this expectation cannot exceed 1, either, but it's easy to make it equal to 1 by setting all but one of the pi equal to 0 and therefore exactly one of the xi is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.


nn1
σx=1n1i=1n(xix¯)2
as the definition of σx while I used
σx=1ni=1n(xix¯)2?
Dilip Sarwate

1
Yes Dilip, that's right. Sorry about the discrepancy with the question; I should have checked first and I should have defined σx (which I intended to do but forgot).
whuber

10

Some references, as small candles on the cakes of others:

Katsnelson and Kotz (1957) proved that so long as all xi0, then the coefficient of variation cannot exceed n1. This result was mentioned earlier by Longley (1952). Cramér (1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.

Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.

Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.

Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.

Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.

I came across these papers in working on

Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.

which discusses broadly similar bounds on moment-based skewness and kurtosis.


8

With two numbers xixj, some δ>0 and any μ:

(xi+δμ)2+(xjδμ)2(xiμ)2(xjμ)2=2δ(xixj+δ)>0.

Applying this to n non-negative datapoints, this means that unless all but one of the n numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: n1.

c should not affect the result as σxx¯ does not change if all the values are multiplied by any positive constant k (as I said in my comment).

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.