Maximaler Wert des Variationskoeffizienten für den begrenzten Datensatz

17

In der Diskussion nach einer kürzlich gestellten Frage, ob die Standardabweichung den Mittelwert überschreiten kann, wurde eine Frage kurz aufgeworfen, aber nie vollständig beantwortet. Also frage ich es hier.

Betrachten Sie eine Menge von nichtnegativen Zahlen wobei für . Es ist nicht erforderlich, dass unterschiedlich ist, das heißt, dass die Menge eine Mehrfachmenge sein kann. Der Mittelwert und die Varianz der Menge sind definiert als und die Standardabweichung ist . Beachten Sie, dass die Menge der Zahlen keine Stichprobe aus einer Population ist und wir keinen Populationsmittelwert oder eine Populationsvarianz schätzen. Die Frage ist dann: $n$ $x_i$ $0 \leq x_i \leq c$ $1 \leq i \leq n$ $x_i$

\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i}, σ_{x}^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2} = (\frac{1}{n} \sum_{i = 1}^{n} x_{i}^{2}) - {\bar{x}}^{2}

$\bar{x} = \frac{1}{n}\sum_{i=1}^n x_i, ~~ \sigma_x^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 = \left(\frac{1}{n}\sum_{i=1}^n x_i^2\right) - \bar{x}^2$

σ_{x}

$\sigma_x$

Was ist der Maximalwert von $\dfrac{\sigma_x}{\bar{x}}$ , dem Variationskoeffizienten, über alle Auswahlen der $x_i$ im Intervall $[0,c]$ ?

Der Maximalwert, I finden können $\frac{\sigma_x}{\bar{x}}$ ist $\sqrt{n-1}$ , die erreicht wird , wenn $n-1$ der $x_i$ Wert $0$ , und die verbleibenden (outlier) $x_i$ hat Wert $c$ mit

\bar{x} = \frac{c}{n}, \frac{1}{n} \sum x_{i}^{2} = \frac{c^{2}}{n} \Rightarrow σ_{x} = \sqrt{\frac{c^{2}}{n} - \frac{c^{2}}{n^{2}}} = \frac{c}{n} \sqrt{n - 1} .

$\bar{x} = \frac{c}{n},~~ \frac{1}{n}\sum x_i^2 = \frac{c^2}{n} \Rightarrow \sigma_x = \sqrt{\frac{c^2}{n} - \frac{c^2}{n^2}} = \frac{c}{n}\sqrt{n-1}.$ Aber das hängt überhaupt nicht von

c

$c$ ab, und ich frage mich, ob größere Werte, möglicherweise abhängig von

n

$n$ und

c

$c$ , erreicht werden können.

Irgendwelche Ideen? Ich bin sicher, dass diese Frage bereits in der statistischen Literatur untersucht wurde, und daher wären Referenzen, wenn nicht die tatsächlichen Ergebnisse, sehr willkommen.

— Dilip Sarwate
quelle

Ich denke, Sie haben Recht damit, dass dies der größtmögliche Wert ist, und ich bin auch überrascht, dass keine Rolle spielt. Cool.

c

$c$

— Peter Flom - Wiedereinsetzung von Monica

7

c

$c$ sollte das Ergebnis nicht beeinflussen, da sich nicht ändert, wenn alle Werte mit einer positiven Konstante multipliziert werden .

\frac{σ_{x}}{\bar{x}}

$\frac{\sigma_x}{\bar{x}}$

k

$k$

— Henry

15

Geometrie bietet Einsicht und klassische Ungleichungen ermöglichen einen einfachen Zugang zu Genauigkeit.

Geometrische Lösung

Aus der Geometrie der kleinsten Quadrate wissen wir , dass die orthogonale Projektion des Vektors der Daten auf ist der lineare Unterraum, der durch den konstanten Vektor und das $\mathbf{\bar{x}} = (\bar{x}, \bar{x}, \ldots, \bar{x})$ $\mathbf{x}=(x_1, x_2, \ldots, x_n)$ $(1,1,\ldots,1)$ $\sigma_x$ ist direkt proportional zum (euklidischen) Abstand zwischen und Die Nicht-Negativitätsbeschränkungen sind linear, und die Entfernung ist eine konvexe Funktion, von der aus die durch die Beschränkungen bestimmten Extremwerte der Entfernung an den Kanten des Kegels erreicht werden müssen. Dieser Kegel ist die positive Orthante in und seine Kanten sind die Koordinatenachsen, woraus unmittelbar folgt, dass alle außer einem der bei den maximalen Abständen Null sein müssen. Für einen solchen Datensatz ergibt eine direkte (einfache) Berechnung $\mathbf{x}$ $\mathbf{\bar{x}}.$ $\mathbb{R}^n$ $x_i$ $\sigma_x/\bar{x}=\sqrt{n}.$

Lösung, die klassische Ungleichungen ausnutzt

optimiertgleichzeitig mit jeder monotonen Transformation davon. Lassen Sie uns im Lichte dessen maximieren $\sigma_x/\bar{x}$

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} = \frac{1}{n} (\frac{n - 1}{n} {(\frac{σ_{x}}{\bar{x}})}^{2} + 1) = f (\frac{σ_{x}}{\bar{x}}) .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} = \frac{1}{n}\left(\frac{n-1}{n}\left(\frac{\sigma_x}{\bar{x}}\right)^2+1\right) = f\left(\frac{\sigma_x}{\bar{x}}\right).$

(Die Formel für kann mysteriös aussehen, bis Sie erkennen, dass sie nur die Schritte aufzeichnet, die bei der algebraischen Manipulation von , um eine einfach aussehende Form zu erhalten. ist die linke Seite.) $f$ $\sigma_x/\bar{x}$

Ein einfacher Weg beginnt mit Holder Ungleichung ,

x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2} \leq (x_{1} + x_{2} + \dots + x_{n}) max ({x_{i}}) .

$x_1^2+x_2^2+\ldots+x_n^2 \le \left(x_1+x_2+\ldots+x_n\right)\max(\{x_i\}).$

(In diesem einfachen Zusammenhang bedarf es keines besonderen Beweises: Ersetzen Sie lediglich einen Faktor jedes Terms durch die maximale Komponente : Die Summe der Quadrate nimmt offensichtlich nicht ab der gemeinsame Term ergibt die rechte Seite der Ungleichung.) $x_i^2 = x_i \times x_i$ $\max(\{x_i\})$ $\max(\{x_i\})$

Da die nicht alle (was undefiniert lassen würde), ist die Division durch das Quadrat ihrer Summe gültig und ergibt die äquivalente Ungleichung $x_i$ $0$ $\sigma_x/\bar{x}$

\frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} \leq \frac{max ({x_{i}})}{x_{1} + x_{2} + \dots + x_{n}} .

$\frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} \le \frac{\max(\{x_i\})}{x_1+x_2+\ldots+x_n}.$

Da der Nenner nicht kleiner sein kann als der Zähler (der selbst nur einer der Begriffe im Nenner ist), wird die rechte Seite von dem Wert dominiert , der nur erreicht wird, wenn alle bis auf eines von gleich . Woher $1$ $x_i$ $0$

\frac{σ_{x}}{\bar{x}} \leq f^{- 1} (1) = \sqrt{(1 \times (n - 1)) \frac{n}{n - 1}} = \sqrt{n} .

$\frac{\sigma_x}{\bar{x}} \le f^{-1}\left(1\right) = \sqrt{\left(1 \times (n - 1)\right)\frac{n}{n-1}}=\sqrt{n}.$

Alternativer Ansatz

Da die nicht negativ sind und nicht zu summieren können, bestimmen die Werte eine Wahrscheinlichkeitsverteilung auf . Wenn wir für die Summe von schreiben , erkennen wir $x_i$ $0$ $p(i) = x_i/(x_1+x_2+\ldots+x_n)$ $F$ $\{1,2,\ldots,n\}$ $s$ $x_i$

\begin{aligned} \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{(x_{1} + x_{2} + \dots + x_{n})^{2}} & = \frac{x_{1}^{2} + x_{2}^{2} + \dots + x_{n}^{2}}{s^{2}} \\ = (\frac{x_{1}}{s}) (\frac{x_{1}}{s}) + (\frac{x_{2}}{s}) (\frac{x_{2}}{s}) + \dots + (\frac{x_{n}}{s}) (\frac{x_{n}}{s}) \\ = p_{1} p_{1} + p_{2} p_{2} + \dots + p_{n} p_{n} \\ = E_{F} [p] . \end{aligned}

$\eqalign{ \frac{x_1^2+x_2^2+\ldots+x_n^2}{(x_1+x_2+\ldots+x_n)^2} &= \frac{x_1^2+x_2^2+\ldots+x_n^2}{s^2} \\ &= \left(\frac{x_1}{s}\right)\left(\frac{x_1}{s}\right)+\left(\frac{x_2}{s}\right)\left(\frac{x_2}{s}\right) + \ldots + \left(\frac{x_n}{s}\right)\left(\frac{x_n}{s}\right)\\ &= p_1 p_1 + p_2 p_2 + \ldots + p_n p_n\\ &= \mathbb{E}_F[p]. }$

The axiomatic fact that no probability can exceed $1$ implies this expectation cannot exceed $1$ , either, but it's easy to make it equal to $1$ by setting all but one of the $p_i$ equal to $0$ and therefore exactly one of the $x_i$ is nonzero. Compute the coefficient of variation as in the last line of the geometric solution above.

— whuber
quelle

\sqrt{n}

$\sqrt{n}$

\sqrt{n - 1}

$\sqrt{n-1}$

σ_{x} = \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}}

$\sigma_x = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$ as the definition of

σ_{x}

$\sigma_x$ while I used

σ_{x} = \sqrt{\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} ?

$\sigma_x = \sqrt{\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})^2}?$

— Dilip Sarwate

1

Yes Dilip, that's right. Sorry about the discrepancy with the question; I should have checked first and I should have defined

σ_{x}

$\sigma_x$ (which I intended to do but forgot).

— whuber

10

Some references, as small candles on the cakes of others:

Katsnelson and Kotz (1957) proved that so long as all $x_i \ge 0$ , then the coeﬃcient of variation cannot exceed $\sqrt{n − 1}$ . This result was mentioned earlier by Longley (1952). Cramér (1946, p.357) proved a less sharp result, and Kirby (1974) proved a less general result.

Cramér, H. 1946. Mathematical methods of statistics. Princeton, NJ: Princeton University Press.

Katsnelson, J., and S. Kotz. 1957. On the upper limits of some measures of variability. Archiv für Meteorologie, Geophysik und Bioklimatologie, Series B 8: 103–107.

Kirby, W. 1974. Algebraic boundedness of sample statistics. Water Resources Research 10: 220–222.

Longley, R. W. 1952. Measures of the variability of precipitation. Monthly Weather Review 80: 111–117.

I came across these papers in working on

Cox, N.J. 2010. The limits of sample skewness and kurtosis. Stata Journal 10: 482-495.

which discusses broadly similar bounds on moment-based skewness and kurtosis.

— Nick Cox
quelle

8

With two numbers $x_i \ge x_j$ , some $\delta \gt 0$ and any $\mu$ :

(x_{i} + δ - μ)^{2} + (x_{j} - δ - μ)^{2} - (x_{i} - μ)^{2} - (x_{j} - μ)^{2} = 2 δ (x_{i} - x_{j} + δ) > 0.

$(x_i+\delta - \mu)^2 + (x_j - \delta - \mu)^2 - (x_i - \mu)^2 - (x_j - \mu)^2 = 2\delta(x_i - x_j +\delta) \gt 0.$

Applying this to $n$ non-negative datapoints, this means that unless all but one of the $n$ numbers are zero and so cannot be reduced further, it is possible to increase the variance and standard deviation by widening the gap between any pair of the data points while retaining the same mean, thus increasing the coefficient of variation. So the maximum coefficient of variation for the data set is as you suggest: $\sqrt{n-1}$ .

$c$ should not affect the result as $\frac{\sigma_x}{\bar{x}}$ does not change if all the values are multiplied by any positive constant $k$ (as I said in my comment).

— Henry
quelle