Wie berechnet man das Konfidenzintervall für ein geometrisches Mittel?

8

Entschuldigung, wenn dies überhaupt verwirrend ist, bin ich mit geometrischen Mitteln sehr unbekannt. Für den Kontext beträgt mein Datensatz 35 Portfoliowerte zum Monatsende. Ich habe die Wachstumsrate von Monat zu Monat [Monat (N) / Monat (N-1)] - 1 ermittelt, sodass ich jetzt 34 Beobachtungen habe und einen Monatsendwert unter Verwendung des bekannten Wertes zum Ende des Vormonats schätzen möchte. Wenn ich zum Beispiel weiß, wie hoch der Endwert des Portfolios im letzten Monat war, würde ich diesen multipliziert mit einer Wachstumsrate nehmen, um eine Schätzung des Endwerts dieses Monats +/- der Fehlerquote zu erhalten.

Ich habe zunächst das arithmetische Mittel der Wachstumsraten verwendet, die Standardabweichung der Stichprobe ermittelt und ein Konfidenzintervall berechnet, um meine Wachstumsraten für die Unter- / Obergrenze zu erhalten.

Ich bezweifle jetzt die Genauigkeit dieser Methode und habe versucht, stattdessen den geometrischen Mittelwert zu verwenden. Derzeit habe ich also 34 Wachstumsraten festgelegt, außer dass ich nicht 1 subtrahiert habe, damit alle Werte positiv sind, den geometrischen Mittelwert berechnet und zur Berechnung der Standardabweichung diese Wikipedia-Formel verwendet habe : Ich bin jetzt bei a Verlust bei der Berechnung eines 95% -KI, da ich ähnliche Fragen auf dieser Website sowie die allgemeine Suche im Internet durchgesehen habe und unterschiedliche Meinungen zu Methoden und Formeln sehe (ich verliere mich zugegebenermaßen auch ein wenig in der zugrunde liegenden Mathematik ).

σ_{g} = \exp (\sqrt{\frac{\sum_{i = 1}^{n} \ln (\frac{x_{i}}{μ_{g}})^{2}}{n}})

$\sigma_g = \exp\!\!\left(\sqrt{\frac{\sum_{i=1}^n\ln\!\big(\frac{x_i}{\mu_g}\big)^2}{n}} \right)$

Derzeit verwende ich die Formeln für eine Normalverteilung, um ein Konfidenzintervall basierend auf der geometrischen Standardabweichung minus 1 zu berechnen (um es wieder auf einen Prozentsatz zu bringen), so dass:

Standardfehler = [(Geometric Stdev-1) / Sqrt (N)],
Fehlergrenze = [Standardfehler * 1,96] und
CI = [Geometrischer Mittelwert +/- Fehlergrenze]

Ist dies eine vernünftige Annäherung oder sollte ich eine andere Methode zur Berechnung des CI verwenden?

distributions confidence-interval geometric-mean

— Randyvelour
quelle

5

Sie können das arithmetische Mittel der logarithmischen Wachstumsrate berechnen:

Sei der Wert Ihres Portfolios zum Zeitpunkt $V_t$ $t$
Sei die Wachstumsrate Ihres Portfolios von bis $R_t = \frac{V_t}{V_{t-1}}$ $t-1$ $t$

Die Grundidee ist, Protokolle zu erstellen und Ihre Standardaufgaben zu erledigen. Das Aufnehmen von Protokollen wandelt die Multiplikation in eine Summe um.

Sei die logarithmische Wachstumsrate. $r_t = \log R_t$

\bar{r} = \frac{1}{T} \sum_{t = 1}^{T} r_{t} s_{r} = \sqrt{\frac{1}{T - 1} \sum_{t = 1}^{T} {(r_{t} - \bar{r})}^{2}}

$\bar{r} = \frac{1}{T} \sum_{t=1}^T r_t \quad \quad s_r = \sqrt{\frac{1}{T-1} \sum_{t=1}^T \left( r_t - \bar{r}\right)^2}$

Dann ist Ihr Standardfehler für Ihren Stichprobenmittelwert gegeben durch: $\mathit{SE}_{\bar{r}}$ $\bar{r}$

{S E}_{\bar{r}} = \frac{s_{r}}{\sqrt{T}}

$\mathit{SE}_{\bar{r}} = \frac{s_r}{\sqrt{T}}$

Das 95-Prozent-Konfidenzintervall für wäre ungefähr: . $\mu_r = {\operatorname{E}[r_t]}$

(\bar{r} - 2 {S E}_{\bar{r}}, \bar{r} + 2 {S E}_{\bar{r}})

$\left( \bar{r} - 2 \mathit{SE}_{\bar{r}} , \bar{r} + 2 \mathit{SE}_{\bar{r}} \right)$

Exponentiate, um das Konfidenzintervall für $e^{\mu_r}$

Da eine streng ansteigende Funktion ist, wäre ein 95-Prozent-Konfidenzintervall für : $e^x$ $e^{\mu_r}$

(e^{\bar{r} - 2 {S E}_{\bar{r}}}, e^{\bar{r} + 2 {S E}_{\bar{r}}})

$\left( e^{\bar{r} - 2 \mathit{SE}_{\bar{r}}} , e^{\bar{r} + 2 \mathit{SE}_{\bar{r}}} \right)$

Und wir sind fertig. Warum sind wir fertig?

Beachten Sie, dass das Protokoll des geometrischen Mittelwerts ist $\bar{r} = \frac{1}{T} \sum_t r_t$

Daher ist das geometrische Mittel Ihrer Stichprobe. Um dies zu zeigen, beobachten Sie, dass der geometrische Mittelwert gegeben ist durch: $e^{\bar{r}}$

G M = {(R_{1} R_{2} \dots R_{T})}^{\frac{1}{T}}

$\mathit{GM} = \left(R_1R_2\ldots R_T\right)^\frac{1}{T}$

Wenn wir also das Protokoll beider Seiten nehmen:

\begin{aligned} \log G M & = \frac{1}{T} \sum_{t = 1}^{T} \log R_{t} \\ = \bar{r} \end{aligned}

$\begin{align*} \log \mathit{GM} &= \frac{1}{T} \sum_{t=1}^T \log R_t \\ &= \bar{r} \end{align*}$

Ein Beispiel, um Intuition aufzubauen:

Angenommen, Sie berechnen die mittlere logarithmische Wachstumsrate von . Dann ist das geometrische Mittel . $.02$ $\exp(.02) \approx 1.0202$
, Sie berechnen die mittlere logarithmische Wachstumsrate , dann ist der geometrische Mittelwert $-.05$ $\exp(-.05) = .9512$

Für haben wir und für haben wir . Weiter weg sind diese Tricks: $x \approx 1$ $\log(x) \approx x - 1$ $y \approx 0$ $\exp(y) \approx y + 1$

Angenommen , Sie haben die mittlere log - Wachstumsrate zu berechnen ist , dann das geometrische Mittel Mittelwert (dh der Wert jeder Periode verdoppelt). $.69$ $\exp(.69) \approx 2$

Wenn alle Ihre logarithmischen Wachstumsraten nahe Null sind (oder äquivalent nahe 1 ist, werden Sie feststellen, dass das geometrische Mittel und das arithmetische Mittel ziemlich nahe beieinander liegen $r_t$ $\frac{V_t}{V_{t-1}}$

Eine andere Antwort, die nützlich sein könnte:

Wie in dieser Antwort erläutert, handelt es sich bei Protokollunterschieden im Wesentlichen um prozentuale Änderungen.

Kommentar: In der Finanzbranche ist es hilfreich, sich in Protokollen wohl zu fühlen. Es ist ähnlich wie in Prozent zu denken, aber mathematisch sauberer.

— Matthew Gunn
quelle

Vielen Dank für die ausführliche Antwort. Was ist der Unterschied zwischen dieser Methode und der von @Greenparker vorgeschlagenen Methode? Sollte ich unterschiedliche Ergebnisse für Standardabweichung, Fehler usw. erhalten?

— Randyvelour

1

@randyvelour Wir sagen etwas sehr ähnliches. Mein ist genau das gleiche wie sein . Er befürwortet die Verwendung der Delta-Methode, um die asymptotische Verteilung von und damit ein Konfidenzintervall zu erstellen. Sie könnten auch einfach die Endpunkte Ihres Konfidenzintervalls für und eine Asymmetrie erhalten Konfidenzintervall.

\bar{r}

$\bar{r}$

\bar{Y}

$\bar{Y}$

e^{\bar{Y}}

$e^{\bar{Y}}$

\bar{r}

$\bar{r}$

— Matthew Gunn

4

Lassen Sie uns einfach das vorliegende statistische Problem extrahieren. Sie haben aus einer Verteilung mit Mittelwert und Varianz . $X_1, \dots X_n$ $\mu$ $\sigma^2$

Betrachten , wobei der Mittelwert von ist und Varianz . Betrachten Sie den Durchschnitt von s: . Dann wird aufgrund der CLT $Y_i = \log X_i$ $Y$ $\mu_y$ $\sigma^2_y$ $Y$ $\bar{Y}_n = \sum_{i=1}^{n} Y_i/n$

\sqrt{n} ({\bar{Y}}_{n} - μ_{y}) \overset{d}{\to} N (0, σ_{y}^{2}) .

$\sqrt{n} (\bar{Y}_n - \mu_y) \overset{d}{\to} N(0, \sigma^2_y)\,.$

Betrachten Sie nun . $e^{\bar{Y}_n}$

\begin{aligned} e^{{\bar{Y}}_{n}} & = \exp {\sum_{i = 1}^{n} \frac{1}{n} \log Y_{i}} \\ = \exp {\sum_{i = 1}^{n} \log Y_{i}^{1 / n}} \\ = \prod_{i = 1}^{n} \exp {\log Y_{i}^{1 / n}} \\ = \prod_{i = 1}^{n} Y_{i}^{1 / n} . \end{aligned}

$\begin{align*} e^{\bar{Y}_n} & = \exp\left\{\sum_{i=1}^{n}\dfrac{1}{n} \log Y_i \right\}\\ & = \exp\left\{\sum_{i=1}^{n} \log Y_i^{1/n} \right\}\\ & = \prod_{i=1}^{n}\exp\left\{ \log Y_i^{1/n}\right\}\\ & = \prod_{i=1}^{n} Y_i^{1/n}\,. \end{align*}$

Somit ist das geometrische Mittel! Als nächstes können wir die Delta-Methode auf die CLT-Methode anwenden . Definiere , dann . Nach der Delta-Methode $e^{\bar{Y}}$ $g(x) = e^{x}$ $g'(x) = e^x$

\sqrt{n} (e^{{\bar{Y}}_{n}} - e^{μ_{y}}) \overset{d}{\to} N (0, e^{2 μ_{y}} σ_{y}^{2}) .

$\sqrt{n}(e^{\bar{Y}_n} - e^{\mu_y}) \overset{d}{\to} N(0, e^{2\mu_y}\sigma^2_y).$

Jetzt haben Sie ein Tool, mit dem Sie Ihre Konfidenzintervalle festlegen können. ist Ihr wahres geometrisches Mittel, und Sie möchten hierfür ein Konfidenzintervall (dies ist kein Konfidenzintervall für den erwarteten Wert ). Der erste Schritt ist die Schätzung von . Da ist die Varianz der s, $e^{\mu_y}$ $\mu$ $\sigma^2_y$ $\sigma^2_y$ $Y$

s_{y}^{2} := \frac{1}{n} \sum_{i = 1}^{n} (Y_{i} - {\bar{Y}}_{n})^{2} = \frac{1}{n} \sum_{i = 1}^{n} (\log X_{i} - \log e^{{\bar{Y}}_{n}})^{2} = \frac{1}{n} \sum_{i = 1}^{n} \log (\frac{X_{i}}{e^{{\bar{Y}}_{n}}}) .

$s^2_y:= \dfrac{1}{n} \sum_{i=1}^{n}(Y_i - \bar{Y}_n)^2 = \dfrac{1}{n}\sum_{i=1}^{n} (\log X_i - \log e^{\bar{Y}_n})^2 = \dfrac{1}{n} \sum_{i=1}^{n} \log \left( \dfrac{X_i}{e^{\bar{Y}_n}} \right)\,.$

So legen Sie Ihr % -Konfidenzintervall für den wahren geometrischen Mittelwert fest: $100(1 - \alpha)$

e^{{\bar{Y}}_{n}} \pm z_{1 - α / 2} \frac{e^{{\bar{Y}}_{n}} s_{y}}{\sqrt{n}} .

$e^{\bar{Y}_n} \pm z_{1-\alpha/2}\dfrac{e^{\bar{Y}_n} s_y}{\sqrt{n}}\,.$

— Greenparker
quelle

Vielen Dank für die ausführliche Antwort. Ich habe die Frage, warum die GEOMEAN-Funktion in Excel ein anderes geometrisches Mittel ergibt als exp (Ybar). Mache ich etwas falsch oder wird ein Unterschied erwartet? Darüber hinaus scheint die GEOMEAN-Funktion (1 + Wachstumsrate) zu ergeben, während Ihre Methode nur eine Wachstumsrate zurückgibt. Muss ich nach dem Ermitteln des Mittelwerts Conversions durchführen? Oder mit anderen Worten, gibt es Punkte, an denen ich eine Operation durchführen muss, um zu einer Wachstumsrate zurückzukehren, die dem Ergebnis von (Neu / Alt) ähnelt?