Berechnung des Standardfehlers nach einer Log-Transformation

19

Betrachten Sie eine zufällige Menge von Zahlen, die normalerweise verteilt sind:

x <- rnorm(n=1000, mean=10)

Wir möchten den Mittelwert und den Standardfehler des Mittelwerts kennen, also machen wir Folgendes:

se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x)   # something near 0.03 units

Groß!

Nehmen wir jedoch an, wir wissen nicht unbedingt, dass unsere ursprüngliche Verteilung einer Normalverteilung folgt. Wir protokollieren die Daten und führen die gleiche Standardfehlerberechnung durch.

z <- log(x, base=10)
mean(z) # something near 1 log units
se(z)   # something near 0.001 log units

Cool, aber jetzt müssen wir eine Rücktransformation durchführen, um unsere Antwort in Einheiten zu erhalten, NICHT in Log-Einheiten.

10^mean(z) # something near 10.0 units
10^se(z)   # something near 1.00 units

Meine Frage: Warum unterscheidet sich bei einer Normalverteilung der Standardfehler davon, ob er aus der Verteilung selbst berechnet wurde oder ob er transformiert, berechnet und rücktransformiert wurde? Hinweis: Die Mittelwerte waren unabhängig von der Transformation gleich.

EDIT # 1: Letztendlich bin ich daran interessiert, einen Mittelwert und Konfidenzintervalle für nicht normalverteilte Daten zu berechnen. Wenn Sie also eine Anleitung zur Berechnung von 95% -KI für transformierte Daten geben können, einschließlich der Rücktransformation in ihre nativen Einheiten , Ich würde es schätzen!
ENDE BEARBEITEN # 1

EDIT # 2: Ich habe versucht, mit der Quantil-Funktion die 95% -Konfidenzintervalle zu erhalten:

quantile(x, probs = c(0.05, 0.95))     # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95))  # around [8.3, 11.6]

Das lief also auf die gleiche Antwort hinaus, was gut ist. Bei Verwendung dieser Methode wird jedoch nicht dasselbe Intervall bei Verwendung von nicht normalen Daten mit "kleinen" Stichprobengrößen bereitgestellt:

t <- rlnorm(10)
mean(t)                            # around 1.46 units
10^mean(log(t, base=10))           # around 0.92 units
quantile(t, probs = c(0.05, 0.95))                     # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95)))  # around [0.209, 4.28]

Welche Methode wäre "richtiger"? Ich nehme an, man würde die konservativste Schätzung wählen?

Würden Sie dieses Ergebnis als Beispiel für die nicht normalen Daten (t) mit einem Mittelwert von 0,92 Einheiten mit einem 95% -Konfidenzintervall von [0,211, 4,79] angeben?
ENDE BEARBEITEN # 2

Vielen Dank für Ihre Zeit!

confidence-interval data-transformation descriptive-statistics

— verdutzt
quelle

1

SE ist SD geteilt durch die Quadratwurzel von N. Nicht nur N.

— Penguin_Knight

3

Vielen Dank! Ich habe das Problem behoben. Das Problem, das ich habe, bleibt jedoch bestehen.

— verblüfft

12

Ihr Hauptproblem bei der anfänglichen Berechnung ist, dass es keinen guten Grund gibt, warum $e^{\text{sd}(\log(Y))}$ wie . Es ist im Allgemeinen ganz anders. $\text{sd}(Y)$

In einigen Situationen können Sie eine grobe Näherung von aus $\text{sd}(Y)$ über dieTaylor-Erweiterung. $\text{sd}(\log(Y))$

Var (g (X)) \approx {(g^{'} (μ_{X}))}^{2} σ_{X}^{2} .

$\text{Var}(g(X))\approx \left(g'(\mu_X)\right)^2\sigma^2_X\,.$

Wenn wir als Zufallsvariable auf der logarithmischen Skala betrachten, ist hier $X$ $g(X)=\exp(X)$

$\text{Var}(\exp(X))\approx \exp(\mu_X)^2\sigma_X^2$

$\text{sd}(\exp(X))\approx \exp(\mu_X)\sigma_X$

Diese Begriffe wirken sich auf Stichprobenverteilungen aus.

Dies funktioniert in der Regel recht gut, wenn die Standardabweichung im Vergleich zum Mittelwert, wie in Ihrem Beispiel, sehr klein ist.

> mean(y)
[1] 10
> sd(y)
[1] 0.03
> lm=mean(log(y))
> ls=sd(log(y))
> exp(lm)*ls
[1] 0.0300104

Wenn Sie ein CI für einen Parameter transformieren möchten, werden dazu die Endpunkte transformiert.

$E(\exp(X))\approx \exp(\mu_X)\cdot (1+\sigma_X^2/2)$ $(c.\exp(L),c.\exp(U))$ $L,U$ $c$ $1+\sigma_X^2/2$

Wenn Ihre Daten auf der Protokollskala ungefähr normal sind, möchten Sie sie möglicherweise als Problem bei der Erstellung eines Intervalls für einen logarithmischen Mittelwert behandeln.

— Glen_b - Setzen Sie Monica wieder ein
quelle

1

Danke Glen_b. Das habe ich im Statistikunterricht nie gelernt.

— verblüfft

2

Ich habe nicht den Ruf, einen Kommentar abzugeben, aber für den Fall, dass in diesem Beitrag eine andere neugierige Seele auftaucht, sollte die korrekte Schätzung für den Mittelwert , wenn Sie sich den Taylor-Erweiterungslink auf Wikipedia ansehen.

\begin{array}{rcl} E [f (X)] & \approx & f (μ_{X}) + \frac{f^{''} (μ_{X})}{2} σ_{X}^{2} \\ = & \exp (μ_{X}) (1 + \frac{σ_{X}^{2}}{2}) \end{array}

$\begin{eqnarray*}\text{E}[f(X)] &\approx& f(\mu_X)+\frac{f^{\prime\prime}(\mu_X)}{2}\sigma_X^2\\ &=& \exp(\mu_X)\left(1 +\frac{\sigma_X^2}{2}\right) \end{eqnarray*}$

\exp (μ_{x}) ≫ σ_{X}^{2}

$\exp(\mu_x)\gg\sigma_X^2$

E [\exp (X)]

$\text{E}[\exp(X)]$

Danke @Dezmond. Ja das ist richtig. Ich werde meiner Antwort eine Korrektur hinzufügen, dass ein Teil davon gegen Ende ziemlich verstümmelt ist.

— Glen_b

0

Es hört sich so an, als wollten Sie effektiv den geometrischen Standardfehler, ähnlich dem geometrischen Mittelwert exp(mean(log(x))).

Es mag zwar vernünftig erscheinen, dies wie folgt zu berechnen:

exp(sd(log(x)/sqrt(n-1)))

Sie und andere haben bereits darauf hingewiesen, dass dies aus mehreren Gründen nicht zutrifft. Verwenden Sie stattdessen:

exp(mean(log(x))) * (sd(log(x))/sqrt(n-1))

Welches ist das geometrische Mittel multipliziert mit dem logarithmischen Standardfehler? Dies sollte sich dem "natürlichen" Standardfehler ziemlich gut annähern.

Quelle: https://www.jstor.org/stable/pdf/2235723.pdf

— dmp
quelle