Was ist der Grund, warum die Protokolltransformation bei rechtsseitigen Verteilungen verwendet wird?

18

Das habe ich mal gehört

Die log-Transformation ist die beliebteste für rechtsgerichtete Verteilungen in der linearen oder quantilen Regression

Ich würde gerne wissen, ob dieser Aussage ein Grund zugrunde liegt. Warum eignet sich die Protokollumwandlung für eine Verteilung mit einem rechten Versatz?

Wie wäre es mit einer linksgerichteten Verteilung?

— user3269
quelle

26

Ökonomen (wie ich) lieben die Holztransformation. Wir lieben es besonders in Regressionsmodellen wie diesem:

\begin{aligned} \ln {Y.}_{ich} & = β_{1} + β_{2} \ln X_{ich} + ϵ_{ich} \end{aligned}

$\begin{align} \ln{Y_i} &= \beta_1 + \beta_2 \ln{X_i} + \epsilon_i \end{align}$

Warum lieben wir es so sehr? Hier ist die Liste der Gründe, aus denen ich Studenten beim Vortrag darauf hinweise:

Es respektiert die Positivität von . Bei realen Anwendungen in der Wirtschaft und anderswo ist von Natur aus eine positive Zahl. Dies kann ein Preis, ein Steuersatz, eine produzierte Menge, Produktionskosten, Ausgaben für eine bestimmte Warengruppe usw. sein. Die vorhergesagten Werte einer nicht transformierten linearen Regression können negativ sein. Die vorhergesagten Werte einer logarithmisch transformierten Regression können niemals negativ sein. Sie sind (Siehe eine frühere Antwort von mir zur Ableitung). $Y$ $Y$ $\widehat{Y}_j=\exp{\left(\beta_1 + \beta_2 \ln{X_j}\right)} \cdot \frac{1}{N} \sum \exp{\left(e_i\right)}$
Das Log-Log-Funktionsformular ist überraschend flexibel. Hinweis: Das gibt uns: Das sind viele verschiedene Formen. Eine Linie (deren Steigung durch , die also eine beliebige positive Steigung haben kann), eine Hyperbel, eine Parabel und eine "Quadratwurzel-ähnliche" Form. Ich habe es mit und gezeichnet , aber in einer realen Anwendung würde keines davon zutreffen, so dass die Steigung und die Höhe der Kurven bei $\begin{aligned} \ln {Y.}_{ich} & = β_{1} + β_{2} \ln X_{ich} + ϵ_{ich} \\ {Y.}_{ich} & = \exp (β_{1} + β_{2} \ln X_{ich}) \cdot \exp (ϵ_{ich}) \\ {Y.}_{ich} & = {(X_{ich})}^{β_{2}} \exp (β_{1}) \cdot \exp (ϵ_{ich}) \end{aligned}$ $\begin{align} \ln{Y_i} &= \beta_1 + \beta_2 \ln{X_i} + \epsilon_i \\ Y_i &= \exp{\left(\beta_1 + \beta_2 \ln{X_i}\right)}\cdot\exp{\left(\epsilon_i\right)}\\ Y_i &= \left(X_i\right)^{\beta_2}\exp{\left(\beta_1\right)}\cdot\exp{\left(\epsilon_i\right)}\\ \end{align}$ $\exp{\left(\beta_1\right)}$ $\beta_1=0$ $\epsilon=0$ $X=1$ würde eher von denen kontrolliert als auf 1 gesetzt.
Wie TrynnaDoStat erwähnt, "zieht" das Protokoll-Protokoll-Formular große Werte ein, wodurch die Daten häufig einfacher zu betrachten sind und manchmal die Varianz zwischen Beobachtungen normalisiert wird.
Der Koeffizient wird als Elastizität interpretiert. Dies ist die prozentuale Zunahme von gegenüber einer Zunahme von ein Prozent . $\beta_2$ $Y$ $X$
Wenn eine Dummy-Variable ist, schließen Sie sie ein, ohne sie zu protokollieren. In diesem Fall ist die prozentuale Differenz in zwischen der Kategorie und der Kategorie . $X$ $\beta_2$ $Y$ $X=1$ $X=0$
Wenn die Zeit ist, schließen Sie es normalerweise erneut ein, ohne es zu protokollieren. In diesem Fall ist ; 2 die Wachstumsrate in - gemessen in welcher Zeiteinheit auch immer gemessen wird. Wenn Jahre ist, dann ist der Koeffizient zum Beispiel die jährliche Wachstumsrate in $X$ $\beta_2$ $Y$ $X$ $X$ $Y$
Der Steigungskoeffizient, wird skaleninvarianten. Dies bedeutet einerseits, dass es keine Einheiten gibt, und andererseits, dass, wenn Sie oder neu skalieren (dh die Einheiten ändern) , dies keinerlei Auswirkungen auf den geschätzten Wert von . Zumindest mit OLS und anderen verwandten Schätzern. $\beta_2$ $X$ $Y$ $\beta_2$
Wenn Ihre Daten normalverteilt sind, werden sie durch die Protokolltransformation normalverteilt. Normalerweise haben verteilte Daten eine Menge zu bieten.

Statistiker finden Ökonomen im Allgemeinen übermäßig begeistert von dieser speziellen Transformation der Daten. Ich denke, das liegt daran, dass sie meinen Punkt 8 und die zweite Hälfte meines Punktes 3 als sehr wichtig einschätzen. In Fällen, in denen die Daten nicht normalverteilt sind oder in denen das Aufzeichnen der Daten nicht dazu führt, dass die transformierten Daten über die Beobachtungen hinweg die gleiche Varianz aufweisen, wird ein Statistiker die Transformation nicht sehr mögen. Der Ökonom dürfte ohnehin einen Sprung nach vorne machen, da uns die Punkte 1,2 und 4-7 an der Transformation am besten gefallen.

— Rechnung
quelle

7

Dies sind Standardpunkte, aber es ist sehr gut, sie kurz zusammenzufassen. Viele Konten decken nur einige dieser Punkte ab. Kleiner Punkt: Ich denke, Ihr Kontrast zwischen den Einstellungen der Ökonomen und den Einstellungen der Statistiker ist etwas übertrieben. Die Bedeutung der Verknüpfung über Fehlerfamilien wird beispielsweise durch die verallgemeinerte lineare Modellliteratur deutlich, obwohl sie mehr Trompete verträgt. Keene, Oliver N. 1995. Die Protokolltransformation ist etwas Besonderes. Statistics in Medicine 14: 811-819. DOI: 10.1002 / sim.4780140810 ist ein weiteres Beispiel.

— Nick Cox

21

Lassen Sie uns zuerst sehen, was normalerweise passiert, wenn wir Protokolle von etwas erstellen, das recht schief ist.

Die obere Reihe enthält Histogramme für Proben aus drei verschiedenen, zunehmend verzerrten Verteilungen.

Die untere Reihe enthält Histogramme für ihre Protokolle.

Bildbeschreibung hier eingeben

Sie können sehen, dass der mittlere Fall ( ) in Symmetrie umgewandelt wurde, während der mildere rechte Versatz ( ) nun etwas links ist. Andererseits ist die Variable mit dem größten Versatz ( ) auch nach dem Aufnehmen von Protokollen immer noch (leicht) der richtige Versatz. $y$ $x$ $z$

Wenn wir wollten, dass unsere Verteilungen normaler aussehen, hat die Transformation den zweiten und dritten Fall definitiv verbessert. Wir können sehen, dass dies helfen könnte.

Warum funktioniert es?

Beachten Sie, dass bei der Betrachtung eines Bildes der Verteilungsform weder der Mittelwert noch die Standardabweichung berücksichtigt werden - dies wirkt sich nur auf die Beschriftungen auf der Achse aus.

Wir können uns also vorstellen, uns eine Art "standardisierter" Variablen anzuschauen (obwohl sie positiv bleiben, haben alle eine ähnliche Position und Verbreitung, sagen wir).

Wenn Sie Protokolle nehmen, werden mehr Extremwerte rechts (hohe Werte) relativ zum Median "eingezogen", während Werte ganz links (niedrige Werte) dazu neigen, vom Median weiter nach hinten gedehnt zu werden.

Bildbeschreibung hier eingeben

Im ersten Diagramm haben , und Mittelwerte nahe 178, alle haben Mediane nahe 150 und ihre Protokolle haben Mediane nahe 5. $x$ $y$ $z$

Wenn wir uns die Originaldaten ansehen, liegt ein Wert ganz rechts - etwa 750 - weit über dem Median. Im Fall von sind es 5 Interquartilbereiche über dem Median. $y$

Wenn wir jedoch Protokolle aufnehmen, werden diese zum Median zurückgezogen. Nach der Protokollierung sind es nur etwa 2 Interquartilbereiche über dem Median.

Unterdessen liegt ein niedriger Wert wie 30 (nur 4 Werte in der Stichprobe der Größe 1000 liegen darunter) etwas unter einem Interquartilbereich unter dem Median von . Wenn wir Protokolle erstellen, handelt es sich erneut um zwei Interquartilbereiche unterhalb des neuen Medians. $y$

Bildbeschreibung hier eingeben

Es ist kein Zufall, dass das Verhältnis von 750/150 und 150/30 beide 5 beträgt, wenn log (750) und log (30) ungefähr den gleichen Abstand vom Median von log (y) haben. So funktionieren Protokolle: Konstante Verhältnisse werden in konstante Differenzen umgewandelt.

Es ist nicht immer so, dass das Protokoll merklich hilft. Nehmen Sie zum Beispiel eine logarithmische Zufallsvariable und verschieben Sie sie erheblich nach rechts (dh fügen Sie eine große Konstante hinzu), sodass der Mittelwert relativ zur Standardabweichung groß wird die Form. Es wäre weniger schief - aber kaum.

Aber auch andere Transformationen - zum Beispiel die Quadratwurzel - ziehen so große Werte hinein. Warum sind insbesondere Protokolle beliebter?

Ich habe am Ende des vorherigen Teils einen Grund angesprochen: Konstante Verhältnisse tendieren zu konstanten Unterschieden. Dies macht die Interpretation von Protokollen relativ einfach, da konstante prozentuale Änderungen (wie ein Anstieg von 20% auf jede einzelne einer Reihe von Zahlen) zu einer konstanten Verschiebung werden. Ein Rückgang von im natürlichen einem Rückgang der ursprünglichen Zahlen um 15%, unabhängig davon, wie groß die ursprüngliche Zahl ist. $-0.162$

Viele wirtschaftliche und finanzielle Daten verhalten sich beispielsweise so (konstante oder nahezu konstante Auswirkungen auf die prozentuale Skala). Die logarithmische Skala ist in diesem Fall sehr sinnvoll. Darüber hinaus als Ergebnis dieses prozentualen Skaleneffekts. Die Streuung der Werte ist tendenziell größer, wenn sich der Mittelwert erhöht - und die Aufnahme von Protokollen stabilisiert auch die Streuung. Das ist in der Regel mehr wichtiger als Normalität. Tatsächlich stammen alle drei Verteilungen im Originaldiagramm aus Familien, in denen die Standardabweichung mit dem Mittelwert zunimmt und in jedem Fall die Varianz durch Protokollierung stabilisiert wird. [Dies passiert jedoch nicht mit allen richtig verzerrten Daten. Es kommt nur sehr häufig bei der Art von Daten vor, die in bestimmten Anwendungsbereichen auftreten.]

Es gibt auch Zeiten, in denen die Quadratwurzel die Dinge symmetrischer macht, aber es kommt tendenziell mit weniger verzerrten Verteilungen vor, als ich in meinen Beispielen hier verwende.

Wir könnten (ziemlich leicht) eine weitere Gruppe von drei leicht nach rechts geneigten Beispielen konstruieren, bei denen die Quadratwurzel eine nach links geneigte, eine symmetrische und die dritte immer noch nach rechts geneigt war (aber etwas weniger schief als zuvor).

Was ist mit linksgerichteten Distributionen?

Wenn Sie die Protokolltransformation auf eine symmetrische Verteilung angewendet haben, wird sie tendenziell nach links verschoben, aus dem gleichen Grund, aus dem ein rechter Versatz oftmals noch symmetrischer wird. Weitere Informationen hierzu finden Sie hier .

Entsprechend , wenn Sie die Log-Transformation auf etwas anwenden , die bereits Skew übrig bleibt, wird es dazu neigen , es selbst zu machen mehr links Skew, über dem Median der Dinge ziehen in noch fester, und Stretching Dinge unter dem Median nach unten noch schwieriger.

Die Protokolltransformation wäre dann also nicht hilfreich.

Siehe auch Krafttransformationen / Tukeys Leiter. Verteilungen, die schief bleiben, können durch Potenzieren oder Potenzieren symmetrischer gemacht werden. Wenn es eine offensichtliche obere Schranke hat, kann man Beobachtungen von der oberen Schranke subtrahieren (was ein rechts verzerrtes Ergebnis ergibt) und dann versuchen, das zu transformieren.

— Glen_b - Setzen Sie Monica wieder ein
quelle

Vielen Dank an Glen_b für diese hervorragende Antwort. Sie geben uns empirische Daten zur Veranschaulichung und geben dann eine intuitive Erklärung, warum / wie diese Transformation funktioniert. Sehr geschätzt.

— Ram

5

$y = ln(x)$ $x$

Jetzt haben Sie in einer rechtsgerichteten Verteilung einige sehr große Werte. Durch die Protokolltransformation werden diese Werte im Wesentlichen in die Mitte der Verteilung verschoben, sodass sie eher wie eine Normalverteilung aussehen.

— TrynnaDoStat
quelle

1

Alle diese Antworten sind Verkaufsargumente für die natürliche Stammtransformation. Es gibt Vorbehalte zu seiner Verwendung, Vorbehalte, die für alle Transformationen verallgemeinerbar sind. In der Regel formen alle mathematischen Transformationen das PDF der zugrunde liegenden Rohvariablen neu, unabhängig davon, ob sie komprimieren, expandieren, invertieren oder neu skalieren. Die größte rein praktische Herausforderung besteht darin, dass bei Verwendung in Regressionsmodellen, bei denen Vorhersagen eine Schlüsselmodellausgabe sind, Transformationen der abhängigen Variablen Y-Hat durchgeführt werdenunterliegen einem potenziell signifikanten Retransformations-Bias. Beachten Sie, dass natürliche logarithmische Transformationen nicht gegen diese Verzerrung immun sind, sondern nur nicht so stark von ihr beeinflusst werden wie andere, ähnlich wirkende Transformationen. Es gibt Papiere, die Lösungen für diese Tendenz anbieten, aber sie funktionieren wirklich nicht sehr gut. Meiner Meinung nach sind Sie viel sicherer, wenn Sie nicht versuchen, Y zu transformieren und robuste Funktionsformen zu finden, mit denen Sie die ursprüngliche Metrik beibehalten können. Neben dem natürlichen Log gibt es zum Beispiel andere Transformationen, die den Schwanz von verzerrten und kurtotischen Variablen wie dem inversen hyperbolischen Sinus oder Lamberts W komprimieren. Beide Transformationen eignen sich sehr gut zum Generieren symmetrischer PDFs und daher Gauß-ähnlicher Fehler aus schwerwiegenden Informationen. Achten Sie jedoch auf die Verzerrung, wenn Sie versuchen, die Vorhersagen für DV, Y wieder in den ursprünglichen Maßstab zu bringen . Es kann hässlich sein.

— Mike Hunter
quelle

3

W

$W$

3

Wir alle scheuern uns an verschiedenen Aspekten der Regeln, aber viele von uns interagieren hier weiter, weil wir deren Weisheit erkannt und konstruktive Wege gefunden haben, um die offensichtlichen Einschränkungen zu umgehen. Diese Regel ist grundlegend: Ein Beitrag, der eine Frage nicht beantwortet, gehört nicht dazu. Es neigt dazu, jeden Thread kohärent, begrenzt, sauber und thematisch zu halten. Dies ist der Schlüssel zum Erstellen von Material, das nützlicher und interessanter ist als jedes andere auf Q & A-Websites.

— whuber

3

Sie haben daran herumgebastelt, aber meiner Meinung nach bleibt es als Antwort sehr problematisch. 1. Sie erweitern die Frage auf verschiedene Arten, z. B. indem Sie auch schwerfällige Distributionen einbringen. Das kann in einigen Threads eine vernünftige Sache sein, aber hier ist ein gut fokussierter Thread mit qualitativ hochwertigen Antworten und die zusätzliche Antwort hier ist im Großen und Ganzen, das Wasser zu trüben. Wenn es gute Antworten auf eine Frage gibt, muss es einen guten Grund für eine neue Antwort geben.

— Nick Cox

4

2. Die Behauptungen über die Transformationsverzerrung bleiben armwedelnd; Die Antwort, die den Behauptungen entspricht, enthält keine technische Präzision, einschließlich der mysteriösen Behauptung, dass das Protokoll weniger problematisch ist als andere ähnliche Transformationen.

— Nick Cox

4

W

$W$

0

Viele interessante Punkte wurden angesprochen. Ein paar mehr?

1) Ich würde vorschlagen, dass ein weiteres Problem mit der linearen Regression darin besteht, dass die "linke Seite" der Regressionsgleichung E (y) ist: der erwartete Wert. Wenn die Fehlerverteilung nicht symmetrisch ist, sind die Verdienste für die Untersuchung des erwarteten Wertes schwach. Der Erwartungswert ist nicht von zentralem Interesse, wenn die Fehler asymmetrisch sind. Man könnte stattdessen die Quantilregression untersuchen. Dann könnte die Untersuchung des Medians oder anderer Prozentpunkte wert sein, selbst wenn die Fehler asymmetrisch sind.

2) Wenn Sie die Antwortvariable transformieren möchten, möchten Sie möglicherweise eine oder mehrere der erklärenden Variablen mit derselben Funktion transformieren. Wenn man zum Beispiel ein "Endergebnis" als Antwort hat, kann man ein "Basisergebnis" als erklärende Variable haben. Für die Interpretation ist es sinnvoll, die Transformation 'final' und 'baseline' mit derselben Funktion durchzuführen.

3) Das Hauptargument für die Transformation einer erklärenden Variablen liegt häufig in der Linearität der Antwort - Erklärungsbeziehung. Heutzutage kann man andere Optionen wie eingeschränkte kubische Splines oder gebrochene Polynome für die erklärende Variable in Betracht ziehen. Es gibt sicherlich oft eine gewisse Klarheit, ob Linearität gefunden werden kann.

— Gordon Hilton Fick
quelle