Lassen Sie uns zuerst sehen, was normalerweise passiert, wenn wir Protokolle von etwas erstellen, das recht schief ist.
Die obere Reihe enthält Histogramme für Proben aus drei verschiedenen, zunehmend verzerrten Verteilungen.
Die untere Reihe enthält Histogramme für ihre Protokolle.
Sie können sehen, dass der mittlere Fall ( ) in Symmetrie umgewandelt wurde, während der mildere rechte Versatz ( ) nun etwas links ist. Andererseits ist die Variable mit dem größten Versatz ( ) auch nach dem Aufnehmen von Protokollen immer noch (leicht) der richtige Versatz.yxz
Wenn wir wollten, dass unsere Verteilungen normaler aussehen, hat die Transformation den zweiten und dritten Fall definitiv verbessert. Wir können sehen, dass dies helfen könnte.
Warum funktioniert es?
Beachten Sie, dass bei der Betrachtung eines Bildes der Verteilungsform weder der Mittelwert noch die Standardabweichung berücksichtigt werden - dies wirkt sich nur auf die Beschriftungen auf der Achse aus.
Wir können uns also vorstellen, uns eine Art "standardisierter" Variablen anzuschauen (obwohl sie positiv bleiben, haben alle eine ähnliche Position und Verbreitung, sagen wir).
Wenn Sie Protokolle nehmen, werden mehr Extremwerte rechts (hohe Werte) relativ zum Median "eingezogen", während Werte ganz links (niedrige Werte) dazu neigen, vom Median weiter nach hinten gedehnt zu werden.
Im ersten Diagramm haben , und Mittelwerte nahe 178, alle haben Mediane nahe 150 und ihre Protokolle haben Mediane nahe 5.xyz
Wenn wir uns die Originaldaten ansehen, liegt ein Wert ganz rechts - etwa 750 - weit über dem Median. Im Fall von sind es 5 Interquartilbereiche über dem Median.y
Wenn wir jedoch Protokolle aufnehmen, werden diese zum Median zurückgezogen. Nach der Protokollierung sind es nur etwa 2 Interquartilbereiche über dem Median.
Unterdessen liegt ein niedriger Wert wie 30 (nur 4 Werte in der Stichprobe der Größe 1000 liegen darunter) etwas unter einem Interquartilbereich unter dem Median von . Wenn wir Protokolle erstellen, handelt es sich erneut um zwei Interquartilbereiche unterhalb des neuen Medians.y
Es ist kein Zufall, dass das Verhältnis von 750/150 und 150/30 beide 5 beträgt, wenn log (750) und log (30) ungefähr den gleichen Abstand vom Median von log (y) haben. So funktionieren Protokolle: Konstante Verhältnisse werden in konstante Differenzen umgewandelt.
Es ist nicht immer so, dass das Protokoll merklich hilft. Nehmen Sie zum Beispiel eine logarithmische Zufallsvariable und verschieben Sie sie erheblich nach rechts (dh fügen Sie eine große Konstante hinzu), sodass der Mittelwert relativ zur Standardabweichung groß wird die Form. Es wäre weniger schief - aber kaum.
Aber auch andere Transformationen - zum Beispiel die Quadratwurzel - ziehen so große Werte hinein. Warum sind insbesondere Protokolle beliebter?
Ich habe am Ende des vorherigen Teils einen Grund angesprochen: Konstante Verhältnisse tendieren zu konstanten Unterschieden. Dies macht die Interpretation von Protokollen relativ einfach, da konstante prozentuale Änderungen (wie ein Anstieg von 20% auf jede einzelne einer Reihe von Zahlen) zu einer konstanten Verschiebung werden. Ein Rückgang von im natürlichen einem Rückgang der ursprünglichen Zahlen um 15%, unabhängig davon, wie groß die ursprüngliche Zahl ist.- 0,162
Viele wirtschaftliche und finanzielle Daten verhalten sich beispielsweise so (konstante oder nahezu konstante Auswirkungen auf die prozentuale Skala). Die logarithmische Skala ist in diesem Fall sehr sinnvoll. Darüber hinaus als Ergebnis dieses prozentualen Skaleneffekts. Die Streuung der Werte ist tendenziell größer, wenn sich der Mittelwert erhöht - und die Aufnahme von Protokollen stabilisiert auch die Streuung. Das ist in der Regel mehr wichtiger als Normalität. Tatsächlich stammen alle drei Verteilungen im Originaldiagramm aus Familien, in denen die Standardabweichung mit dem Mittelwert zunimmt und in jedem Fall die Varianz durch Protokollierung stabilisiert wird. [Dies passiert jedoch nicht mit allen richtig verzerrten Daten. Es kommt nur sehr häufig bei der Art von Daten vor, die in bestimmten Anwendungsbereichen auftreten.]
Es gibt auch Zeiten, in denen die Quadratwurzel die Dinge symmetrischer macht, aber es kommt tendenziell mit weniger verzerrten Verteilungen vor, als ich in meinen Beispielen hier verwende.
Wir könnten (ziemlich leicht) eine weitere Gruppe von drei leicht nach rechts geneigten Beispielen konstruieren, bei denen die Quadratwurzel eine nach links geneigte, eine symmetrische und die dritte immer noch nach rechts geneigt war (aber etwas weniger schief als zuvor).
Was ist mit linksgerichteten Distributionen?
Wenn Sie die Protokolltransformation auf eine symmetrische Verteilung angewendet haben, wird sie tendenziell nach links verschoben, aus dem gleichen Grund, aus dem ein rechter Versatz oftmals noch symmetrischer wird. Weitere Informationen hierzu finden Sie hier .
Entsprechend , wenn Sie die Log-Transformation auf etwas anwenden , die bereits Skew übrig bleibt, wird es dazu neigen , es selbst zu machen mehr links Skew, über dem Median der Dinge ziehen in noch fester, und Stretching Dinge unter dem Median nach unten noch schwieriger.
Die Protokolltransformation wäre dann also nicht hilfreich.
Siehe auch Krafttransformationen / Tukeys Leiter. Verteilungen, die schief bleiben, können durch Potenzieren oder Potenzieren symmetrischer gemacht werden. Wenn es eine offensichtliche obere Schranke hat, kann man Beobachtungen von der oberen Schranke subtrahieren (was ein rechts verzerrtes Ergebnis ergibt) und dann versuchen, das zu transformieren.