Wann (und warum) sollten Sie das Protokoll einer Verteilung (von Zahlen) aufnehmen?


173

Angenommen, ich habe einige historische Daten, z. B. vergangene Aktienkurse, Flugpreisschwankungen, vergangene Finanzdaten des Unternehmens ...

Jetzt kommt jemand (oder eine Formel) und sagt "Lass uns das Protokoll der Distribution nehmen / benutzen" und hier ist, wohin ich gehe WARUM ?

Fragen:

  1. WARUM sollte man überhaupt das Verteilungsprotokoll führen?
  2. WAS gibt / vereinfacht das Protokoll der Distribution, das die ursprüngliche Distribution nicht konnte / nicht konnte?
  3. Ist die Protokolltransformation "verlustfrei"? Dh, gelten bei der Transformation in den Protokollbereich und der Analyse der Daten dieselben Schlussfolgerungen für die ursprüngliche Verteilung? Woher?
  4. Und zuletzt, WANN, um das Protokoll der Verteilung zu nehmen? Unter welchen Bedingungen entscheidet man sich dafür?

Ich wollte logbasierte Verteilungen wirklich verstehen (zum Beispiel lognormal), aber ich habe nie verstanden, wann / warum Aspekte - dh das Protokoll der Verteilung ist eine normale Verteilung, na und? Was sagt mir das überhaupt und warum? Daher die Frage!

UPDATE : Gemäß @ whubers Kommentar habe ich mir die Posts angesehen und aus irgendeinem Grund verstehe ich die Verwendung von Log-Transformationen und ihre Anwendung in der linearen Regression, da Sie eine Beziehung zwischen der unabhängigen Variablen und dem Log der abhängigen Variablen zeichnen können. Meine Frage ist jedoch generisch im Sinne einer Analyse der Verteilung selbst - es gibt keine Beziehung an sich, aus der ich schließen kann, um den Grund für die Aufnahme von Protokollen zur Analyse einer Verteilung zu verstehen. Ich hoffe, ich mache Sinn: - /

In der Regressionsanalyse haben Sie Einschränkungen hinsichtlich Typ / Anpassung / Verteilung der Daten, und Sie können sie transformieren und eine Beziehung zwischen der unabhängigen und der (nicht transformierten) abhängigen Variablen definieren. Aber wann / warum sollte man das für eine isolierte Verteilung tun, bei der Einschränkungen von Typ / Passung / Verteilung nicht unbedingt in einem Framework (wie der Regression) anwendbar sind? Ich hoffe die Klarstellung macht die Dinge klarer als verwirrend :)

Diese Frage verdient eine klare Antwort in Bezug auf "WARUM und WANN".


3
Da dies fast den gleichen Grund wie die vorherigen Fragen hier und hier abdeckt , lesen Sie diese Threads und aktualisieren Sie Ihre Frage, um sich auf Aspekte dieses Problems zu konzentrieren, die noch nicht behandelt wurden. Beachten Sie auch, dass # 4 (und ein Teil von # 3) elementare Fragen zu Logarithmen sind, deren Antworten an vielen Stellen leicht zu finden sind.
whuber

1
Die Aufklärung hilft. Möglicherweise möchten Sie jedoch darüber nachdenken, dass eine Regression mit nur einem konstanten Term (und keinen anderen unabhängigen Variablen) der Bewertung der Variation der Daten um ihren Mittelwert gleichkommt. Wenn Sie also die Auswirkungen der Protokollierung abhängiger Variablen in einer Regression wirklich verstehen, haben Sie bereits Verständnis für die (einfachere) Situation, nach der Sie hier fragen. Kurz gesagt, sobald Sie alle vier Fragen zur Regression beantwortet haben, müssen Sie sie nicht noch einmal nach "der Verteilung in Isolation" fragen.
Whuber

@whuber: Ich verstehe ... also verstehe ich die Gründe für die Protokollierung in der Regression, aber nur, weil mir dies beigebracht wurde - ich verstehe es aus der Perspektive, dass dies erforderlich ist, dh um sicherzustellen, dass die Daten mit den Annahmen übereinstimmen der linearen Regression. Das ist mein einziges Verständnis. Vielleicht fehlt mir ein "echtes Verständnis" für die Auswirkung des Aufnehmens von Protokollen und damit für die Verwirrung ... irgendeine Hilfe? ;)
PhD

2
Ah, aber Sie wissen noch viel mehr, denn nach der Verwendung von Logs in Regression wissen Sie, dass die Ergebnisse unterschiedlich interpretiert werden und Sie wissen, wie Sie angepasste Werte und Konfidenzintervalle rücktransformieren. Ich schlage vor, dass Sie vielleicht nicht verwirrt sind und dass Sie wahrscheinlich bereits viele der Antworten auf diese vier Fragen kennen, obwohl Sie es anfangs nicht gewusst haben :-).
Whuber

2
Die Leser hier möchten möglicherweise auch einen Blick auf diese eng verwandten Themen werfen: Interpretation des logarithmisch transformierten Prädiktors und Interpretation logarithmisch transformierter Koeffizienten in linearer Regression .
gung

Antworten:


98

Wenn Sie eine Modellform annehmen, die nicht linear ist, aber in ein lineares Modell wie werden kann, ist es gerechtfertigt, Logarithmen von zu verwenden, um die angegebene Modellform zu erfüllen. Unabhängig davon, ob Sie kausale Reihen haben oder nicht, ist die einzige Zeit, in der Sie berechtigt oder korrekt wären, das Protokoll von wenn nachgewiesen werden kann, dass die Varianz von proportional zum erwarteten Wert vonlogY=β0+β1tYYYY2. Ich erinnere mich nicht an die ursprüngliche Quelle für das Folgende, aber sie fasst die Rolle von Machttransformationen gut zusammen. Es ist wichtig zu beachten, dass sich die Verteilungsannahmen immer auf den Fehlerprozess und nicht auf das beobachtete Y beziehen. Daher ist es ein eindeutiges "Nein-Nein", die ursprüngliche Reihe auf eine geeignete Transformation hin zu analysieren, es sei denn, die Reihe ist durch eine einfache Konstante definiert.

Unberechtigte oder inkorrekte Transformationen, einschließlich Differenzen, sollten sorgfältig vermieden werden, da sie oft ein unmoderner / schlecht durchdachter Versuch sind, mit nicht identifizierten Anomalien / Pegelverschiebungen / Zeittrends oder Änderungen von Parametern oder Änderungen der Fehlervarianz umzugehen. Ein klassisches Beispiel hierfür finden Sie ab Folie 60 hier unter http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capabilities-presentation ( unbehandelt) führten zu einer ungerechtfertigten logarithmischen Transformation durch frühe Forscher. Leider machen einige unserer derzeitigen Forscher immer noch den gleichen Fehler.

Die optimale Leistung Transformation wird über den gefundenen Box-Cox - Test , wo

  • -1. ist ein Gegenseitigkeitsverhältnis
  • -.5 ist eine rekriproke Quadratwurzel
  • 0.0 ist eine Protokolltransformation
  • .5 ist eine Quadrat-Toot-Transformation und
  • 1.0 ist keine Transformation.

Beachten Sie, dass, wenn Sie keine Prädiktor- / Kausal- / Unterstützungs-Eingabereihen haben, das Modell und dass keine Anforderungen an die Verteilung von ABER für , den Fehlerprozess. In diesem Fall werden die Verteilungsanforderungen für direkt an . Wenn Sie unterstützende Reihen haben, z. B. in einer Regression oder in einem Modell mit autoregressivem gleitendem Durchschnitt und exogenen Eingaben ( ARMAX-Modell ), beziehen sich die Verteilungsannahmen auf und haben überhaupt nichts mit der Verteilung von zu tun . Somit würde man im Falle eines ARIMA-Modells oder eines ARMAX-Modells niemals eine Transformation annehmenYt=u+atYatatYtatYtY vor dem Finden der optimalen Box-Cox-Transformation, die dann das Heilmittel (Transformation) für vorschlagen würde . In früheren Zeiten haben einige Analysten sowohl als auch mutmaßlich transformiert , um über die prozentuale Änderung von als Ergebnis der prozentualen Änderung von nachdenken zu können, indem sie den Regressionskoeffizienten zwischen und . Zusammenfassend sind Transformationen wie Drogen, manche sind gut und manche schlecht für Sie! Sie sollten nur bei Bedarf und dann mit Vorsicht verwendet werden.YYXYXlogYlogX


2
Ich bin damit einverstanden, dass jeder, der die Ablehnung (en) verlassen hat, eine Bemerkung darüber hinterlässt, warum dies abgelehnt wurde. Für Irishstat wäre es viel einfacher, Ihren Beitrag zu lesen, wenn Sie die Formatierungsoptionen nutzen würden, um Antworten zu hinterlassen, insbesondere die, die zum Markieren von Gleichungen in Latex verfügbar sind. Weitere Informationen finden Sie im Abschnitt zur Abschriftenbearbeitung . Dieser Link ist immer dann verfügbar, wenn Sie eine Antwort in der rechten oberen Ecke des Postings eingeben (im orangefarbenen Kreis mit dem Fragezeichen).
Andy W

4
Die angegebene Tabelle befindet sich in Einführung in die lineare Regressionsanalyse von Douglas C. Montgomery, Elizabeth A. Peck und G. Geoffrey Vining.
user1717828

@ user1717828 tu .. Ich war schon immer ein Fan von Montgomery, da er einen langen Bart mit Zeitreihen hat
IrishStat

Stimmt es nicht immer, dass der zweite Moment und die Varianz proportional zueinander sind? Wir haben die klassische Gleichung: Varianz ist gleich dem zweiten Moment minus dem ersten Moment im Quadrat.
information_interchange

Wie Sie sagen, ist die Varianz eine Funktion des zweiten Moments. Wo habe ich etwas anderes impliziert? Zusätzlich kann sich die Varianz zu verschiedenen Zeitpunkten (deterministisch) ändern, siehe pdfs.semanticscholar.org/09c4/…, was nicht durch eine Leistungstransformation behoben wird.
IrishStat

107

Die logarithmische Skala informiert über relative Änderungen (multiplikativ), während die lineare Skala über absolute Änderungen (additiv) informiert. Wann benutzt du jeden? Wenn Sie sich für relative Änderungen interessieren, verwenden Sie die Protokollskala. Wenn Sie sich für absolute Änderungen interessieren, verwenden Sie die lineare Skala. Dies gilt für Verteilungen, aber auch für Mengen oder Mengenänderungen.

Beachten Sie, dass ich das Wort "Pflege" hier sehr spezifisch und absichtlich verwende. Ohne ein Modell oder ein Ziel kann Ihre Frage nicht beantwortet werden. Das Modell oder Ziel definiert, welcher Maßstab wichtig ist. Wenn Sie versuchen, etwas zu modellieren, und der Mechanismus über eine relative Änderung erfolgt, ist die Protokollskala entscheidend, um das in Ihren Daten festgestellte Verhalten zu erfassen. Wenn der Mechanismus des zugrunde liegenden Modells jedoch additiv ist, sollten Sie die lineare Skalierung verwenden.

Beispiel. Börse .
Lager A an Tag 1: 100. An Tag 2: 101. Jeder Lagerverfolgungsservice der Welt meldet diese Änderung auf zwei Arten! (1) + 1. (2) + 1%. Das erste ist ein Maß für die absolute additive Änderung; der zweite ein Maß für die relative Veränderung.$$$

Darstellung der relativen Veränderung gegenüber der absoluten Veränderung: Die relative Veränderung ist die gleiche, die absolute Veränderung ist unterschiedlich. Die
Aktie A geht von 1 auf 1,10. Stock B geht von 100 bis 110.$$$$

Aktie A legte um 10% zu, Aktie B um 10% (relative Skala, gleich)
... aber Aktie A legte um 10 Cent zu, während Aktie B 10 zulegte ( Aktie B legte 10 Dollar zu)$

Wenn wir in Protokollspeicher konvertieren, werden relative Änderungen als absolute Änderungen angezeigt.

Lager A reicht von bis = 0 bis .0413 Lager B reicht von bis = 2 bis 2,0413log10($1)log10($1.10)
log10($100)log10($110)

Betrachtet man nun den absoluten Unterschied im Protokollbereich , stellt man fest, dass sich beide um .0413 geändert haben.

Beide Maßstäbe der Veränderung sind wichtig, und welcher für Sie von Bedeutung ist, hängt ausschließlich von Ihrem Investitionsmodell ab. Es gibt zwei Modelle. (1) Anlage eines festen Kapitalbetrags oder (2) Anlage in eine feste Anzahl von Aktien.

Modell 1: Investieren mit einem festen Kapitalbetrag.

Sagen wir, Lager A kostet 1 pro Aktie und Lager B kostet 100 pro Aktie. Heute sind sie beide gingen von einem Dollar bis zu 2 und jeweils 101. Ihre absolute Veränderung ist identisch ( 1), aber ihre relative Veränderung ist dramatisch unterschiedlich (100% für A, 1% für B). Vorausgesetzt, Sie haben einen festen Kapitalbetrag zu investieren, sagen wir 100 , können Sie sich nur eine Aktie von B oder 100 Aktien von A leisten. Wenn Sie gestern investiert hätten, hätten Sie 200 mit A oder 101 mit B. Hier "kümmern" Sie sich also um die relativen Gewinne, insbesondere weil Sie eine begrenzte Menge an Kapital haben.$$$$$$$$

Modell 2: feste Anzahl Aktien.

Nehmen Sie in einem anderen Szenario an, Ihre Bank lässt den Kauf nur in Blöcken von 100 Aktien zu und Sie haben beschlossen, in 100 Aktien von A oder B zu investieren. Im vorherigen Fall ist der Gewinn beim Kauf von A oder B der gleiche ( 100 - dh $ 1 für jede Aktie).$

Angenommen, wir stellen uns einen Aktienwert als zufällige Variable vor, die im Laufe der Zeit schwankt, und möchten ein Modell entwickeln, das das allgemeine Verhalten von Aktien widerspiegelt. Nehmen wir an, wir möchten mit diesem Modell den Gewinn maximieren. Wir berechnen eine Wahrscheinlichkeitsverteilung, deren x-Werte in Einheiten des 'Aktienkurses' und deren y-Werte in Wahrscheinlichkeiten zur Beobachtung eines bestimmten Aktienkurses angegeben sind. Wir tun dies für Aktie A und Aktie B. Wenn Sie das erste Szenario abonnieren, in dem Sie einen festen Kapitalbetrag investieren möchten, ist es informativ, das Protokoll dieser Ausschüttungen zu führen. Warum? Was Sie interessiert, ist die Form der Verteilung im relativen Raum. Ob eine Aktie von 1 bis 10 oder 10 bis 100 geht, ist Ihnen egal, oder? Beide Fälle sind 10- fachrelativer Gewinn. Dies erscheint natürlich in einer logarithmischen Verteilung, bei der die Einheitsgewinne den direkten Fold-Gewinnen entsprechen. Für zwei Bestände, deren Mittelwert unterschiedlich ist, deren relative Änderung jedoch identisch verteilt ist (sie haben die gleiche Verteilung der täglichen prozentualen Änderungen), sind ihre logarithmischen Verteilungen in ihrer Form identisch , nur verschoben. Umgekehrt werden ihre linearen Verteilungen keine identische Form haben, wobei die höherwertige Verteilung eine höhere Varianz aufweist.

Wenn Sie die gleichen Verteilungen im linearen oder absoluten Bereich betrachten, würden Sie denken, dass höherwertige Aktienkurse größeren Schwankungen entsprechen. Für Ihre Anlagezwecke, bei denen nur relative Gewinne von Bedeutung sind, gilt dies jedoch nicht unbedingt.

Beispiel 2. Chemische Reaktionen. Angenommen, wir haben zwei Moleküle A und B, die eine reversible Reaktion eingehen.

AB

was durch die einzelnen Geschwindigkeitskonstanten definiert ist

( ) ( )kabABkbaBA

Ihr Gleichgewicht wird durch die Beziehung definiert:

K=kabkba=[A][B]

Zwei Punkte hier. (1) Dies ist ein multiplikatives Verhältnis zwischen den Konzentrationen von und . (2) Diese Beziehung ist nicht willkürlich, sondern ergibt sich direkt aus den grundlegenden physikalisch-chemischen Eigenschaften, die Moleküle steuern, die ineinander stoßen und reagieren.AB

Nehmen wir nun an, wir haben eine gewisse Verteilung der Konzentration von A oder B. Der geeignete Maßstab für diese Verteilung ist der logarithmische Raum, da das Modell, wie sich eine der Konzentrationen ändert, multiplikativ definiert wird (das Produkt der Konzentration von A mit dem Kehrwert der Konzentration von B). In einem alternativen Universum, in dem , können wir diese Konzentrationsverteilung im absoluten linearen Raum betrachten.K=kabkba=[A][B]

Das heißt, wenn Sie ein Modell haben, sei es für die Börsenvorhersage oder die chemische Kinetik, können Sie immer "verlustfrei" zwischen linearem und logarithmischem Raum umwandeln, solange Ihr Wertebereich . Ob Sie sich für die lineare oder logarithmische Verteilung entscheiden, hängt davon ab, was Sie aus den Daten abrufen möchten.(0,inf)

BEARBEITEN . Eine interessante Parallele, die mir beim Aufbau der Intuition geholfen hat, ist das Beispiel von arithmetischen und geometrischen Mitteln. Ein arithmetischer Mittelwert (Vanille-Mittelwert) berechnet den Durchschnitt von Zahlen unter der Annahme eines verborgenen Modells, bei dem es auf absolute Unterschiede ankommt. Beispiel. Das arithmetische Mittel von 1 und 100 beträgt 50,5. Nehmen wir an, wir sprechen über Konzentrationen, bei denen die chemische Beziehung zwischen Konzentrationen multiplikativ ist. Dann sollte die durchschnittliche Konzentration wirklich auf der logarithmischen Skala berechnet werden. Dies nennt man den geometrischen Durchschnitt. Der geometrische Durchschnitt von 1 und 100 ist 10! In Bezug auf relative Unterschiede ist dies sinnvoll: 10/1 = 10 und 100/10 = 10, dh die relative Änderung zwischen dem Mittelwert und zwei Werten ist gleich. Additiv finden wir das Gleiche; 50,5-1 = 49,5 und 100-50,5 = 49,5.


2
Dies ist eine wirklich hilfreiche Antwort und ich liebe die Beispiele. Könnten Sie mehr über das "Wann" speziell für die Verwendung der Protokolltransformation hinzufügen? Sie sagen: "Wenn Sie sich für relative Änderungen interessieren, verwenden Sie die logarithmische Skala. Wenn Sie sich für absolute Änderungen interessieren, verwenden Sie die lineare Skala." Aber gibt es Fälle, in denen Sie sich für relative Änderungen interessieren, aber keine Protokolltransformation durchführen sollten, und wenn ja, wie erkennen Sie diese Fälle? In diesem Artikel wird
skeller88

@ skeller88 Ich stimme diesem Artikel zu. Es ist eine knappe Antwort auf die umfassendere (und philosophischere!) Frage: "Warum transformieren wir Verteilungen?" Ich denke, die Antwort ist, dass wir ein gut entwickeltes statistisches Toolkit für den Kontrast zwischen normalen Distributionen haben, aber ein weniger entwickeltes Toolkit für andere, vielleicht sogar unbenannte Distributionen (die Mehrheit). Ein Ansatz zur Bewertung einer funky aussehenden Distribution könnte darin bestehen, das Protokoll zu führen, um festzustellen, ob es normaler aussieht. aber wie IrishStat oben technisch beschreibt, ist dieser Weg mit Gefahren behaftet (vom Vierkantstift, Rundlochsorte).
vector07

1
Es gibt eine relevante Erklärung für diesen Effekt und warum es für Entscheidungsbäume ein bisschen mehr in Richtung Datascience /
Keith
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.