Bin ich auf der Suche nach einer besser verhaltenen Verteilung für die betreffende unabhängige Variable oder nach einer Reduzierung der Auswirkung von Ausreißern oder nach etwas anderem?
Bin ich auf der Suche nach einer besser verhaltenen Verteilung für die betreffende unabhängige Variable oder nach einer Reduzierung der Auswirkung von Ausreißern oder nach etwas anderem?
Antworten:
Ich zögere immer, in einen Thread mit so vielen hervorragenden Antworten wie diesen zu springen, aber es fällt mir auf, dass nur wenige der Antworten einen Grund dafür bieten, den Logarithmus einer anderen Transformation vorzuziehen, die die Daten "quetscht", z.
Bevor er nach , dass immer, lassen Sie uns rekapitulieren die Weisheit in den bestehenden Antworten auf eine allgemeinere Art und Weise. Einige nichtlineare Wiederausdrücke der abhängigen Variablen werden angezeigt, wenn eine der folgenden Bedingungen zutrifft:
Die Residuen haben eine verzerrte Verteilung. Der Zweck einer Transformation besteht darin, Residuen zu erhalten, die ungefähr symmetrisch verteilt sind (natürlich ungefähr Null).
Die Ausbreitung der Residuen ändert sich systematisch mit den Werten der abhängigen Variablen ("Heteroskedastizität"). Der Zweck der Transformation besteht darin, diese systematische Änderung der Ausbreitung zu beseitigen und eine ungefähre "Homoskedastizität" zu erreichen.
Eine Beziehung linearisieren.
Wenn wissenschaftliche Theorie anzeigt. Beispielsweise schlägt die Chemie häufig vor, Konzentrationen als Logarithmen auszudrücken (Aktivitäten oder sogar den bekannten pH-Wert).
Wenn eine nebulösere statistische Theorie vorschlägt, spiegeln die Residuen "zufällige Fehler" wider, die sich nicht additiv ansammeln.
Ein Modell vereinfachen. Beispielsweise kann manchmal ein Logarithmus die Anzahl und Komplexität von "Interaktions" -Termen vereinfachen.
(Diese Angaben können sich widersprechen; in solchen Fällen ist ein Urteil erforderlich.)
Also, wenn ein Logarithmus speziell angegeben anstelle einer anderen Transformation?
Die Residuen haben eine "stark" positiv verzerrte Verteilung. In seinem Buch über EDA bietet John Tukey quantitative Möglichkeiten, um die Transformation (innerhalb der Familie der Box-Cox- oder Potenztransformationen) basierend auf Rangstatistiken der Residuen abzuschätzen. Es kommt wirklich darauf an, dass, wenn das Logbuch die Residuen symmetrisiert, es wahrscheinlich die richtige Form des erneuten Ausdrucks war; Andernfalls ist eine andere erneute Expression erforderlich.
Wenn die SD der Residuen direkt proportional zu den angepassten Werten ist (und nicht zu einer gewissen Potenz der angepassten Werte).
Wenn die Beziehung nahezu exponentiell ist.
Wenn angenommen wird, dass Residuen multiplikativ akkumulierende Fehler widerspiegeln.
Sie möchten wirklich ein Modell, in dem geringfügige Änderungen der erklärenden Variablen als multiplikative (prozentuale) Änderungen der abhängigen Variablen interpretiert werden.
Schließlich sind einige nicht - Gründe für einen erneuten Ausdruck zu verwenden :
Ausreißer nicht wie Ausreißer aussehen lassen. Ein Ausreißer ist ein Datum, das nicht zu einer sparsamen, relativ einfachen Beschreibung der Daten passt. Das Ändern der Beschreibung, um das Erscheinungsbild von Ausreißern zu verbessern, ist in der Regel eine falsche Umkehrung der Prioritäten: Zuerst eine wissenschaftlich fundierte, statistisch gute Beschreibung der Daten einholen und dann alle Ausreißer untersuchen. Lassen Sie den gelegentlichen Ausreißer nicht bestimmen, wie der Rest der Daten zu beschreiben ist!
Weil die Software es automatisch gemacht hat. (Genug gesagt!)
Weil alle Daten positiv sind. (Positivität impliziert häufig eine positive Schiefe, muss dies aber nicht. Darüber hinaus können andere Transformationen besser funktionieren. Beispielsweise funktioniert eine Wurzel häufig am besten mit gezählten Daten.)
Um "schlechte" Daten (möglicherweise von geringer Qualität) gut verhalten erscheinen zu lassen.
Um die Daten zeichnen zu können. (Wenn eine Transformation erforderlich ist, um die Daten plotten zu können, wird sie wahrscheinlich aus einem oder mehreren bereits erwähnten guten Gründen benötigt. Wenn der einzige Grund für die Transformation wirklich das Plotten ist, fahren Sie fort und tun Sie es - aber nur , um die Daten zu plotten Lassen Sie die Daten für die Analyse untransformiert.)
Ich sage den Schülern immer, dass es drei Gründe gibt, eine Variable unter Verwendung des natürlichen Logarithmus zu transformieren. Der Grund für die Protokollierung der Variablen bestimmt, ob Sie die unabhängige (n) abhängige (n) Variable (n) oder beide protokollieren möchten. Um ganz klar zu sein, ich spreche über den natürlichen Logarithmus.
Erstens, um die Modellanpassung zu verbessern, wie andere Poster festgestellt haben. Wenn zum Beispiel Ihre Residuen nicht normalverteilt sind, kann die Anpassung verbessert werden, indem der Logarithmus einer verzerrten Variablen geändert und die Variable "normalverteilt" wird. Zum Beispiel wird das Einkommen bei Null abgeschnitten und weist häufig eine positive Verschiebung auf. Wenn die Variable einen negativen Versatz aufweist, können Sie zuerst die Variable invertieren, bevor Sie den Logarithmus verwenden. Ich denke hier insbesondere an Likert-Skalen, die als stetige Variablen eingegeben werden. Während dies normalerweise auf die abhängige Variable zutrifft, haben Sie gelegentlich Probleme mit den Residuen (z. B. Heteroskedastizität), die durch eine unabhängige Variable verursacht werden und die manchmal korrigiert werden können, indem der Logarithmus dieser Variablen verwendet wird. Zum Beispiel hatte die Variable "Klassengröße" (dh die Anzahl der Studenten in der Vorlesung) Ausreißer, die eine Heteroskedastizität hervorriefen, da die Varianz in den Bewertungen der Dozenten größer und kleiner war Kohorten als kleinere Kohorten. Das Protokollieren der Studentenvariablen würde helfen, obwohl in diesem Beispiel entweder die Berechnung von robusten Standardfehlern oder die Verwendung von gewichteten kleinsten Quadraten die Interpretation erleichtern kann.
Y und X - eine Zunahme von X um eine Einheit würde zu einer führen
Log Y und Log X - eine Zunahme von X um 1% würde zu einer führen
Y und Log X - eine 1% ige Zunahme von X würde zu einer führen
Und schließlich könnte es einen theoretischen Grund dafür geben. Zum Beispiel sind einige Modelle, die wir schätzen möchten, multiplikativ und daher nichtlinear. Mit Logarithmen können diese Modelle durch lineare Regression geschätzt werden. Gute Beispiele hierfür sind die Cobb-Douglas-Produktionsfunktion in der Wirtschaft und die Fleischwolfgleichung in der Bildung. Die Cobb-Douglas-Produktionsfunktion erklärt, wie Eingaben in Ausgaben umgewandelt werden:
wo
Durch die Verwendung von Logarithmen lässt sich die Funktion mithilfe der linearen OLS-Regression leicht abschätzen:
Weitere Informationen zu Whubers hervorragendem Argument für Gründe, den Logarithmus einigen anderen Transformationen vorzuziehen, z. B. einer Wurzel oder einem Kehrwert, wobei jedoch die eindeutige Interpretierbarkeit der aus der Log-Transformation resultierenden Regressionskoeffizienten im Vergleich zu anderen Transformationen im Mittelpunkt steht:
Oliver N. Keene. Die Protokolltransformation ist etwas Besonderes. Statistik in der Medizin 1995; 14 (8): 811 & ndash; 819. DOI: 10.1002 / sim.4780140810 . (PDF mit zweifelhafter Rechtmäßigkeit verfügbar unter http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Wenn Sie die unabhängige Variable x auf Basis b protokollieren , können Sie den Regressionskoeffizienten (und CI) als die Änderung der abhängigen Variablen y pro b- fache Zunahme von x interpretieren . (Protokolle zur Basis 2 sind daher oft nützlich, da sie der Änderung von y pro Verdopplung von x entsprechen , oder Protokolle zur Basis 10, wenn x über viele Größenordnungen variiert, was seltener ist). Andere Transformationen wie die Quadratwurzel haben keine so einfache Interpretation.
Wenn Sie die abhängige Variable y protokollieren (nicht die ursprüngliche Frage, sondern eine, auf die mehrere der vorherigen Antworten geantwortet haben), finde ich Tim Coles Vorstellung von "sympercents" attraktiv für die Präsentation der Ergebnisse (ich habe sie sogar einmal in einer Arbeit verwendet). obwohl sie anscheinend nicht allzu viel mitbekommen haben:
Tim J Cole. Sympercents: Symmetrische prozentuale Unterschiede auf der 100-log (e) -Skala vereinfachen die Darstellung von log-transformierten Daten. Statistik in der Medizin 2000; 19 (22): 3109 & ndash; 3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Ich bin so froh, dass Stat Med die Verwendung von SICIs als DOIs eingestellt hat ...]
Normalerweise wird das Protokoll einer Eingabevariablen verwendet, um sie zu skalieren und die Verteilung zu ändern (z. B. um sie normal zu verteilen). Es kann jedoch nicht blind gemacht werden; Sie müssen vorsichtig sein, wenn Sie eine Skalierung vornehmen, um sicherzustellen, dass die Ergebnisse noch interpretierbar sind.
Dies wird in den meisten einleitenden statistischen Texten erörtert. Sie können auch Andrew Gelmans Artikel über "Skalieren von Regressionseingaben durch Teilen durch zwei Standardabweichungen" lesen, um dies zu diskutieren. Er hat auch eine sehr schöne Diskussion zu Beginn von "Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen" .
Die Protokollierung ist keine geeignete Methode, um mit schlechten Daten / Ausreißern umzugehen.
Sie neigen dazu, Protokolle der Daten zu erstellen, wenn ein Problem mit den Residuen vorliegt. Wenn Sie beispielsweise die Residuen gegen eine bestimmte Kovariate zeichnen und ein zunehmendes / abnehmendes Muster (eine Trichterform) beobachten, ist möglicherweise eine Transformation angebracht. Nicht zufällige Residuen zeigen normalerweise an, dass Ihre Modellannahmen falsch sind, dh nicht normale Daten.
Einige Datentypen eignen sich automatisch für logarithmische Transformationen. Zum Beispiel mache ich normalerweise Protokolle, wenn ich mich mit Konzentrationen oder dem Alter befasse.
Transformationen werden zwar nicht in erster Linie zum Behandeln von Ausreißern verwendet, sie helfen jedoch, da das Aufnehmen von Protokollen Ihre Daten quetscht.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Ich möchte auf die Frage von user1690130 antworten, die als Kommentar zur ersten Antwort am 26. Oktober 12 hinterlassen wurde und wie folgt lautet: "Wie steht es mit Variablen wie der Bevölkerungsdichte in einer Region oder dem Verhältnis von Kindern zu Lehrern für jeden Schulbezirk oder das Anzahl der Morde pro 1000 Einwohner Ich habe gesehen, wie Professoren diese Variablen protokollierten. Es ist mir nicht klar, warum. Ist die Mordrate zum Beispiel nicht bereits ein Prozentsatz? Das Protokoll würde die prozentuale Änderung der Mordrate sein Warum sollte das Protokoll des Kinder-Lehrer-Verhältnisses bevorzugt werden? "
Ich suchte nach einer Lösung für ein ähnliches Problem und wollte mitteilen, was mein altes Statistik-Kursbuch ( Jeffrey Wooldridge. 2006. Einführende Ökonometrie - Ein moderner Ansatz, 4. Auflage. Kapitel 6 Multiple Regressionsanalyse: Weitere Probleme. 191 ) darüber aussagt. Wooldridge empfiehlt:
Variablen, die in proportionaler oder prozentualer Form auftreten, wie beispielsweise die Arbeitslosenquote, die Teilnahmequote an einer Rentenversicherung, der Prozentsatz der Studenten, die eine standardisierte Prüfung bestehen, und die Verhaftungsquote bei gemeldeten Straftaten, können entweder in ursprünglicher oder logarithmischer Form auftreten , obwohl es eine Tendenz gibt, sie in ebenen Formen zu verwenden . Dies liegt daran, dass alle Regressionskoeffizienten, an denen die ursprüngliche Variable beteiligt ist - unabhängig davon, ob es sich um die abhängige oder die unabhängige Variable handelt - eine prozentuale Punktänderungsinterpretation haben. Wenn wir verwenden, sagen wir, log ( unem ) in einer Regression, wo unem der Anteil der Arbeitslosen ist, müssen wir sehr vorsichtig sein , zwischen einem Prozentpunkt und prozentuale Veränderung zu unterscheiden. Denken Sie daran, wenn Arbeitslosigkeitvon 8 auf 9, das ist ein Anstieg um einen Prozentpunkt, aber ein Anstieg von 12,5% gegenüber der ursprünglichen Arbeitslosenquote. Die Verwendung des Protokolls bedeutet, dass wir uns die prozentuale Veränderung der Arbeitslosenquote ansehen: log (9) - log (8) = 0,118 oder 11,8%, was die logarithmische Annäherung an den tatsächlichen Anstieg von 12,5% darstellt.
Auf dieser Grundlage und unter Berücksichtigung von Whubers früherem Kommentar zur Frage von user1690130 würde ich es vermeiden, den Logarithmus einer Dichte- oder Prozentratenvariablen zu verwenden, um die Interpretation einfach zu halten, es sei denn, die Verwendung des Log-Formulars führt zu einem großen Kompromiss, wie z Tarifvariable.
Shane ist der Meinung, dass es gut ist, das Protokoll zu führen, um mit schlechten Daten umzugehen. Wie ist Colin in Bezug auf die Bedeutung der normalen Residuen. In der Praxis kann man normalerweise normale Residuen erhalten, wenn die Eingabe- und Ausgabevariablen ebenfalls relativ normal sind. In der Praxis bedeutet dies, die Verteilung der transformierten und nicht transformierten Datensätze zu beobachten und sich zu vergewissern, dass sie normaler geworden sind, und / oder Normalitätstests durchzuführen (z. B. Shapiro-Wilk- oder Kolmogorov-Smirnov-Tests) und festzustellen, ob das Ergebnis normaler ist. Interpretierbarkeit und Tradition sind ebenfalls wichtig. Beispielsweise werden in der kognitiven Psychologie häufig logarithmische Transformationen der Reaktionszeit verwendet, jedoch ist mir zumindest die Interpretation einer logarithmischen RT unklar. Außerdem,