Wie interpretiere ich logarithmisch transformierte Koeffizienten in der linearen Regression?


10

Meine Situation ist:

Ich habe 1 kontinuierliche abhängige und 1 kontinuierliche Prädiktorvariable, die ich logarithmisch transformiert habe, um ihre Residuen für eine einfache lineare Regression zu normalisieren.

Ich würde mich über jede Hilfe freuen, wie ich diese transformierten Variablen mit ihrem ursprünglichen Kontext in Beziehung setzen kann.

Ich möchte eine lineare Regression verwenden, um die Anzahl der Tage, an denen Schüler 2011 die Schule verpasst haben, basierend auf der Anzahl der Tage, die sie 2010 verpasst haben, vorherzusagen. Die meisten Schüler verpassen 0 Tage oder nur wenige Tage. Die Daten sind positiv nach links verschoben. Daher besteht ein Transformationsbedarf, um eine lineare Regression zu verwenden.

Ich habe log10 (var + 1) für beide Variablen verwendet (ich habe +1 für Schüler verwendet, die 0 Schultage verpasst hatten). Ich verwende Regression, weil ich kategoriale Faktoren hinzufügen möchte - Geschlecht / ethnische Zugehörigkeit usw.

Mein Problem ist:

Das Publikum, dem ich eine Rückmeldung geben möchte, würde log10 (y) = log (Konstante) + log (var2) x nicht verstehen (und ehrlich gesagt auch nicht ich).

Meine Fragen sind:

a) Gibt es bessere Möglichkeiten, transformierte Variablen in der Regression zu interpretieren? Dh für immer 1 Tag im Jahr 2010 verpasst werden sie 2 Tage im Jahr 2011 verpassen, im Gegensatz zu für immer 1 Log-Einheit-Änderung im Jahr 2010 wird es x Log-Einheiten-Änderung im Jahr 2011 geben?

b) Insbesondere unter Berücksichtigung der zitierten Passage aus dieser Quelle wie folgt:

"Dies ist die negative binomiale Regressionsschätzung für eine Erhöhung des mathematisch standardisierten Testergebnisses um eine Einheit, da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler sein Mathnce-Testergebnis um einen Punkt erhöht, beträgt die Differenz in den Protokollen von Es wird erwartet, dass die erwarteten Zählungen um 0,0016 Einheiten abnehmen, während die anderen Variablen im Modell konstant bleiben. "

Ich würde gerne wissen:

  • Sagt diese Passage, dass für jede Einheit eine Erhöhung der Punktzahl der UNTRANSFORMEDvariablen Mathematik zu einer Abnahme der Konstante (a) um 0,0016 führt. Wenn also die UNTRANSFORMEDPunktzahl der Mathematik um zwei Punkte steigt, subtrahiere ich 0,0016 * 2 von der Konstante a?
  • Bedeutet das, dass ich den geometrischen Mittelwert durch Verwendung von Exponential (a)) und Exponential (a + beta * 2) erhalte und dass ich die prozentuale Differenz zwischen diesen beiden berechnen muss, um zu sagen, welchen Effekt die Prädiktorvariable (n) hat auf die abhängige Variable haben?
  • Oder habe ich das völlig falsch verstanden?

Ich verwende SPSS v20. Entschuldigen Sie, dass Sie dies in einer langen Frage formuliert haben.



8
Haben Sie daran gedacht, stattdessen die Poisson-Regression zu verwenden? Es wird natürlich mit abhängigen Zähldaten angezeigt und Ihr Erfolg bei einer Protokolltransformation stimmt mit Poisson-Verteilungen überein. Die Koeffizienten würden als proportionale Erhöhungen der erwarteten Wahrscheinlichkeit interpretiert, einen Schultag zu verpassen. Ein Vorteil ist, dass keine spezielle Behandlung von Nullen erforderlich ist (obwohl es immer noch eine sehr gute Idee ist, ein alternatives Modell ohne Inflation zu betrachten).
whuber

Hallo Whuber, ja, ich habe über die Poisson-Regression nachgedacht, war mir aber nicht sicher oder habe mich für eine negative binomiale Regression entschieden. Ich denke, negatives Binomial, da die Daten überstreut sind - dh der Mittelwert ist niedriger als die Varianz im Datensatz (daher positiver Versatz). Außerdem gibt es streng genommen eine Obergrenze für die Anzahl der Schulstunden im Jahr, während Poisson einen unbegrenzten Nenner annimmt. Oder halten Sie Poisson immer noch für angemessener? Leider unterstützt SPSS keine aufgeblasenen Modelle, soweit ich gesehen habe ...) Danke Whuber :)
JimBob

3
Ich sehe kein Problem mit der unbegrenzten Unterstützung von Poisson-Verteilungen: Es ähnelt der Verwendung von Normalverteilungen, um beispielsweise Werte zu modellieren, die nicht negativ sein dürfen. Vorausgesetzt, die mit unmöglichen Werten verbundenen Chancen sind gering, kann es dennoch ein gutes Modell sein. Negatives Binom ist die Standardalternative zu Poisson, die zum Testen der Anpassungsgüte und der Überdispersion verwendet wird. Es ist eine gute Idee. Wenn SPSS zu begrenzt ist, verwenden Sie etwas anderes! ( Rhat Pakete für Modelle ohne
Luftdruck

2
Ich stimme @whuber zu. Ich denke, Sie möchten wahrscheinlich ein ZIP- oder ZINB-Modell. Ich möchte nur hinzufügen, dass sie auch in SAS über PROC COUNTREG (in ETS) und ab SAS 9.2 in PROC GENMOD (in STAT) verfügbar sind
Peter Flom - Reinstate Monica

2
Es gibt sehr gute Informationen unter stats.stackexchange.com/questions/18480/… .
Rolando2

Antworten:


7

Ich denke, der wichtigere Punkt wird in @ whubers Kommentar vorgeschlagen. Ihr ganzer Ansatz ist falsch, weil Sie durch die Verwendung von Logarithmen effektiv alle Schüler mit null fehlenden Tagen in den Jahren 2010 oder 2011 aus dem Datensatz werfen. Es scheint, dass es genug dieser Personen gibt, um ein Problem zu sein, und ich bin sicher, dass Ihre Ergebnisse dies tun werden Seien Sie falsch, basierend auf dem Ansatz, den Sie verfolgen.

Stattdessen müssen Sie ein verallgemeinertes lineares Modell mit einer Poisson-Antwort anpassen. SPSS kann dies nur tun, wenn Sie für das entsprechende Modul bezahlt haben. Daher würde ich ein Upgrade auf R vorschlagen.

Sie werden immer noch das Problem haben, Koeffizienten zu interpretieren, aber dies ist zweitrangig, da es wichtig ist, ein Modell zu haben, das grundsätzlich angemessen ist.


Warum nicht die Transformation ? Dies würde das Problem lösen, das Sie ansprechen. Die inverse Transformation wäre jedoch etwas komplizierter und die Interpretation schwieriger. Es gibt einen Beitrag darüber hier: stats.stackexchange.com/questions/18694/…xlog(x+1)
toypajme

3

Ich stimme anderen Befragten zu, insbesondere in Bezug auf die Form des Modells. Wenn ich jedoch die Motivation Ihrer Frage verstehe, sprechen Sie das allgemeine Publikum an und möchten das Wesentliche vermitteln(theoretische) Bedeutung Ihrer Analyse. Zu diesem Zweck vergleiche ich vorhergesagte Werte (z. B. geschätzte verpasste Tage) unter verschiedenen "Szenarien". Basierend auf dem von Ihnen ausgewählten Modell können Sie die erwartete Anzahl oder den erwarteten Wert der abhängigen Variablen vergleichen, wenn sich die Prädiktoren auf bestimmten festen Werten befinden (z. B. deren Median oder Null), und dann zeigen, wie sich die Prädiktoren "sinnvoll" ändern beeinflusst die Vorhersagen. Natürlich müssen Sie die Daten wieder in den ursprünglichen, verständlichen Maßstab umwandeln, mit dem Sie beginnen. Ich sage "sinnvolle Änderung", weil die standardmäßige "Änderung um eine Einheit in X" oft nicht den tatsächlichen Import oder das Fehlen einer unabhängigen Variablen vermittelt. Bei "Anwesenheitsdaten" bin ich mir nicht sicher, was eine solche Änderung sein würde. (Wenn ein Schüler 2010 keine Tage und 2011 einen Tag verpasst hat, Ich bin mir nicht sicher, ob wir etwas lernen würden. Aber ich weiß es nicht.)


2

Wenn wir das Modell , können wir erwarten, dass eine Zunahme von 1 Einheit eine Zunahme von eine Einheit ergibt. Wenn wir stattdessen , erwarten wir eine Zunahme von 1 Prozent um eine Erhöhung der -Einheit in Y zu ergeben.X Y = b log ( X ) X b log ( 1,01 )Y=bXXY=blog(X)Xblog(1.01)

Edit: whoops, habe nicht bemerkt, dass deine abhängige Variable auch log transformiert wurde. Hier ist ein Link mit einem guten Beispiel, das alle drei Situationen beschreibt:

1) nur Y wird transformiert 2) nur die Prädiktoren werden transformiert 3) sowohl Y als auch die Prädiktoren werden transformiert

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
Hallo JC, Danke für deine Antwort. Ich habe den Ansatz gewählt, sowohl meine abhängigen als auch meine unabhängigen Variablen aus Gründen der Konsistenz zu transformieren, aber ich habe gelesen, dass nur der DV im Vergleich zu seinen IVs aus Gründen der Normalität wirklich transformiert werden muss.
JimBob

Ich habe den von Ihnen vorgeschlagenen Link tatsächlich gesehen (danke), war aber in einigen Punkten nicht klar, insbesondere in Bezug auf den Vergleich des geometrischen Mittelwerts mit dem "realen Leben", aber ich denke, die Verwendung des geometrischen Mittelwerts hat mehr mit Modellierung zu tun die Auswirkung der Änderung von x auf y und nicht das Ergebnis der Änderung von y pro Einheit in x? Ich denke, ich muss zurückgehen und es noch einmal lesen ...
JimBob

2

Ich benutze oft die Log-Transformation, aber ich neige dazu, binäre Kovariaten zu verwenden, weil dies zu einer natürlichen Interpretation in Bezug auf Multiplikatoren führt. Angenommen, Sie möchten das gegebene vorhersagen , beispielsweise 3 binäre Kovariaten , und die Werte in . Anstatt zu präsentieren:X 1 X 2 X 3 { 0 , 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

Sie können einfach zeigen:

YC M1X1 M2X2 M3X3 ,

wobei: , und Multiplikatoren sind. Das heißt, jedes Mal, wenn die Kovariate gleich 1 ist, wird die Vorhersage mit multipliziert . Wenn beispielsweise , und , lautet Ihre Vorhersage:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 .

Ich verwende weil dies nicht genau die Vorhersage des Mittelwerts von : Der Mittelwertparameter einer logarithmischen Normalverteilung ist im Allgemeinen nicht der Mittelwert der Zufallsvariablen (wie es bei der klassischen linearen Regression ohne die der Fall ist log-transform). Ich habe hier keinen genauen Bezug, aber ich denke, dies ist eine einfache Argumentation.Y


3
Sie brauchen sich keine Sorgen um die logarithmischen Probleme zu machen: Die Multiplikatoren sind unabhängig davon korrekt. (Es würde ein Problem mit heteroskedastischen Modellen geben.) Dies liegt daran, dass wobei die Varianz von ist . Übrigens, bitte scannen Sie Ihre Definitionen des nach Tippfehlern. E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.