Was ist die intuitive Bedeutung einer linearen Beziehung zwischen den Protokollen zweier Variablen?


20

Ich habe zwei Variablen, die nicht viel Korrelation zeigen, wenn sie so wie sie sind gegeneinander geplottet werden, aber eine sehr klare lineare Beziehung, wenn ich die Protokolle jeder Variablen gegen die andere plotte.

So würde ich mit einem Modell des Typs enden:

log(Y)=alog(X)+b
, was mathematisch großartig ist, aber nicht den erklärenden Wert eines regulären linearen Modells zu haben scheint.

Wie kann ich ein solches Modell interpretieren?


5
Ich habe nichts Wesentliches zu den vorhandenen Antworten hinzuzufügen, aber ein Logarithmus im Ergebnis und im Prädiktor ist eine Elastizität. Suchen nach diesem Begriff sollten einige gute Ressourcen für die Interpretation dieser Beziehung enthalten, was nicht sehr intuitiv ist.
Upper_Case-Stop Harming Monica

Die Interpretation eines log-log-Modells, bei dem die abhängige Variable log (y) und die unabhängige Variable log (x) ist, lautet: . %Δ=β1%Δx
Bob

3
Der komplementäre Log-Log-Link ist eine ideale GLM-Spezifikation, wenn das Ergebnis binär ist (Risikomodell) und die Exposition kumulativ ist, z. B. Anzahl der Sexualpartner vs. HIV-Infektion. jstor.org/stable/2532454
AdamO

2
@Alexis Sie können die klebrigen Punkte sehen, wenn Sie die Kurven überlagern. Versuche curve(exp(-exp(x)), from=-5, to=5)vs curve(plogis(x), from=-5, to=5). Die Konkavität beschleunigt sich. Wenn das Risiko eines Ereignisses einer einzelnen Begegnung p , sollte das Risiko nach dem zweiten Ereignis 1(1p)2 usw. sein. Dies ist eine Wahrscheinlichkeitsform, die nicht erfasst wird. Hohe Expositionen würden die logistischen Regressionsergebnisse dramatischer verzerren (fälschlicherweise gemäß der vorherigen Wahrscheinlichkeitsregel). Einige Simulationen würden Ihnen dies zeigen.
AdamO

1
@AdamO Es gibt wahrscheinlich ein zu schreibendes pädagogisches Papier, das eine solche Simulation enthält, die motiviert, wie ein bestimmter dichotomer Ergebnislink aus den drei ausgewählt wird, einschließlich Situationen, in denen es einen Unterschied macht und keinen Unterschied macht.
Alexis

Antworten:


27

Sie müssen nur beide Seiten der Gleichung exponentiell betrachten, und Sie erhalten eine potenzielle Beziehung, die für einige Daten möglicherweise Sinn ergibt.

log(Y)=alog(X)+b

exp(log(Y))=exp(alog(X)+b)

Y=ebXa

Und da nur ein Parameter ist, der einen beliebigen positiven Wert annehmen kann, ist dieses Modell äquivalent zu:eb

Y=cXa

Es sollte beachtet werden, dass der Modellausdruck den Fehlerterm enthalten sollte, und diese Änderung von Variablen hat interessante Auswirkungen darauf:

log(Y)=alog(X)+b+ϵ

Y=ebXaexp(ϵ)

Das heißt, Ihr Modell mit additiven Fehlern, die den Bedingungen für OLS entsprechen (normalverteilte Fehler mit konstanter Varianz), entspricht einem potenziellen Modell mit multiplikativen Fehlern, dessen Logaritmus einer Normalverteilung mit konstanter Varianz folgt.


3
OP könnte interessiert sein zu wissen, dass diese Distribution einen Namen hat, der log-normal ist: en.wikipedia.org/wiki/Log-normal_distribution
gardenhead

2
Was ist mit der Auswirkung von Jensens Ungleichung? Im Allgemeinen gilt für konvexes g:E[g(X)]g(E[X])
Statistik

14

Sie können Ihr Modell und die Gesamtdifferenz berechnen. Ende erhalten Sie : das nachgibt log(Y)=alog(X)+b

1YdY=a1XdX
dYdXXY=a

Daher eine einfache Interpretation der Koeffizient wird die prozentuale Änderung in seinem für eine prozentuale Änderung in . Dies impliziert weiterhin, dass die Variable mit einem konstanten Bruchteil ( ) der Wachstumsrate von .aYXYaX


Wenn der log-log-Plot also linear ist, würde dies eine konstante Wachstumsrate implizieren?
Dimitriy V. Masterov

Tatsächlich ist die Wachstumsrate von genau dann konstant, wenn . Ya=0
RScrlli

Nicht im Laufe der Zeit ist die Wachstumsrate in Bezug auf das Wachstum in x.
Dimitriy V. Masterov

Neuordnung hilft nicht, ich würde es entfernen
Aksakal

1
@ DimitriyV.Masterov Ok, da in linear ist , bedeutet dies, dass die Variable mit einem konstanten Bruchteil der Wachstumsrate von wächst . Stimmt Ihrer Meinung nach etwas mit meiner Antwort nicht? log(Y)log(X)YX
RScrlli

7

Intuitiv gibt die Größenordnung einer Variablen an, sodass wir die Beziehung anzeigen können, da die Größenordnungen der beiden Variablen linear zusammenhängen. Zum Beispiel kann das Erhöhen des Prädiktors um eine Größenordnung mit einem Anstieg von drei Größenordnungen der Antwort verbunden sein.log

Wenn wir ein Log-Log-Diagramm verwenden , hoffen wir, eine lineare Beziehung zu sehen. Anhand eines Beispiels aus dieser Frage können wir die linearen Modellannahmen überprüfen:

log-log


3
+1 für eine intuitive Antwort auf ein nicht intuitives Konzept. Das eingeschlossene Bild verletzt jedoch eindeutig die konstante Fehlervarianz über den Prädiktor hinweg.
Frans Rodenburg

1
Die Antwort ist richtig, aber die Zuschreibung der Urheberschaft ist falsch. Das Bild sollte nicht Google Images zugeordnet werden, sondern zumindest der Webseite, auf der es zu finden ist. Dies kann durch einfaches Klicken auf Google-Bilder ermittelt werden.
Pere

@Pere Ich kann die Originalquelle des Bildes leider nicht finden (zumindest mit der umgekehrten Bildsuche)
qwr

Es scheint ursprünglich von diagramss.us zu stammen, obwohl diese Seite nicht erreichbar ist und die meisten Seiten, abgesehen von der Homepage,
Henry

4

Vergleichen Sie die Antwort von @Rscrill mit den tatsächlichen diskreten Daten

log(Yt)=alog(Xt)+b,log(Yt1)=alog(Xt1)+b

log(Yt)log(Yt1)=a[log(Xt)log(Xt1)]

Aber

log(Yt)log(Yt1)=log(YtYt1)log(Yt1+ΔYtYt1)=log(1+ΔYtYt1)

ΔYtYt1 ist die prozentuale Änderung von zwischen den Perioden und oder die Wachstumsrate von , sagen wir . Wenn es kleiner als , haben wir, dass eine akzeptable Annäherung istYt1tYtgYt0.1

log(1+ΔYtYt1)ΔYtYt1=gYt

Deshalb bekommen wir

gYtagXt

Dies bestätigt in empirischen Studien die theoretische Behandlung von @Rscrill.


1
Dies ist wahrscheinlich, was ein Mathematiker intuitiv nennen würde :)
Richard Hardy

2

Eine lineare Beziehung zwischen den Logs entspricht einer Potenzgesetzabhängigkeit : In der Physik bedeutet ein solches Verhalten, dass das System skalierungsfrei oder skalierungsinvariant ist . Wenn beispielsweise Abstand oder Zeit ist, bedeutet dies, dass die Abhängigkeit von nicht durch eine charakteristische Länge oder Zeitskala charakterisiert werden kann (im Gegensatz zu exponentiellen Zerfällen). Als Ergebnis weist ein solches System eine langreichweitige Abhängigkeit der auf .

YXα
X X Y XXXYX

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.