Warum unterscheidet sich GLM von einem LM mit transformierter Variable?

16

Wie in diesem Kurshandbuch (Seite 1) erläutert , kann ein lineares Modell in folgender Form geschrieben werden:

y = β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{i},

$y = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

Dabei ist die Antwortvariable und die erklärende Variable . $y$ $x_{i}$ $i^{th}$

Mit dem Ziel, Testannahmen zu erfüllen, kann man häufig die Antwortvariable transformieren. Beispielsweise wenden wir die Protokollfunktion auf jedes $y_i$ . Das Transformieren einer Antwortvariablen entspricht NICHT einem GLM.

Ein GLM kann in der folgenden Form geschrieben werden (erneut aus dem Handout des Kurses (Seite 3) )

g (u) = β_{1} x_{1} + \dots + β_{p} x_{p} + ε_{i},

$g(u) = \beta_1 x_{1} + \cdots + \beta_p x_{p} + \varepsilon_i,$

Wobei $u$ nur ein weiteres Symbol für $y$ wie ich auf Seite 2 im Handout verstehe. heißt Link-Funktion. $g()$

Ich verstehe den Unterschied zwischen einem GLM und einem LM mit transformierter Variable von den Folien im Kurs nicht wirklich. Können Sie mir damit helfen?

— Remi.b
quelle

2

Es mag aufschlussreich sein, zu berücksichtigen, dass alle Transformationen eines binären Ergebnisses affin sind, wodurch Sie sich auf die gewöhnliche Regression der kleinsten Quadrate beschränken würden. Dies ist offensichtlich nicht das, was eine logistische Regression (ein Standard-GLM für binäre Antworten) bewirkt. (Beweis: Es sei das Ergebnis sein Werte codiert als

und

und lassen

jede Transformation sein Schreiben.

und

finden wir

einigt sich auf

y_{0}

$y_0$

y_{1}

$y_1$

ϕ

$\phi$

z_{0} = ϕ (y_{0})

$z_0=\phi(y_0)$

z_{1} = ϕ (y_{1})

$z_1=\phi(y_1)$

ϕ

$\phi$

mit

(was eine affine Transformation von

) wobei

und

)

{y_{0}, y_{1}}

$\{y_0,y_1\}$

y \to λ y + μ

$y\to \lambda y + \mu$

y

$y$

λ = (z_{1} - z_{0}) / (y_{1} - y_{0})

$\lambda=(z_1-z_0)/(y_1-y_0)$

μ = z_{0} - λ y_{0}

$\mu=z_0-\lambda y_0$

— whuber

15

So transformieren Sie die Antwort vor einer linearen Regression:

E (g (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$E(g(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

wobei eine gegebene Funktion ist und wir annehmen, dass eine gegebene Verteilung hat (normalerweise normal). $g$ $g(Y)$

Ein verallgemeinertes lineares Modell tut dies:

g (E (Y)) \sim β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p}

$g(E(Y)) \sim \beta_0 + \beta_1x_1 + \ldots + \beta_px_p$

Dabei ist dasselbe wie zuvor und wir nehmen an, dass eine gegebene Verteilung hat (normalerweise nicht normal). $g$ $Y$

— Hong Ooi
quelle

Was ist E in Ihrer Gleichung?

— user1406647

1

ist die Standardnotation für den Erwartungswert von

.

E (X)

$E(X)$

X

$X$

— Marcus PS

Ich fand das auch hilfreich: christoph-scherber.de/content/PDF%20Files/…

— Aditya

22

Ich bin mir nicht sicher, ob dies eine vollständige Antwort für Sie sein wird, aber es könnte helfen, den konzeptionellen Stau zu lösen.

Es scheint zwei Missverständnisse in Ihrem Konto zu geben:

Beachten Sie, dass Ordinary Least Squares (OLS - ‚linear‘) Regression ist ein Spezialfall der verallgemeinerten linearen Modells. Wenn Sie also sagen, dass "[t] eine Antwortvariable transformiert, entspricht dies NICHT einer GLM", ist dies falsch. Das Anpassen eines linearen Modells oder das Transformieren der Antwortvariablen und das anschließende Anpassen eines linearen Modells bedeuten beide, eine GLM durchzuführen.
$u$ $\mu$ $X$ $u$ $y$ $Y$ $y_i$ $Y$ $i$ $y$

(Ich habe nicht vor, auf Fehlern herumzuspielen, ich vermute nur, dass diese Ihre Verwirrung stiften könnten.)
Es gibt auch einen anderen Aspekt des verallgemeinerten linearen Modells, den Sie nicht erwähnen. Das heißt, wir geben eine Antwortverteilung an. Im Fall der OLS-Regression ist die Antwortverteilung Gauß (normal) und die Verknüpfungsfunktion ist die Identitätsfunktion. Im Fall von beispielsweise logistischer Regression (woran die Leute zuerst denken, wenn sie an GLMs denken) ist die Antwortverteilung das Bernoulli (/ binomial) und die Verknüpfungsfunktion das Logit. Wenn wir Transformationen verwenden, um sicherzustellen, dass die Annahmen für OLS erfüllt sind, versuchen wir oft, die Verteilung der bedingten Antworten akzeptabel zu machen. Eine solche Transformation macht die Bernoulli-Verteilung jedoch nicht annehmbar normal.

— gung - Wiedereinsetzung von Monica
quelle