Fehlerverteilung für lineare und logistische Regression

Bei kontinuierlichen Daten nimmt eine lineare Regression an, dass der Fehlerterm N (0, ) verteilt ist. $Y=\beta_1+\beta_2X_2+u$ $\sigma^2$

1) Nehmen wir an, dass Var (Y | x) ebenfalls ~ N (0, ) ist? $\sigma^2$

2) Wie ist diese Fehlerverteilung bei der logistischen Regression? Wenn die Daten in Form von 1 Datensatz pro Fall vorliegen, wobei "Y" 1 oder 0 ist, ist der Fehlerterm Bernoulli verteilt (dh die Varianz ist p (1-p)) und wenn die Daten in der Form # vorliegen Erfolge aus # von Versuchen, wird Binomial angenommen (dh Varianz ist np (1-p)), wobei p die Wahrscheinlichkeit ist, dass Y 1 ist?

logistic generalized-linear-model

— B_Miner
quelle

Sie sind nicht präzise. Die Modellannahme ist, dass die Fehlerterme unabhängig und identisch verteilt sind mit einer Verteilung, die N (0, σ ) ist und nicht mit dem COVARIATE zusammenhängt. Was ist Var (Y | x)? Konditionieren Sie auf X = x? Nimmt das Modell an, dass die Kovariate in irgendeiner Weise zufällig ist, oder nehmen wir an, dass die Kovariate gemäß einer Entwurfsmatrix festgelegt ist? Ich denke, es ist das letztere und daher wird Var (Y | X = x) durch die Annahmen impliziert und muss nicht angenommen werden.

^{2}

$^2$

_{2}

$_2$

_{2}

$_2$

— Michael R. Chernick

@MichaelChernick Warum geht das Modell davon aus, dass fest ist? Es kann sicherlich der Fall sein, dass es behoben ist, aber es kann auch zufällig sein. Nichts in der Frage impliziert eines von beiden für mich.

X_{2}

$X_2$

— Peter Flom - Monica wieder einsetzen

@PeterFlom Ich habe in die Frage hineingelesen, dass eine lineare Regression mit dieser angenommenen Fehlerverteilung OLS bedeutet, für die X festgelegt und bekannt sein muss. Wenn jemand eine Deming-Regression hat (dh einen Fehler in der Variablenregression), wird dies in der Frage angegeben. Ein Blick auf die Antwort, die Stat gegeben hat, zeigt, dass er die Frage auch so interpretiert hat.

_{2}

$_2$

— Michael R. Chernick

@ Michael, ich nahm festes X an.

— B_Miner

1) Wenn eine Normalverteilung hat, dh dann ist , da ist keine Zufallsvariable. $u$ $N(0,σ^2)$ $Var(Y|X_2)=Var(β_1+β_2X_2)+Var(u)=0+σ^2=σ^2$ $β_1+β_2X_2$

2) Bei der logistischen Regression wird angenommen, dass die Fehler einer Binomialverteilung folgen, wie hier erwähnt . Es ist besser, es als zu schreiben , da diese Wahrscheinlichkeiten von abhängen , wie hier oder in Applied Logistic Regression angegeben . $Var(Y_j|X_j)=m_j.E[Y_j|X_j].(1-E[Y_j|X_j])=m_j\pi(X_j).(1-\pi(X_j))$ $X_j$

— Stat
quelle

Stat, ist also, es richtig , die Varianz für die i - ten individuellen Fehler zu sagen , dass, ist (1- ), die äquivalent ist , was man unter der Annahme gezeigt hat , dass es mehr als 1 Beobachtung in den Daten mit dem gleichen Kovariable ist Muster (dh sonst = 1 für alle j)?

e_{i}

$e_i$

p_{i}

$p_i$

p_{i}

$p_i$

m_{j}

$m_j$

— B_Miner

Ja das ist korrekt. Wenn mit , dann ist mit der Wahrscheinlichkeit oder mit der Wahrscheinlichkeit . Daher hat eine Verteilung mit dem Mittelwert und einer Varianz gleich .

Y_{i} = p_{i} + e_{i}

$Y_i=p_i+e_i$

P (Y_{i} = 1) = 1 - P (Y_{i} = 0) = p_{i}

$P(Y_i=1)=1-P(Y_i=0)=p_i$

e_{i} = 1 - p_{i}

$e_i=1-p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=-p_i$

1 - p_{i}

$1-p_i$

e_{i}

$e_i$

0

$0$

p_{i} (1 - p_{i})

$p_i(1-p_i)$

— Stat

Ein weiterer Punkt hier, Stat, MÜSSEN wir annehmen, dass die X fest sind, nicht zufällig für Var (Y | X) = Var (e) für die Fälle der linearen und logistischen Regression korrekt?

— B_Miner

NB mit der Wahrscheinlichkeit oder mit der Wahrscheinlichkeit ist keine Binomialverteilung für .

e_{i} = 1 - p_{i}

$e_i=1−p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=−p_i$

1 - p_{i}

$1−p_i$

e_{i}

$e_i$

— Scortchi - Monica wieder einsetzen

B_Miner: bedeutet die Varianz von abhängig ist, dass die Zufallsvariable einen beobachteten Wert annimmt . Es ist also unerheblich, ob Ihre Prädiktoren durch ein Experiment festgelegt oder in einer Stichprobe beobachtet werden: @ Stat sagt, dass sie für Regressionszwecke nicht mehr als Zufallsvariablen betrachtet werden.

Var (Y | X) = Var (Y | X = x)

$\operatorname{Var}(Y|X)=\operatorname{Var}(Y|X=x)$

Y

$Y$

X

$X$

x

$x$

— Scortchi - Monica wieder einsetzen