Von Ihrer vorherigen Frage haben Sie gelernt , dass GLM in Bezug auf die Wahrscheinlichkeitsverteilung beschrieben wird, linearen Prädiktor und die Verknüpfungsfunktion und wird wie folgt beschriebenηg
ηE(Y|X)=Xβ=μ=g−1(η)
Dabei ist eine Logit-Link-Funktion, und es wird angenommen, dass einer Bernoulli-Verteilung folgtgY
Yi∼B(μi)
Jedes folgt der Bernoulli-Verteilung mit seinem eigenen Mittelwert , der von abhängig ist . Wir gehen nicht davon aus, dass jedes aus derselben Verteilung mit demselben Mittelwert stammt (dies wäre das Intercept-Only-Modell ), sondern dass alle Mittelwerte unterschiedlich sind. Wir gehen davon aus, dass ‚s sind unabhängig , dh wir haben keine Sorgen zu machen über Dinge wie Autokorrelation zwischen aufeinanderfolgenden Werte usw.Yi μiXYiYi=g−1(μ)YiYi
Die iid- Annahme bezieht sich auf Fehler in der linearen Regression (dh Gaußscher GLM), in der sich das Modell befindet
yi=β0+β1xi+εi=μi+εi
wo , so haben wir iid Rauschen um . Aus diesem Grund sind Sie an einer Residuendiagnose interessiert und achten auf den Vergleich von Residuen und angepasstem Diagramm . Im Falle einer GLM-ähnlichen logistischen Regression ist dies nicht so einfach, da es keinen additiven Rauschbegriff wie beim Gaußschen Modell gibt (siehe hier , hier und hier ). Wir möchten weiterhin, dass die Residuen "zufällig" bei Null liegen, und wir möchten keine Trends darin sehen, da dies darauf hindeutet, dass einige Effekte im Modell nicht berücksichtigt werden, dies jedoch nicht vorausgesetzt wird normal und / oderεi∼N(0,σ2)μiiid . Siehe auch das Thema Über die Bedeutung der iid-Annahme im statistischen Lernprozess .
Beachten Sie als Randnotiz, dass wir sogar die Annahme fallen lassen können, dass jedes von derselben Art von Verteilung stammt. Es gibt Modelle (ohne GLM), die davon ausgehen, dass verschiedene unterschiedliche Verteilungen mit unterschiedlichen Parametern haben können, dh dass Ihre Daten aus einer Mischung verschiedener Verteilungen stammen . In diesem Fall würden wir auch annehmen, dass die Werte unabhängig sind , da abhängige Werte, die von unterschiedlichen Verteilungen mit unterschiedlichen Parametern stammen (dh typische Daten der realen Welt), in den meisten Fällen zu kompliziert (oft unmöglich) zu modellieren sind.YiYiYi