Für eine binäre logistische Regression, den üblichen Anwendungsfall für das binomische GLM mit einem Logit-Link, modellieren Sie die Wahrscheinlichkeit, dass Ihre abhängige Variable ein "Erfolg" (oder "Ja") ist, der üblicherweise als codiert wird . Die Art und Weise, wie Sie dies tun, besteht darin, die Protokollquoten zu modellieren. Anstatt den Mittelwert der Antwort wie in OLS zu modellieren, modellieren Sie die Änderung der Protokollquoten:1
Pr(y=1)=θ=logit−1(β0+β1x1+β2x2+...+β7x7)
Wobei und .logit-1(x)=exp(x)logit(x)=log(x1−x)logit−1(x)=exp(x)1+exp(x)
Eine gründlichere, sehr verständliche Erklärung hierfür findet sich in Agresti, Eine Einführung in die kategoriale Datenanalyse.
Zu Ihrer speziellen Frage geben Sie jedoch an, dass Sie den Anteil der Erfolge modellieren . Dies ist eigentlich nicht das, wofür ein Binomial-GLM verwendet wird. Was Sie jedoch wirklich suchen, ist das, was ein Binomial-GLM tut und in R immer noch möglich ist. Es erfordert nur eine geringfügige Änderung Ihrer Arbeit. In dem Fall, dass Sie eine endliche Anzahl von Versuchen haben, die Erfolge haben können, können Sie immer noch dasselbe Modell verwenden, das die Dichte
Da Ihre Werte durch das experimentelle Design festgelegt sind und Ihre beobachteten Erfolge sind, führen Sie eine Inferenz auf den Parameter durchy ∈ { 0 ... n }ny∈{0...n}
Pr(y)∼(ny)θy(1−θ)n−y
nyθ auf die gleiche Weise wie der typischere binäre Antwortfall (oben), in dem auf 1 festgelegt ist, nimmt mit der Wahrscheinlichkeit den Wert 1 an und ist eine Funktion Ihrer Parameter. Für den Fall des Logit-Links modellieren wir dann , hauptsächlich weil dieses transformierte auf der gesamten realen Linie existiert und nicht auf dem Einheitsintervall . (Andere wünschenswerte Eigenschaften der Logit-Verknüpfung sind in Agresti beschrieben, einschließlich der Gültigkeit der Koeffizienten, selbst in Einstellungen, in denen nicht zufällige Stichproben wie Fall-Kontroll-Designs verwendet werden. Dies ist beispielsweise bei Probit-Verknüpfungsfunktionen nicht der Fall.)
nyθθlogit(θ)=β0+β1x1+...+βixi
θ
Erstellen Sie in Bezug auf R einfach ein Objekt (das Sie bezeichnen glmDV
), das eine zweispaltige Matrix ist, wobei die erste Spalte die Anzahl der Erfolge und die zweite die Gesamtzahl der Fehler . Der Rest der Aussage bleibt gleich!yn−y
0
s &1
s ist (was ich anhand Ihrer Beschreibung zusammengetragen habe) , wobei die Gewichte die Anzahl der Gesamtversuche sind für jede Beobachtung.weights