Ich versuche, ein logarithmisch lineares Modell an eine große Anzahl von Variablen aus Umfragedaten anzupassen. Es gibt einige Gründe, warum es möglicherweise vorzuziehen ist, stattdessen logistische Regressionen an diese Daten anzupassen. Mehrere Behörden schlagen vor, dass diese gleichwertig sind. Ich habe jedoch einige Gründe, dies zu bezweifeln.
- Log-lineare Modelle behandeln alle Variablen gleich, während die logistische Regression erfordert, dass eine Variable als Antwortvariable identifiziert wird.
Im Kontext der kleinsten Quadrate ist es im Allgemeinen nicht der Fall, dass für Y = a + bX + & epsi; gegenüber X = c + dY + & epsi; der Parameter d sogar ungefähr gleich 1 / b ist. Dies liegt daran, dass die erste Gleichung den vertikalen Fehler minimiert, während die zweite den horizontalen Fehler minimiert. Diese sind nur dann gleich, wenn die Fehler um die geschätzte Linie symmetrisch sind. Ich mache mir also Sorgen, dass dies auch für die logistische Regression gilt. (2) ist eigentlich nur eine bestimmte Form von (1), dh eine mögliche Asymmetrie im Regressionsformat aus der Wahl einer bestimmten Variablen als Antwort.
Wenn alle Variablen im logarithmischen linearen Modell an einem oder mehreren Interaktionstermen beteiligt sind, sehe ich nicht, wie eine logistische Regression äquivalent sein kann. Wie würde man die Interaktionen ausdrücken, an denen die Antwortvariable im Kontext einer logistischen Regression beteiligt ist?
Als Antwort auf Bill Huber verwende ich den Begriff log-lineares Modell in einem wesentlich engeren Sinne als Wikipedia. Ich beziehe mich auf Modelle von kategorialen oder ordinalen Zähldaten, die in Tabellen angeordnet sind, wobei die Koeffizienten die Gesamtzahl der Tabellen, die Grenzzahlen für jeden Faktor geteilt durch die Gesamtzahl der Tabellen (die als Stellvertreter für Wahrscheinlichkeiten dienen) und verschiedene Interaktionsterme sind. Dies ist der Sinn, der unter anderem in Agresti, „Categorical Data Analysis“, verwendet wird.