Log-lineare Regression vs. logistische Regression


21

Kann jemand eine klare Liste der Unterschiede zwischen logarithmischer und logistischer Regression erstellen? Ich verstehe, dass ersteres ein einfaches lineares Regressionsmodell ist, aber mir ist nicht klar, wann jedes verwendet werden sollte.

Antworten:


19

Der Name ist ein bisschen eine falsche Bezeichnung. Log-lineare Modelle wurden traditionell für die Analyse von Daten in einem Kontingenztabellenformat verwendet. Während "Zähldaten" nicht notwendigerweise einer Poisson-Verteilung folgen müssen, ist das log-lineare Modell tatsächlich nur ein Poisson-Regressionsmodell. Daher der Name "log" (Poisson-Regressionsmodelle enthalten eine Verknüpfungsfunktion "log").

Eine "log-transformierte Ergebnisvariable" in einem linearen Regressionsmodell ist kein log-lineares Modell (auch keine potenzierte Ergebnisvariable, wie "log-linear" nahelegen würde). Sowohl logarithmische lineare Modelle als auch logistische Regressionen sind Beispiele für verallgemeinerte lineare Modelle , bei denen die Beziehung zwischen einem linearen Prädiktor (z. B. logarithmische Quoten oder logarithmische Raten) in den Modellvariablen linear ist. Sie sind keine "einfachen linearen Regressionsmodelle" (oder Modelle, die das übliche Format verwenden).E[Y.|X]=ein+bX

Trotzdem ist es möglich, mithilfe der logistischen Regression und der Poisson-Regression eine gleichwertige Aussage über die Assoziationen zwischen kategorialen Variablen zu erhalten. Es ist nur so, dass im Poisson-Modell die Ergebnisvariablen wie Kovariaten behandelt werden. Interessanterweise können Sie einige Modelle einrichten, die gruppenübergreifend Informationen ausleihen, die einem proportionalen Gewinnchancenmodell sehr ähnlich sind, dies ist jedoch nicht gut verstanden und wird nur selten verwendet.

Beispiele für den Erhalt einer äquivalenten Inferenz in logistischen und Poisson-Regressionsmodellen unter Verwendung von R (siehe unten):

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

Interessanterweise bedeutet mangelnde Assoziation zwischen und dass die Odds Ratio im logistischen Regressionsmodell 1 ist und der Interaktionsterm im loglinearen Modell ebenfalls 0 ist. Gibt Ihnen eine Vorstellung davon, wie wir die bedingte Unabhängigkeit in Kontingenztabellendaten messen.yx


Auch dies zeigt wahrscheinlich meine Unerfahrenheit, aber könnten Sie eine Definition für Kontingenztabellen bereitstellen? Es kann auch anderen helfen, die auf diese Frage stoßen.
User38133

Kontingenztabellen sind (normalerweise) zweidimensionale Tabellen, die alle möglichen Antworten zweier Variablen auflisten und die Häufigkeit der Beobachtungen in den Zellen angeben. Zum Beispiel könnten Sie eine 2 x 2-Kontingenztabelle haben, die den Raucherstatus (nie gegen aktuell) und Krebs (Lungenkrebs gegen kein Krebs) anzeigt, mit der Sie den Zusammenhang zwischen Rauchen und Krebsrisiko abschätzen können.
AdamO

15

Ich glaube nicht, dass ich eines von beiden als "einfaches lineares Regressionsmodell" bezeichnen würde. Obwohl es möglich ist, das Protokoll oder die Protokolltransformationen als Verknüpfungsfunktion für eine Reihe verschiedener Modelle zu verwenden, beziehen sich diese normalerweise auf bestimmte Modelle. Beispielsweise wird unter "logistischer Regression" ein verallgemeinertes lineares Modell (GLiM) für Situationen verstanden, in denen die Antwortvariable als Binom verteilt ist . Darüber hinaus wird unter "logarithmisch linearer Regression" üblicherweise ein Poisson-GLiM verstanden, der auf Mehrwege- Kontingenztabellen angewendet wird. Mit anderen Worten, abgesehen davon, dass es sich um beide Regressionsmodelle / GLiMs handelt, sehe ich sie nicht unbedingt als sehr ähnlich an (es gibt einige Verbindungen zwischen ihnen, wie @AdamO hervorhebt, aber die typischen Verwendungen sind ziemlich unterschiedlich). Der größte Unterschied besteht darin, dass die logistische Regression davon ausgeht, dass die Antwort als Binom und die log-lineare Regression davon ausgeht, dass die Antwort als Poisson verteilt ist . Tatsächlich unterscheidet sich die logarithmische lineare Regression von den meisten Regressionsmodellen darin, dass die Antwortvariable (im üblichen Sinne) nicht wirklich eine Ihrer Variablen ist, sondern vielmehr die Menge der Häufigkeitszählungen, die mit den Kombinationen Ihrer Variablen verbunden sind in der Mehrwegekontingenztabelle.


Vielen Dank! Ich schätze, meine natürliche Folgefrage, die wahrscheinlich meine mangelnde Erfahrung zeigt, lautet, wie man die richtige Verteilung zur Modellierung eines bestimmten Problems ermittelt. Ich denke, ich muss ein bisschen mehr lesen, um sicherzugehen, dass ich immer die richtige Wahl treffen kann.
User38133

2
Das logarithmische lineare Modell ist ein Poisson-Regressionsmodell, das auf eine Mehrwege-Kontingenztabelle angewendet wird. Wenn Sie beispielsweise eine 2-Wege-Kontingenztabelle hätten und sich gefragt hätten, ob die Zeilen und Spalten unabhängig voneinander sind, würden Sie einen Chi-Quadrat-Test durchführen. Wenn Sie eine> 2-Wege-Kontingenztabelle hätten, könnten Sie das log-lineare Modell verwenden. Die logistische Regression ist für Situationen vorgesehen, in denen Sie eine Antwortvariable haben und es sich nur um . {0, 1}
gung - Wiedereinsetzung von Monica

0

Zur Verdeutlichung hat eine "binäre" logistische Regression eine abhängige Variable mit zwei Ergebnissen. Nach meinem Verständnis besteht auch die Möglichkeit, eine "multinomiale" logistische Regression zu verwenden, wenn Ihre abhängige Ergebnisvariable mehr als 2 Kategorien aufweist. Sehen Sie hier .

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.