Potenzierter logistischer Regressionskoeffizient, der sich vom Odds Ratio unterscheidet


10

Nach meinem Verständnis ist der potenzierte Beta-Wert aus einer logistischen Regression das Odds Ratio dieser Variablen für die abhängige interessierende Variable. Der Wert stimmt jedoch nicht mit dem manuell berechneten Quotenverhältnis überein. Mein Modell prognostiziert Stunting (ein Maß für Unterernährung) unter anderem anhand von Versicherungen.

// Odds ratio from LR, being done in stata
logit stunting insurance age ... etc. 
or_insurance = exp(beta_value_insurance)

// Odds ratio, manually calculated
odds_stunted_insured = num_stunted_ins/num_not_stunted_ins
odds_stunted_unins = num_stunted_unins/num_not_stunted_unins
odds_ratio = odds_stunted_ins/odds_stunted_unins

Was ist der konzeptionelle Grund dafür, dass diese Werte unterschiedlich sind? Kontrolle über andere Faktoren in der Regression? Ich möchte nur die Diskrepanz erklären können.


2
Fügen Sie zusätzliche Prädiktoren in das logistische Regressionsmodell ein? Das manuell berechnete Quotenverhältnis stimmt nur mit dem Quotenverhältnis überein, das Sie aus der logistischen Regression erhalten, wenn Sie keine anderen Prädiktoren einbeziehen.
Makro

Das habe ich mir gedacht, wollte aber eine Bestätigung. Das liegt daran, dass das Ergebnis der Regression Abweichungen bei anderen Prädiktoren berücksichtigt?
Mike

Ja, @mike. Angenommen, das Modell ist korrekt angegeben, können Sie es als Odds Ratio interpretieren, wenn alle anderen Prädiktoren festgelegt sind.
Makro

@ Macro: Würde es Ihnen etwas ausmachen, Ihren Kommentar als Antwort zu wiederholen?
jrennie

Antworten:


22

Wenn Sie nur diesen einzelnen Prädiktor in das Modell einfügen, entspricht das Quotenverhältnis zwischen dem Prädiktor und der Antwort genau dem potenzierten Regressionskoeffizienten . Ich denke nicht, dass eine Ableitung dieses Ergebnisses auf der Website vorhanden ist, daher werde ich diese Gelegenheit nutzen, um es bereitzustellen.


Betrachten Sie ein binäres Ergebnis und einen einzelnen binären Prädiktor :YX

Y=1Y=0X=1p11p10X=0p01p00

Dann wird ein Weg , die Vorteile Verhältnis zwischen berechnen und istXiYi

OR=p11p00p01p10

Durch Definition der bedingten Wahrscheinlichkeit ist . Im Verhältnis heben sich die Grenzwahrscheinlichkeiten, an denen das , auf, und Sie können das Quotenverhältnis in Bezug auf die bedingten Wahrscheinlichkeiten von umschreiben :pij=P(Y=i|X=j)P(X=j)XY|X

OR=P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

In der logistischen Regression modellieren Sie diese Wahrscheinlichkeiten direkt:

log(P(Yi=1|Xi)P(Yi=0|Xi))=β0+β1Xi

Wir können diese bedingten Wahrscheinlichkeiten also direkt aus dem Modell berechnen. Das erste Verhältnis im obigen Ausdruck für ist:OR

P(Yi=1|Xi=1)P(Yi=0|Xi=1)=(11+e(β0+β1))(e(β0+β1)1+e(β0+β1))=1e(β0+β1)=e(β0+β1)

und der zweite ist:

P(Yi=0|Xi=0)P(Yi=1|Xi=0)=(eβ01+eβ0)(11+eβ0)=eβ0

Wenn wir dies wieder in die Formel einfügen, haben wir , was das Ergebnis ist.OR=e(β0+β1)eβ0=eβ1

Hinweis: Wenn Sie andere Prädiktoren haben, nennen Sie diese im Modell Der potenzierte Regressionskoeffizient (unter Verwendung einer ähnlichen Ableitung) ist tatsächlichZ1,...,Zp

P(Y=1|X=1,Z1,...,Zp)P(Y=0|X=1,Z1,...,Zp)P(Y=0|X=0,Z1,...,Zp)P(Y=1|X=0,Z1,...,Zp)

Es ist also das Odds Ratio , das von den Werten der anderen Prädiktoren im Modell abhängig ist und im Allgemeinen nicht gleich ist

P(Y=1|X=1)P(Y=0|X=1)P(Y=0|X=0)P(Y=1|X=0)

Es ist also keine Überraschung, dass Sie eine Diskrepanz zwischen dem potenzierten Koeffizienten und dem beobachteten Quotenverhältnis beobachten.

Anmerkung 2: Ich habe eine Beziehung zwischen dem wahren und dem wahren Quotenverhältnis abgeleitet, aber beachte, dass dieselbe Beziehung für die Stichprobenmengen gilt, da die angepasste logistische Regression mit einem einzelnen binären Prädiktor die Einträge eines Zwei-mal-Zwei genau reproduziert Tabelle. Das heißt, die angepassten Mittel stimmen genau mit den Probenmitteln überein, wie bei jedem GLM. Daher gilt die gesamte oben verwendete Logik, wobei die wahren Werte durch Stichprobenmengen ersetzt werden. β


2
Wow, danke, dass du dir die Zeit genommen hast, eine so vollständige Erklärung zu schreiben.
Mike

@Macro Ich habe festgestellt, dass "p-Wert kleiner als 0,05" und "95% CI enthält nicht 1" in der logistischen Regression nicht konsistent sind (ich habe SAS verwendet). Hängt dieses Phänomen mit Ihrer Erklärung zusammen?
user67275

4

Sie haben eine wirklich nette Antwort von @Macro (+1), der darauf hingewiesen hat, dass das einfache (marginale) Quotenverhältnis ohne Bezugnahme auf ein Modell berechnet wurde und das Quotenverhältnis einem multiplen logistischen Regressionsmodell ( entnommen wurde. ) sind im Allgemeinen nicht gleich. Ich frage mich, ob ich hier noch ein paar verwandte Informationen einbringen kann, insbesondere zu erklären, wann sie gleich sein werden und wann nicht. exp(β)

Beta-Werte in der logistischen Regression geben wie in der OLS-Regression die Änderung des ceteris paribus in dem Parameter an, der die Antwortverteilung regelt, die mit einer Änderung der Kovariate um 1 Einheit verbunden ist. (Für die logistische Regression ist dies eine Änderung des Logits der Erfolgswahrscheinlichkeit, während es für die OLS-Regression der Mittelwert ist, .) Das heißt, es ist die Änderung, bei der alle anderen gleich sind . Potenzierte Betas sind ähnlich ceteris paribus Odds Ratios. Das erste Problem ist daher, sicherzustellen, dass dies sinnvoll sein kann. Insbesondere sollte die fragliche Kovariate an keiner anderen Stelle im Modell existieren (z. B. in einer Interaktion oder einem Polynomterm). (Beachten Sie, dass ich mich hier auf Begriffe beziehe, die enthalten sindμIn Ihrem Modell gibt es jedoch auch Probleme, wenn die wahre Beziehung zwischen den Ebenen einer anderen Kovariate variiert, aber beispielsweise kein Interaktionsterm enthalten war.) Sobald wir festgestellt haben, dass es sinnvoll ist, ein Odds Ratio durch Exponentiierung eines Beta aus a zu berechnen Im logistischen Regressionsmodell können wir die Frage stellen, wann sich die modellbasierten und marginalen Quotenverhältnisse unterscheiden und welche sollten Sie bevorzugen, wenn sie es tun?

Der Grund, warum sich diese ORs unterscheiden, liegt darin, dass die anderen in Ihrem Modell enthaltenen Kovariaten nicht orthogonal zu der betreffenden sind. Sie können dies beispielsweise überprüfen, indem Sie eine einfache Korrelation zwischen Ihren Kovariaten ausführen (es spielt keine Rolle, wie die p-Werte sind, oder wenn Ihre Kovariaten statt stetig sind, ist der Punkt einfach ). Wenn andererseits alle Ihre anderen Kovariaten orthogonal zu der fraglichen sind, entspricht dem marginalen OR. r 0 exp ( β )0/1r0exp(β)

Wenn sich der marginale OP und der modellbasierte OP unterscheiden, sollten Sie die modellbasierte Version verwenden / interpretieren. Der Grund ist, dass der marginale OP die Verwirrung unter Ihren Kovariaten nicht berücksichtigt, wohingegen das Modell dies tut. Dieses Phänomen hängt mit Simpsons Paradoxon zusammen , über das Sie vielleicht lesen möchten (SEP hat auch einen guten Eintrag , hier gibt es eine Diskussion zum Lebenslauf: Basic-simpson's-paradox , und Sie können nach dem Tag des Lebenslaufs suchen ). Der Einfachheit und Zweckmäßigkeit halber möchten Sie möglicherweise nur das modellbasierte ODER verwenden, da es entweder eindeutig vorzuziehen ist oder dasselbe.

Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.