Helfen Sie mir, die angepasste Quotenquote in der logistischen Regression zu verstehen


20

Es fiel mir schwer, die Verwendung der logistischen Regression in einem Papier zu verstehen. Das Papier verfügbar hier verwendet logistische Regression Wahrscheinlichkeit von Komplikationen während der Operation des Grauen Stars zu prognostizieren.

Was mich verwirrt, ist, dass das Papier ein Modell vorstellt, das das Odds Ratio von 1 zur Baseline wie folgt beschreibt:

Ein Patient, dessen Risikoprofil in der Referenzgruppe für alle Risikoindikatoren enthalten war (dh angepasstes OR = 1,00 für alle in Tabelle 1), kann als "Grundrisikoprofil" eingestuft werden, und das logistische Regressionsmodell gibt eine "prognostizierte Grundwahrscheinlichkeit" an. für PCR oder VL oder beides = 0,736%.

Die Wahrscheinlichkeit von 0,00736 wird also mit einem Odds Ratio von 1 angegeben. Basierend auf der Transformation von Wahrscheinlichkeiten zu Odds Ratios: kann dies nicht gleich 1 sein: . 0,00741=0,00736o=p1p0.00741=0.0073610.00736

Es wird noch verwirrender. Die zusammengesetzten Quotenverhältnisse, die mehrere Kovariaten mit anderen Werten als der Basislinie darstellen, werden zur Berechnung des vorhergesagten Risikos verwendet.

... wäre der zusammengesetzte OR aus Tabelle 1 1,28 × 1,58 × 2,99 × 2,46 × 1,45 × 1,60 = 34,5, und aus dem Diagramm in 1 sehen wir, dass dieser OR einer vorhergesagten Wahrscheinlichkeit von PCR oder VL oder beiden von entspricht ungefähr 20%

Die einzige Möglichkeit, zu den Werten zu gelangen, die das Papier als Beispiel mit zusammengesetzten Gewinnchancen wie folgt zu multiplizieren: .0.2025=(34.50 × 0.00736)1 + (34.50 × 0.00736)

Also, was ist hier los? Was ist die Logik für die Zuweisung von Odds Ratio 1 zu einer Basiswahrscheinlichkeit, die nicht 0,5 beträgt? Die Update-Formel, die ich oben vorgestellt habe, enthält die richtigen Wahrscheinlichkeiten für Beispiele in der Veröffentlichung, aber dies ist nicht die direkte Multiplikation der Odds Ratio, die ich erwarten würde. Was ist es dann?


8
Sie könnten eine einfache Verwirrung über die Terminologie haben: ist eine Quote , kein Quotenverhältnis. Ein Odds Ratio ist die Division eines solchen Ausdrucks durch einen anderen. p/(1-p)
whuber

Antworten:


35

Chancen sind eine Möglichkeit, Chancen auszudrücken. Odds Ratios sind genau das: eine Gewinnchancen durch eine andere dividiert. Das bedeutet, dass Sie eine Quote mit einer Quote multiplizieren, um eine andere zu erhalten. Mal sehen, wie sie in dieser alltäglichen Situation funktionieren.

Umrechnung zwischen Quote und Wahrscheinlichkeit

Y.10 Pr ( Y = 0 )Pr(Y.=1)0Pr(Y.=0)

Chancen(Y.)=Pr(Y.=1)Pr(Y.=0)=Pr(Y.=1)1-Pr(Y.=1).

Der äquivalente Ausdruck auf der rechten Seite zeigt, dass es ausreicht, zu modellieren , um die Gewinnchancen zu ermitteln. Beachten Sie umgekehrt, dass wir lösen könnenPr(Y.=1)

Pr(Y.=1)=Chancen(Y.)1+Chancen(Y.)=1-11+Chancen(Y.).

Logistische Regression

Die logistische Regression modelliert den Logarithmus der Gewinnchancen von als lineare Funktion erklärender Variablen. wir diese Variablen im Allgemeinen als und einen möglichen konstanten Term in die lineare Funktion aufnehmen, können wir die Koeffizienten (die aus den Daten geschätzt werden sollen) als und . Formal ergibt dies das Modellx 1 , , x p β 1 , , β p β 0Y.x1,,xpβ1,,βpβ0

Log(Chancen(Y.))=β0+β1x1++βpxp.

Die Gewinnchancen selbst können durch Aufheben des Logarithmus wiederhergestellt werden:

Chancen(Y.)=exp(β0+β1x1++βpxp).

Kategoriale Variablen verwenden

Kategoriale Variablen wie Altersgruppe, Geschlecht, Vorhandensein von Glaukom usw. werden mittels "Dummy-Codierung" einbezogen. Um zu zeigen, dass es nicht darauf ankommt, wie die Variable codiert wird, möchte ich ein einfaches Beispiel für eine kleine Gruppe geben. seine Verallgemeinerung auf mehrere Gruppen sollte offensichtlich sein. In dieser Studie ist eine Variable "Pupillengröße" mit drei Kategorien "Groß", "Mittel" und "Klein". (In der Studie werden diese als rein kategorial behandelt, wobei anscheinend ihre inhärente Reihenfolge nicht berücksichtigt wird.) Intuitiv hat jede Kategorie ihre eigenen Quoten, z. B. für "Groß", für "Mittel" und für "Klein". . Dies bedeutet, dass alle anderen Dinge gleich sind,α M α SαLαMαS

Chancen(Y.)=exp(αL+β0+β1x1++βpxp)

für alle in der Kategorie "Groß",

Chancen(Y.)=exp(αM+β0+β1x1++βpxp)

für alle in der Kategorie "Mittel" und

Chancen(Y.)=exp(αS+β0+β1x1++βpxp)

für diejenigen in der Kategorie "Klein".

Identifizierbare Koeffizienten erstellen

Ich habe die ersten beiden Koeffizienten eingefärbt, um sie hervorzuheben, weil ich möchte, dass Sie bemerken, dass sie eine einfache Änderung ermöglichen: Wir können eine beliebige Zahl auswählen und indem wir sie zu addieren und von jeder von , und , wir würden keine vorhergesagten Quoten ändern. Dies liegt an den offensichtlichen Äquivalenzen der Form& bgr; 0 α L α M α Sγβ0αLαMαS

αL+β0=(αL-γ)+(γ+β0),

usw. Obwohl dies für das Modell keine Probleme darstellt - es sagt immer noch genau die gleichen Dinge voraus -, zeigt es, dass die Parameter an sich nicht interpretierbar sind. Was bei diesem Additions-Subtraktions-Manöver gleich bleibt, sind die Unterschiede zwischen den Koeffizienten. Um diesen Mangel an Identifizierbarkeit zu beheben, wählen Personen (und standardmäßig Software) herkömmlicherweise eine der Kategorien in jeder Variablen als "Basis" oder "Referenz" und legen einfach fest, dass ihr Koeffizient Null sein wird. Dies beseitigt die Mehrdeutigkeit.

Das Papier listet zuerst Referenzkategorien auf; "Groß" in diesem Fall. Somit wird von jedem von und und zu addiert, um dies zu kompensieren.α L , α M , α S β 0αLαL,αM,αSβ0

Die logarithmischen Quoten für eine hypothetische Person, die in alle Basiskategorien fällt, entsprechen daher plus einer Reihe von Begriffen, die mit allen anderen "Kovariaten" verknüpft sind - den nicht kategorialen Variablen:β0

Gewinnchancen (Basiskategorie)=exp(β0+β1X1++βpXp).

Hier werden keine Begriffe angezeigt, die mit kategorialen Variablen verknüpft sind. (Ich habe die Schreibweise an dieser Stelle leicht geändert: Die Betas jetzt nur die Koeffizienten der Kovariaten , während das vollständige Modell die Alphas für die verschiedenen Kategorien enthält.)βichαj

Quoten vergleichen

Vergleichen wir die Quoten. Angenommen, eine hypothetische Person ist a

männlicher Patient im Alter von 80–89 Jahren mit einem weißen grauen Star, ohne fundale Sicht und einer kleinen Pupille, die von einem ...

Mit diesem Patienten (nennen wir ihn Charlie) sind geschätzte Koeffizienten für jede Kategorie verbunden: für seine Altersgruppe, für das männliche Sein und so weiter. Wo immer sein Attribut die Basis für seine Kategorie ist, ist der Koeffizient gemäß Konvention Null , wie wir gesehen haben. Da dies ein lineares Modell ist, addieren sich die Koeffizienten. Somit werden zu den oben angegebenen Basis-Log-Quoten die Log-Quoten für diesen Patienten durch Addition erhaltenα80-89αmännlich

α80-89+αmännlich+αkein Glaukom++αFachkanzler.

Dies ist genau der Betrag, um den die Log-Quoten dieses Patienten von der Basis abweichen. Um die logarithmischen Quoten zu konvertieren, machen Sie den Logarithmus rückgängig und denken Sie daran, dass dies Addition in Multiplikation umwandelt. Daher muss die Basisquote mit multipliziert werden

exp(α80-89)exp(αmännlich)exp(αkein Glaukom)exp(αFachkanzler).

Dies sind die in der Tabelle unter "Adjusted OR" (Adjusted Odds Ratio) angegebenen Zahlen. (Es wird "angepasst" genannt, weil die Kovariaten im Modell enthalten waren. Sie spielen in keiner unserer Berechnungen eine Rolle, wie Sie sehen werden. Es wird als "Verhältnis" bezeichnet, weil es genau der Betrag von ist die die Basis Chancen multipliziert werden muss , den Patienten vorhergesagten Gewinnchancen zu produzieren. den ersten Absatz dieses Beitrags sehen) um in der Tabelle, sie sind , , und so weiter. Nach dem Artikel arbeitet ihr Produkt bis . Deshalbx1,,xpexp(α80-89)=1,58exp(αmännlich)=1.28exp(αkein Glaukom)=1.0034.5

Gewinnchancen (Charlie)=34.5×Gewinnchancen (Basis).

(Beachten Sie, dass die Basiskategorien alle Quotenverhältnisse von , da das Produkt durch die Angabe von unverändert bleibt. Auf diese Weise können Sie die Basiskategorien in der Tabelle erkennen.) 1.00=exp(0)1

Wiederholung der Ergebnisse als Wahrscheinlichkeiten

Lassen Sie uns dieses Ergebnis schließlich in Wahrscheinlichkeiten umwandeln. Uns wurde gesagt, dass die vorhergesagte Wahrscheinlichkeit der Basislinie . Daher können wir unter Verwendung der zu Beginn abgeleiteten Formeln, die Quoten und Wahrscheinlichkeiten in Beziehung setzen, berechnen0,736%=0,00736

Gewinnchancen (Basis)=0,007361-0,00736=0,00741.

Folglich sind Charlies Chancen

Gewinnchancen (Charlie)=34.5×0,00741=0,256.

Schließlich gibt die Rückkonvertierung in Wahrscheinlichkeiten

Pr(Y.(Charlie)=1)=1-11+0,256=0,204.

3
whuber: nach einem sehr anstrengenden Tag vor meinem Computer zu sitzen und diese außergewöhnliche Antwort von Ihnen zu finden, ist einfach genial. Sie haben mir in einer sehr angespannten Situation sehr geholfen. Danke vielmals. (Irgendwie wird @ Whuber nicht auftauchen ...)
Mahonya
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.