Chancen sind eine Möglichkeit, Chancen auszudrücken. Odds Ratios sind genau das: eine Gewinnchancen durch eine andere dividiert. Das bedeutet, dass Sie eine Quote mit einer Quote multiplizieren, um eine andere zu erhalten. Mal sehen, wie sie in dieser alltäglichen Situation funktionieren.
Umrechnung zwischen Quote und Wahrscheinlichkeit
Y.10 Pr ( Y = 0 )Pr ( Y= 1 )0Pr ( Y= 0 )
Gewinnchancen ( Y) = Pr ( Y= 1 )Pr ( Y= 0 )= Pr ( Y= 1 )1 - Pr ( Y= 1 ).
Der äquivalente Ausdruck auf der rechten Seite zeigt, dass es ausreicht, zu modellieren , um die Gewinnchancen zu ermitteln. Beachten Sie umgekehrt, dass wir lösen könnenPr ( Y= 1 )
Pr ( Y= 1 ) = Quote ( Y)1 + Quote ( Y)= 1 - 11 + Quote ( Y).
Logistische Regression
Die logistische Regression modelliert den Logarithmus der Gewinnchancen von als lineare Funktion erklärender Variablen. wir diese Variablen im Allgemeinen als und einen möglichen konstanten Term in die lineare Funktion aufnehmen, können wir die Koeffizienten (die aus den Daten geschätzt werden sollen) als und . Formal ergibt dies das Modellx 1 , … , x p β 1 , … , β p β 0Y.x1, … , Xpβ1, … , Βpβ0
Log( Odds ( Y) ) = β0+ β1x1+ ⋯ + βpxp.
Die Gewinnchancen selbst können durch Aufheben des Logarithmus wiederhergestellt werden:
Gewinnchancen ( Y) = exp( β0+ β1x1+ ⋯ + βpxp) .
Kategoriale Variablen verwenden
Kategoriale Variablen wie Altersgruppe, Geschlecht, Vorhandensein von Glaukom usw. werden mittels "Dummy-Codierung" einbezogen. Um zu zeigen, dass es nicht darauf ankommt, wie die Variable codiert wird, möchte ich ein einfaches Beispiel für eine kleine Gruppe geben. seine Verallgemeinerung auf mehrere Gruppen sollte offensichtlich sein. In dieser Studie ist eine Variable "Pupillengröße" mit drei Kategorien "Groß", "Mittel" und "Klein". (In der Studie werden diese als rein kategorial behandelt, wobei anscheinend ihre inhärente Reihenfolge nicht berücksichtigt wird.) Intuitiv hat jede Kategorie ihre eigenen Quoten, z. B. für "Groß", für "Mittel" und für "Klein". . Dies bedeutet, dass alle anderen Dinge gleich sind,α M α SαLαMαS
Gewinnchancen ( Y) = exp( αL+ β0+ β1x1+ ⋯ + βpxp)
für alle in der Kategorie "Groß",
Gewinnchancen ( Y) = exp( αM+ β0+ β1x1+ ⋯ + βpxp)
für alle in der Kategorie "Mittel" und
Gewinnchancen ( Y) = exp( αS+ β0+ β1x1+ ⋯ + βpxp)
für diejenigen in der Kategorie "Klein".
Identifizierbare Koeffizienten erstellen
Ich habe die ersten beiden Koeffizienten eingefärbt, um sie hervorzuheben, weil ich möchte, dass Sie bemerken, dass sie eine einfache Änderung ermöglichen: Wir können eine beliebige Zahl auswählen und indem wir sie zu addieren und von jeder von , und , wir würden keine vorhergesagten Quoten ändern. Dies liegt an den offensichtlichen Äquivalenzen der Form& bgr; 0 α L α M α Sγβ0αLαMαS
αL+ β0= ( αL- γ) + ( γ+ β0) ,
usw. Obwohl dies für das Modell keine Probleme darstellt - es sagt immer noch genau die gleichen Dinge voraus -, zeigt es, dass die Parameter an sich nicht interpretierbar sind. Was bei diesem Additions-Subtraktions-Manöver gleich bleibt, sind die Unterschiede zwischen den Koeffizienten. Um diesen Mangel an Identifizierbarkeit zu beheben, wählen Personen (und standardmäßig Software) herkömmlicherweise eine der Kategorien in jeder Variablen als "Basis" oder "Referenz" und legen einfach fest, dass ihr Koeffizient Null sein wird. Dies beseitigt die Mehrdeutigkeit.
Das Papier listet zuerst Referenzkategorien auf; "Groß" in diesem Fall. Somit wird von jedem von und und zu addiert, um dies zu kompensieren.α L , α M , α S β 0αLαL, αM,αSβ0
Die logarithmischen Quoten für eine hypothetische Person, die in alle Basiskategorien fällt, entsprechen daher plus einer Reihe von Begriffen, die mit allen anderen "Kovariaten" verknüpft sind - den nicht kategorialen Variablen:β0
Gewinnchancen (Basiskategorie) = exp( β0+ β1X1+ ⋯ + βpXp) .
Hier werden keine Begriffe angezeigt, die mit kategorialen Variablen verknüpft sind. (Ich habe die Schreibweise an dieser Stelle leicht geändert: Die Betas jetzt nur die Koeffizienten der Kovariaten , während das vollständige Modell die Alphas für die verschiedenen Kategorien enthält.)βichαj
Quoten vergleichen
Vergleichen wir die Quoten. Angenommen, eine hypothetische Person ist a
männlicher Patient im Alter von 80–89 Jahren mit einem weißen grauen Star, ohne fundale Sicht und einer kleinen Pupille, die von einem ...
Mit diesem Patienten (nennen wir ihn Charlie) sind geschätzte Koeffizienten für jede Kategorie verbunden: für seine Altersgruppe, für das männliche Sein und so weiter. Wo immer sein Attribut die Basis für seine Kategorie ist, ist der Koeffizient gemäß Konvention Null , wie wir gesehen haben. Da dies ein lineares Modell ist, addieren sich die Koeffizienten. Somit werden zu den oben angegebenen Basis-Log-Quoten die Log-Quoten für diesen Patienten durch Addition erhaltenα80-89αmännlich
α80-89+ αmännlich+ αkein Glaukom+ ⋯ + αFachkanzler.
Dies ist genau der Betrag, um den die Log-Quoten dieses Patienten von der Basis abweichen. Um die logarithmischen Quoten zu konvertieren, machen Sie den Logarithmus rückgängig und denken Sie daran, dass dies Addition in Multiplikation umwandelt. Daher muss die Basisquote mit multipliziert werden
exp( α80-89) exp( αmännlich) exp( αkein Glaukom) ⋯ exp( αFachkanzler) .
Dies sind die in der Tabelle unter "Adjusted OR" (Adjusted Odds Ratio) angegebenen Zahlen. (Es wird "angepasst" genannt, weil die Kovariaten im Modell enthalten waren. Sie spielen in keiner unserer Berechnungen eine Rolle, wie Sie sehen werden. Es wird als "Verhältnis" bezeichnet, weil es genau der Betrag von ist die die Basis Chancen multipliziert werden muss , den Patienten vorhergesagten Gewinnchancen zu produzieren. den ersten Absatz dieses Beitrags sehen) um in der Tabelle, sie sind , , und so weiter. Nach dem Artikel arbeitet ihr Produkt bis . Deshalbx1, … , Xpexp( α80-89) = 1,58exp( αmännlich) = 1,28exp( αkein Glaukom) = 1,0034.5
Quote (Charlie) = 34,5 × Quote (Basis) .
(Beachten Sie, dass die Basiskategorien alle Quotenverhältnisse von , da das Produkt durch die Angabe von unverändert bleibt. Auf diese Weise können Sie die Basiskategorien in der Tabelle erkennen.) 1,00 = exp( 0 )1
Wiederholung der Ergebnisse als Wahrscheinlichkeiten
Lassen Sie uns dieses Ergebnis schließlich in Wahrscheinlichkeiten umwandeln. Uns wurde gesagt, dass die vorhergesagte Wahrscheinlichkeit der Basislinie . Daher können wir unter Verwendung der zu Beginn abgeleiteten Formeln, die Quoten und Wahrscheinlichkeiten in Beziehung setzen, berechnen0,736 % = 0,00736
Quote (Basis) = 0,007361 - 0,00736= 0,00741.
Folglich sind Charlies Chancen
Quote (Charlie) = 34,5 × 0,00741 = 0,256.
Schließlich gibt die Rückkonvertierung in Wahrscheinlichkeiten
Pr( Y( Charlie ) = 1 ) = 1 - 11 + 0,256= 0,204.