Negativer Koeffizient in der geordneten logistischen Regression


17

Angenommen, wir haben die ordinale Antwort und eine Menge von Variablen , die wir denken werde erklären . Wir führen dann eine geordnete logistische Regression von (Entwurfsmatrix) auf (Antwort) durch.X : = [ x 1 , x 2 , x 3 ] y X yy:{Bad, Neutral, Good}{1,2,3}X:=[x1,x2,x3]yXy

Angenommen, der geschätzte Koeffizient von heißt und beträgt in der geordneten logistischen Regression . Wie interpretiere ich das Odds Ratio (OR) von ?β 1 - 0,5 e - 0,5 = 0,607x1β^10.5e0.5=0.607

Muss ich sagen , „für eine 1 Einheit Anstieg der , ceteris paribus, die Chancen zu beobachten sind mal die Chancen zu beobachten , und für die gleiche Änderung in , die Chancen zu beobachten sind mal die Chancen zu beobachten „? Gut 0.607 Bad Neutral x 1 Neutral Gut 0.607 Badx1Good0.607BadNeutralx1NeutralGood0.607Bad

Ich kann in meinem Lehrbuch oder in Google keine Beispiele für die Interpretation negativer Koeffizienten finden.


2
Ja, das ist richtig. Es ist nahezu identisch mit der Interpretation positiver Koeffizienten.
Peter Flom - Wiedereinsetzung von Monica

2
NB: Normalerweise sagen wir "regress y on X ", nicht umgekehrt.
gung - Wiedereinsetzung von Monica

Antworten:


25

Sie sind auf dem richtigen Weg, aber sehen Sie immer in der Dokumentation der von Ihnen verwendeten Software nach, welches Modell tatsächlich passt. Es sei eine Situation mit einer kategorial abhängigen Variablen Y mit geordneten Kategorien 1,,g,,k und Prädiktoren X1,,Xj,,Xp .

"In the wild" gibt es drei gleichwertige Möglichkeiten, um das theoretische Proportional-Odds-Modell mit verschiedenen implizierten Parameterbedeutungen zu schreiben:

  1. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g+β1X1++βpXp(g=1,,k1)
  2. logit(p(Yg))=lnp(Yg)p(Y>g)=β0g(β1X1++βpXp)(g=1,,k1)
  3. logit(p(Yg))=lnp(Yg)p(Y<g)=β0g+β1X1++βpXp(g=2,,k)

(Modelle 1 und 2 haben die Einschränkung, dass in den separaten binären logistischen Regressionen die nicht mit variieren und , Modell 3 hat die gleiche Einschränkung für und erfordert, dass )β j g β 0 1 < < β 0 g < < β 0 k - 1 β j β 0 2 > > β 0 g > > β 0 kk1βjgβ01<<β0g<<β0k1βjβ02>>β0g>>β0k

  • In Modell 1 bedeutet ein positives , dass eine Erhöhung des Prädiktors mit einer erhöhten Wahrscheinlichkeit für eine niedrigere Kategorie in . X j YβjXjY
  • Modell 1 ist etwas eingängig, daher scheinen Modell 2 oder 3 das bevorzugte Modell in der Software zu sein. Hier bedeutet ein positives , dass eine Erhöhung des Prädiktors mit einer erhöhten Wahrscheinlichkeit für eine höhere Kategorie in . X j YβjXjY
  • Die Modelle 1 und 2 führen zu denselben Schätzungen für , aber ihre Schätzungen für haben entgegengesetzte Vorzeichen. β jβ0gβj
  • Die Modelle 2 und 3 führen zu denselben Schätzungen für , aber ihre Schätzungen für haben entgegengesetzte Vorzeichen. β 0 gβjβ0g

Unter der Annahme, dass Ihre Software Modell 2 oder 3 verwendet, können Sie bei einer Steigerung von 1 Einheit ceteris paribus die vorhergesagten Wahrscheinlichkeiten für die Beobachtung von ' ' im Vergleich zur Beobachtung von ' ' sagen 'Änderung um einen Faktor von . ", und ebenfalls" mit einer 1- Zunahme von , ceteris paribus, die vorhergesagte Wahrscheinlichkeit,' 'vs. Beobachten einer Änderung von ' 'um den Faktor . " Beachten Sie, dass wir im empirischen Fall nur die vorhergesagten Quoten haben, nicht die tatsächlichen. Y = Gut Y = Nullorbad e β 1 = 0,607 X 1 Y = gut oder Neutral Y = Bad e β 1 = 0,607X1Y=GoodY=Neutral OR Badeβ^1=0.607X1Y=Good OR NeutralY=Badeβ^1=0.607

Hier einige zusätzliche Abbildungen für Modell 1 mit Kategorien. Erstens die Annahme eines linearen Modells für die kumulativen Logs mit proportionalen Quoten. Zweitens die impliziten Wahrscheinlichkeiten, höchstens Kategorie . Die Wahrscheinlichkeiten folgen logistischen Funktionen mit der gleichen Form. gk=4gBildbeschreibung hier eingeben

Für die Kategoriewahrscheinlichkeiten selbst impliziert das dargestellte Modell die folgenden geordneten Funktionen: Bildbeschreibung hier eingeben

PS Meines Wissens wird Modell 2 in SPSS sowie in R-Funktionen MASS::polr()und verwendet ordinal::clm(). Modell 3 wird in R-Funktionen rms::lrm()und verwendet VGAM::vglm(). Leider kenne ich SAS und Stata nicht.


@ Harokitty Das binäre logistische Regressionsmodell hat wie das lineare Regressionsmodell keinen Fehlerterm. Beachten Sie, dass wir eine Wahrscheinlichkeit modellieren und nicht die abhängige Variable selbst. Die Annahme einer Fehlerverteilung für muss separat angegeben werden, zB in R mit . Yglm(..., family=binomial)
Caracal

Haben Sie eine Referenz, die sich mit dem Ausdrücken von Spezifikation Nr. 2 in Ihrer Liste von 3 Alternativen befasst?

1
@ Harokitty Es wird kurz in Agrestis "Analyse ordinaler kategorialer Daten", Abschnitt 3.2.2, S. 49, Gleichung 3.8 beschrieben . Alternativ dazu in Agrestis "Categorical Data Analysis", Abschnitt 9.4, S. 323, Gleichung 9.12.
Caracal

Hallo, tut mir leid Sie zu stören, haben Sie eine Referenz für die 3.? Agresti scheint nicht darüber zu reden.

2
@Jase Nun, Agresti benutzt einfach in dem oben verlinkten Abschnitt. Für siehe Harrells "Regressionsmodellierungsstrategien", Abschnitt 13.3.1, S. 333, Gleichung 13.4. logit ( Y g )logit(Y>g)logit(Yg)
Karakal
Durch die Nutzung unserer Website bestätigen Sie, dass Sie unsere Cookie-Richtlinie und Datenschutzrichtlinie gelesen und verstanden haben.
Licensed under cc by-sa 3.0 with attribution required.