Interpretation der ordinalen logistischen Regression

Ich habe diese ordinale logistische Regression in R ausgeführt:

mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars)

Ich habe diese Zusammenfassung des Modells erhalten:

summary(mtcars_ordinal)

Re-fitting to get Hessian

Call:
polr(formula = as.factor(carb) ~ mpg, data = mtcars)

Coefficients:
      Value Std. Error t value
mpg -0.2335    0.06855  -3.406

Intercepts:
    Value   Std. Error t value
1|2 -6.4706  1.6443    -3.9352
2|3 -4.4158  1.3634    -3.2388
3|4 -3.8508  1.3087    -2.9425
4|6 -1.2829  1.3254    -0.9679
6|8 -0.5544  1.5018    -0.3692

Residual Deviance: 81.36633 
AIC: 93.36633

Ich kann die Log-Quoten des Koeffizienten folgendermaßen mpgabrufen:

exp(coef(mtcars_ordinal))
 mpg 
0.7917679

Und die log Quoten der Schwellen wie:

exp(mtcars_ordinal$zeta)

       1|2         2|3         3|4         4|6         6|8 
0.001548286 0.012084834 0.021262900 0.277242397 0.574406353

Könnte mir jemand sagen, ob meine Interpretation dieses Modells korrekt ist:

Mit mpgzunehmender carbAnzahl von Einheiten verringert sich die Wahrscheinlichkeit, von Kategorie 1 in eine der anderen 5 Kategorien zu wechseln, um -0,23. Wenn die Log-Quote den Schwellenwert von 0,0015 überschreitet, ist der vorhergesagte Wert für ein Auto Kategorie 2 von carb. Wenn die Log-Quote den Schwellenwert von 0,0121 überschreitet, ist der vorhergesagte Wert für ein Auto Kategorie 3 von carbusw.

— Luciano
quelle

Antworten:

Sie haben Quoten perfekt verwechselt und Quoten protokolliert. Log Odds sind die Koeffizienten; Chancen sind potenzierte Koeffizienten. Außerdem ist die Interpretation der Gewinnchancen umgekehrt . (Ich bin mit Ökonometrie aufgewachsen, indem ich über die begrenzten abhängigen Variablen nachgedacht habe, und die Interpretation der Wahrscheinlichkeit der ordinalen Regression ist ... ähm ... amüsant für mich.) Ihre erste Aussage sollte also lauten: "Wenn mpg sich die Wahrscheinlichkeit um eine Einheit erhöht der Beobachtung der Kategorie 1 carb gegenüber den anderen 5 Kategorien steigt um 21%. "

Was die Interpretation der Schwellenwerte angeht, müssen Sie wirklich alle vorhergesagten Kurven zeichnen, um sagen zu können, wie die modale Vorhersage lautet:

mpg   <- seq(from=5, to=40, by=1)
xbeta <- mpg*(-0.2335)
logistic_cdf <- function(x) {
  return( 1/(1+exp(-x) ) )
}

p1 <- logistic_cdf( -6.4706 - xbeta )
p2 <- logistic_cdf( -4.4158 - xbeta ) - logistic_cdf( -6.4706 - xbeta )
p3 <- logistic_cdf( -3.8508 - xbeta ) - logistic_cdf( -4.4158 - xbeta )
p4 <- logistic_cdf( -1.2829 - xbeta ) - logistic_cdf( -3.8508 - xbeta )
p6 <- logistic_cdf( -0.5544 - xbeta ) - logistic_cdf( -1.2829 - xbeta )
p8 <- 1 - logistic_cdf( -0.5544 - xbeta )

plot(mpg, p1, type='l', ylab='Prob')
  lines(mpg, p2, col='red')
  lines(mpg, p3, col='blue')
  lines(mpg, p4, col='green')
  lines(mpg, p6, col='purple')
  lines(mpg, p8, col='brown')
  legend("topleft", lty=1, col=c("black", "red", "blue", "green", "purple", "brown"), 
         legend=c("carb 1", "carb 2", "carb 3", "carb 4", "carb 5", "carb 6"))

Bildbeschreibung hier eingeben

Die blaue Kurve für die 3. Kategorie nahm nie zu und die violette Kurve für die 6. Kategorie auch nicht. Wenn ich also irgendetwas sagen würde, dass für Werte mpgüber 27 die wahrscheinlichste Kategorie 1 ist; zwischen 18 und 27, Kategorie 2; zwischen 4 und 18, Kategorie 4; und unter 4, Kategorie 8. (Ich frage mich, was Sie studieren - Nutzfahrzeuge? Die meisten Personenkraftwagen sollten heutzutage mpg> 25 haben.) Möglicherweise möchten Sie versuchen, die Schnittpunkte genauer zu bestimmen.

Mir ist auch aufgefallen, dass Sie diese seltsamen Kategorien haben, die 1, 2, 3, 4, dann 6 (Überspringen von 5), dann 8 (Überspringen von 7). Wenn 5 und 7 absichtlich fehlen, ist das in Ordnung. Wenn dies gültige Kategorien sind, die carbeinfach nicht in diese Kategorien fallen, ist dies nicht gut.

— StasK
quelle

Beachten Sie, wie ich "Wechsel von Kategorie 1 der Vergaser zu einer der anderen 5 Kategorien". Ist das falsch? Ich kämpfe darum, mich mit "Wenn mpg um eine Einheit zunimmt, steigt die Wahrscheinlichkeit, Kategorie 1 von carb im Vergleich zu anderen 5 Kategorien zu beobachten, um 21%." Dies impliziert, dass bei einem Anstieg von mpg um ca. 5 Einheiten eine 100% ige Chance besteht, Kategorie 1 zu beobachten. Hat sich mpg jedoch um 5 Einheiten erhöht, sollte eine höhere Chance bestehen, Kategorie 8 und nicht Kategorie 1 zu beobachten.

— luciano

Ich fügte die Figur hinzu; Ich hatte den Verdacht, dass Ihre Antwort dadurch leichter zu interpretieren ist - ich hoffe, es gefällt Ihnen. (Übrigens, die Dokumentation für ? Mtcars besagt, dass die Daten Testergebnisse aus einer Ausgabe von Motor Trends von 1974 sind .)

— gung - Reinstate Monica

Könnte jemand bitte Lucianos letzte Frage beantworten? Ich finde das sehr interessant.

— Erosennin

mpg

\frac{2}{3}

$\frac23$

\frac{1}{3}

$\frac13$

\frac{4}{5}

$\frac45$

\frac{1}{5}

$\frac15$

Wie polrdefiniert als das Modell logit P(Y <= k | x) = zeta_k - eta, sollte @ sTask Interpretation nicht lesen, „Wie mpg erhöht sich um eine Einheit, die Chancen der Beobachtung der Kategorie 1 von im carb Vergleich zu anderen 5 Kategorien erhöhen , indem 26% ( exp(-(-0.2335)) = 1.26).“

— Moremo

In dem geordneten Logit - Modell bilden die Quoten das Verhältnis der Wahrscheinlichkeit in einer Kategorie unter einem bestimmten Schwellenwert zu der Wahrscheinlichkeit in einer Kategorie über demselben Schwellenwert (z. B. mit drei Kategorien: Wahrscheinlichkeit, in Kategorie A oder B zu sein, vs C, sowie die Wahrscheinlichkeit, in Kategorie A gegen B oder C) zu sein.

Dies führt zu dem Modell, logit P(Y <= k | x) = zeta_k - etawie in der Beschreibung von angegeben polr(). Daher können Quotenverhältnisse entweder für verschiedene Kategorien oder für verschiedene Regressoren erstellt werden. Letzteres, das häufigere, vergleicht die Quoten für die gleichen Kategorien, aber für unterschiedliche Regressoren und Gleichgestellte

\frac{Ö d d s (y_{ein} \leq k | x_{ein})}{Ö d d s (y_{b} \leq k | x_{b})} = \exp (- (η_{ein} - η_{b})) .

$\newcommand{\odds}{{\rm odds}} \frac{\odds(y_a \le k \,|\,x_a)}{\odds(y_b \le k \,|\,x_b)}~=~ \exp(-(\eta_a - \eta_b)).$

Das Quotenverhältnis für verschiedene Kategorien ist definiert als

\frac{Ö d d s (y_{ich} \leq k | x_{ich})}{Ö d d s (y_{ich} \leq m | x_{ich})} = \exp (ζ_{k} - ζ_{m}),

$\frac{\odds(y_i \le k \,|\,x_i)}{\odds(y_i \le m \,|\,x_i)}~=~ \exp(\zeta_k - \zeta_m),$

wobei das Verhältnis unabhängig von den Regressoren ist. Diese Eigenschaft führt zu dem alternativen namensproportionalen Gewinnchancenmodell.

In diesem einfachen, aber vielleicht nicht sehr intuitiven Beispiel könnten Sie formulieren: Für eine Erhöhung des Regressors um eine Einheit mpgdie Wahrscheinlichkeit, Kategorie 1 zu beobachten, im Vergleich zu einer höheren Kategorie (oder die Wahrscheinlichkeit, eine Kategorie unter einem bestimmten Schwellenwert zu beobachten, im Vergleich zu einer höheren Kategorie). Betrachtet man eine Kategorie oberhalb derselben Schwelle, wird diese mit 1,26 multipliziert oder um 26% erhöht ( exp(-(-0.233 - 0)) = 1.263). Wenn Sie ein Quotenverhältnis für verschiedene Kategorien formulieren möchten, können Sie z. B. sagen, dass die Wahrscheinlichkeit, in der Kategorie 1 zu sein, gegenüber einer der oben genannten Kategorien im Vergleich zu der Wahrscheinlichkeit, in der Kategorie 1 oder 2 zu sein, gegenüber einer der oben genannten Kategorien gleich ist exp((-6.470) - (-4.415)) = 0.128. Wobei die letztere Interpretation in diesem speziellen Setup nicht sehr hilfreich ist. Ein Beispiel für ein Quotenverhältnis für verschiedene Kategorien könnte die Wahrscheinlichkeit sein, ein College zu besuchen, verglichen mit der Wahrscheinlichkeit, ein Gymnasium zu besuchen.

$(\zeta_k - \zeta_{k-1})$ $k$

— moremo
quelle