Ordinale logistische Regression mit einer anderen Verknüpfungsfunktion

Stellen Sie sich eine Ergebnisvariable vor, die vier klare, geordnete Kategorien enthält. Dies scheint eine gute Verwendung der ordinalen logistischen Regression zu sein, um die Quotenverhältnisse für die Auswirkung von Kovariaten auf die Bewegung eines Subjekts um einen "Schritt" die Leiter hinauf zu schätzen.

Da die Themen jedoch besonders gleichmäßig auf die Kategorien verteilt sind, stellt sich die Frage:

Stimmt die "Annahme eines seltenen Ergebnisses" für einen OP zur Annäherung an ein relatives Risiko bei der ordinalen logistischen Regression noch?
Wenn ja, ist es möglich, die Verknüpfungsfunktion zu ändern, um ein relatives Risiko direkt abzuschätzen, und ist es dennoch möglich, in einem solchen Fall eine Poisson-Näherung mit robusten Standardfehlern zu verwenden, um Konvergenzprobleme zu lösen?

regression ordinal-data ordered-logit

— Fomite
quelle

Antworten:

Ich denke, wir müssen uns zuerst fragen, ob es notwendig ist, eine logistische Regression mit proportionalen Gewinnchancen zu verwenden, um ein kumulatives relatives Risiko zu approximieren, z. B. das relative Risiko, ein höheres Ergebnis zu melden. Die probabilistische Formulierung des Proportional-Odds-Modells beruht auf der Beobachtung beliebiger Bins einer latenten logistischen Zufallsvariablen. Siehe meine relevante Frage hier . Die Eleganz dieser Methode besteht darin, dass die Überlebensfunktion (1-CDF) eines logistischen RV das inverse Logit ist, z. B. . $P(Z > z) = \exp(-z)/(1+\exp(-z))$

Wenn wir eine ähnliche probabilistische Ableitung eines relativen Risikomodells annehmen wollen, besteht der Wunsch darin, eine latente Zufallsvariable zu finden, deren Überlebensfunktion . Dies ist jedoch nur eine exponentielle Zufallsvariable, die ohne Speicher ist. Wenn wir also die Matrix der Schwellenwert-Ergebnisvariablen konstruieren (glaube ich), sind die Zellfrequenzen bedingt unabhängig und können daher über modelliert werden ein logarithmisch lineares Modell, das nur eine Poisson-Regression ist. Dies ist beruhigend, da die Interpretation der Poisson-Koeffizienten als relative Rate erfolgt. Die Modellierung der Wechselwirkung zwischen der Antwortvariablen als numerisches Ergebnis und den Regressionskoeffizienten führt zur korrekten Interpretation. $P(Z > z) = \exp(-z)$ $O_{ij} = \mathcal{I}(Y_{i} \ge j)$

Passen Sie also das logarithmische lineare Modell an:

\log (N_{i j} | Y_{i}, X_{i,}) = η_{0} I (Y_{i} = 0) + \dots + η_{j} I (Y_{i} == j) + \vec{β} X_{i,} + \vec{γ} diag(Y) X_{i,}

$\log (N_{ij} | Y_{i}, \mathbf{X}_{i,}) = \eta_0 I(Y_{i} = 0) + \ldots + \eta_j I(Y_i == j) + \vec{\beta} \mathbf{X}_{i,} + \vec{\gamma} \text{diag(Y)} \mathbf{X}_{i,}$

Anhand des Beispiels aus dem MASS-Paket sehen wir den gewünschten Effekt, dass das relative Risiko in allen Fällen viel geringer ist als der OP:

newData <- data.frame('oy'=oy, 'ny'=as.numeric(y), housing)

## trick: marginal frequencies are categorical but interactions are linear
## solution: use linear main effect and add indicators for remaining  n-2 categories
## equivalent model specifications
fit <- glm(Freq ~ oy.2 + ny*(Infl + Type + Cont), data=newData, family=poisson)
effects <- grep('ny:', names(coef(fit)), value=T)
print(cbind(
  coef(summary(fit))[effects, ],
  coef(summary(house.plr))[gsub('ny:','', effects), ]
), digits=3)

Gibt uns:

                 Estimate Std. Error z value Pr(>|z|)  Value Std. Error t value
ny:InflMedium       0.360     0.0664    5.41 6.23e-08  0.566     0.1047    5.41
ny:InflHigh         0.792     0.0811    9.77 1.50e-22  1.289     0.1272   10.14
ny:TypeApartment   -0.299     0.0742   -4.03 5.55e-05 -0.572     0.1192   -4.80
ny:TypeAtrium      -0.170     0.0977   -1.74 8.21e-02 -0.366     0.1552   -2.36
ny:TypeTerrace     -0.673     0.0951   -7.07 1.51e-12 -1.091     0.1515   -7.20
ny:ContHigh         0.106     0.0578    1.84 6.62e-02  0.360     0.0955    3.77

Wobei die ersten 4 Spalten aus dem logarithmischen linearen Modell abgeleitet werden und die zweiten 3 Spalten aus dem Proportional-Odds-Modell stammen.

Dies beantwortet vielleicht die wichtigste Frage: Wie passt man zu einem solchen Modell? Ich denke, es kann verwendet werden, um die relative Annäherung (en) von OPs für seltene Ereignisse an die RRs zu untersuchen.

— AdamO
quelle

Lassen Sie uns Ihre beiden Fragen getrennt beantworten:

Stimmt die "Annahme eines seltenen Ergebnisses" für einen OP zur Annäherung an ein relatives Risiko bei der ordinalen logistischen Regression noch?

Nicht wirklich. Sie haben selbst gesagt, dass Ihre Ergebnisse gleichmäßig auf die vier Kategorien verteilt sind, sodass keine Kategorie besonders selten sein wird.

Wenn ja, ist es möglich, die Verknüpfungsfunktion zu ändern, um ein relatives Risiko direkt abzuschätzen, und ist es dennoch möglich, in einem solchen Fall eine Poisson-Näherung mit robusten Standardfehlern zu verwenden, um Konvergenzprobleme zu lösen?

Sie können, aber es besteht das Risiko, dass die vorhergesagte Wahrscheinlichkeit, in einer Klasse zu sein, größer als 1 ist, wenn Sie Ihr Modell verwenden, um Vorhersagen zu treffen.

Das standardmäßig geordnete Logit-Modell ist zusammen mit der Annahme der proportionalen Quote formuliert. Wir ersetzen lediglich "logit" durch "log", wodurch immer noch ein gültiges Modell mit einer gültigen Wahrscheinlichkeit erstellt wird, das gültige Schätzungen für liefert . Wenn Sie diese jedoch auf reale Daten anwenden, ist es möglich, dass eine Komponente für mehr als eine ist (und da dies außerhalb des Bereichs der Proportional-Odds-Annahme liegt, können Sie sie nicht zum Auffüllen der verbleibenden Daten verwenden Komponenten).

Y_{i} \sim c a t e g o r i c a l (p_{i}); l o g i t (p_{i}) = X β

$Y_i \sim categorical({\bf{p}}_i);logit({\bf{p}}_i) = X\beta$

β

$\beta$

p_{i}

$\bf{p}_i$

Dies kann nicht passieren, wenn Sie Ihr Modell nur verwenden, um die Daten vorherzusagen, für die es trainiert wurde, und ist weniger wahrscheinlich, wenn

Sie haben viele Trainingsdaten
Ihre Trainingsdaten decken alle möglichen Kombinationen von Kovariaten (wenn sie kategorisch sind) oder den gesamten Bereich von Kovariaten (wenn sie numerisch sind) ab.

— JDL
quelle

Ich glaube nicht, dass Sie das richtige Standard-Logit-Modell geschrieben haben. Haben Sie eine Kopie von Agresti oder McCullogh & Nelder? Einverstanden, dass die Annäherung umstritten ist , wenn die Antwortverteilung sogar unter den geordneten Logit-Kategorien liegt. Was aber, wenn die meisten Teilnehmer in der niedrigsten Antwortkategorie zusammengefasst wären?

K

$K$

— AdamO

@AdamO es ist wahrscheinlich nicht die Formulierung, die Sie gewohnt sind, aber es ist äquivalent (solange es Xeinen Abschnitt enthält). Ich habe es gewählt, weil es die Punkte hervorhebt, die für die Frage am relevantesten sind. (Es ist offensichtlich nicht gleichwertig, wenn Sie logit durch log ersetzen, aber diese Formulierung scheint das Beste zu verallgemeinern)

— JDL

Das Prop-Odds-Modell weist wichtige Einschränkungen auf, nämlich, dass der Intercept-Term (nicht dargestellt) für jeden kategorialen Kontrast geordnet ist. Außerdem ist die kategoriale Bezeichnung, aber die modellierte Wahrscheinlichkeit ist die kumulative Wahrscheinlichkeit. Ich kann mit Sicherheit sagen, dass Sie lediglich ein bedingungsloses Logistikmodell geschrieben haben und dies nicht korrekt ist.

Y_{i}

$Y_i$

— AdamO

Diese Einschränkungen werden durch die Annahme der proportionalen Gewinnchancen berücksichtigt. (Ich bin damit einverstanden, dass sie nicht in der von mir angegebenen Gleichung ausgedrückt werden)

— JDL