Wir haben Daten mit einem binären Ergebnis und einigen Kovariaten. Ich habe die Daten mithilfe der logistischen Regression modelliert. Nur eine einfache Analyse, nichts Außergewöhnliches. Die endgültige Ausgabe soll eine Dosis-Wirkungs-Kurve sein, in der wir zeigen, wie sich die Wahrscheinlichkeit für eine bestimmte Kovariate ändert. Etwas wie das:
Wir erhielten einige Kritik von einem internen Gutachter (kein reiner Statistiker) für die Wahl der logistischen Regression. Die logistische Regression nimmt an (oder definiert), dass der Wendepunkt der S-förmigen Kurve auf der Wahrscheinlichkeitsskala bei einer Wahrscheinlichkeit von 0,5 liegt. Er argumentierte, dass es keinen Grund geben würde anzunehmen, dass der Wendepunkt tatsächlich bei einer Wahrscheinlichkeit von 0,5 liegt, und wir sollten ein anderes Regressionsmodell wählen, das es dem Wendepunkt ermöglicht, so zu variieren, dass die tatsächliche Position datengesteuert ist.
Zuerst war ich von seiner Argumentation überrascht, da ich nie über diesen Punkt nachgedacht habe. Ich hatte keine Argumente dafür, warum es gerechtfertigt wäre anzunehmen, dass der Wendepunkt bei 0,5 liegt. Nach einigen Recherchen habe ich immer noch keine Antwort auf diese Frage.
Ich bin auf eine logistische Regression mit 5 Parametern gestoßen, für die der Wendepunkt ein zusätzlicher Parameter ist, aber es scheint, dass dieses Regressionsmodell normalerweise verwendet wird, wenn Dosis-Wirkungs-Kurven mit einem kontinuierlichen Ergebnis erstellt werden. Ich bin nicht sicher, ob und wie es auf binäre Antwortvariablen erweitert werden kann.
Ich denke, meine Hauptfrage ist, warum oder wann es in Ordnung ist anzunehmen, dass der Wendepunkt für eine logistische Regression bei 0,5 liegt. Ist es überhaupt wichtig? Ich habe noch nie jemanden gesehen, der ein logistisches Regressionsmodell angepasst und die Frage des Wendepunkts explizit diskutiert hat. Gibt es Alternativen zum Erstellen einer Dosis-Wirkungs-Kurve, bei der der Wendepunkt nicht unbedingt bei 0,5 liegt?
Der Vollständigkeit halber der R-Code zur Erzeugung des obigen Bildes:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Bearbeiten 1:
Um nur zu dem hinzuzufügen, was Scortchi in einem der Kommentare gesagt hat: Der Rezensent argumentierte tatsächlich, dass es biologisch wahrscheinlicher sein könnte, dass die Änderung der Krümmung früher als 0,5 auftritt. Daher sein Widerstand gegen die Annahme, dass der Wendepunkt bei 0,5 liegt.
Bearbeiten 2:
Als Reaktion auf den Kommentar von Frank Harrell:
Als Beispiel habe ich mein Modell oben so modifiziert, dass es einen quadratischen und einen kubischen Term enthält gre
(in diesem Beispiel die "Dosis").
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Trotz der Tatsache, dass es gre
in diesem Fall wahrscheinlich nicht sinnvoll ist, einen quadratischen und einen kubischen Term hinzuzufügen , sehen wir, dass sich die Form der Dosis-Wirkungs-Kurve geändert hat. In der Tat haben wir jetzt zwei Wendepunkte bei etwa 0,25 und nahe 0,7.