Untersuchung der Robustheit der logistischen Regression gegen die Verletzung der Linearität des Logits

Ich führe eine logistische Regression mit einem binären Ergebnis durch (Start und nicht Start). Mein Prädiktormix besteht entweder aus kontinuierlichen oder dichotomen Variablen.

Bei Verwendung des Box-Tidwell-Ansatzes verstößt einer meiner kontinuierlichen Prädiktoren möglicherweise gegen die Annahme der Linearität des Logits. Aus den Statistiken zur Anpassungsgüte geht nicht hervor, dass die Anpassung problematisch ist.

Anschließend habe ich das Regressionsmodell erneut ausgeführt und die ursprüngliche kontinuierliche Variable durch Folgendes ersetzt: Erstens eine Quadratwurzeltransformation und zweitens eine dichotome Version der Variablen.

Bei Betrachtung der Ausgabe scheint sich die Anpassungsgüte geringfügig zu verbessern, aber Residuen werden problematisch. Parameterschätzungen, Standardfehler und bleiben relativ ähnlich. Die Interpretation der Daten ändert sich in Bezug auf meine Hypothese in den drei Modellen nicht. $\exp(\beta)$

In Bezug auf die Nützlichkeit meiner Ergebnisse und den Sinn für die Interpretation von Daten erscheint es daher angebracht, das Regressionsmodell unter Verwendung der ursprünglichen kontinuierlichen Variablen zu melden.

Ich frage mich:

Wann ist die logistische Regression robust gegen die mögliche Verletzung der Linearität der Logit-Annahme?
Scheint es angesichts meines obigen Beispiels akzeptabel, die ursprüngliche kontinuierliche Variable in das Modell aufzunehmen?
Gibt es Referenzen oder Anleitungen, die empfohlen werden können, wenn es zufriedenstellend ist zu akzeptieren, dass das Modell robust gegen die mögliche Verletzung der Linearität des Logits ist?

— Kurze Elizabeth
quelle

Die Linearitätsannahme wird in der Regression so häufig verletzt, dass sie eher als Überraschung als als Annahme bezeichnet werden sollte. Wie andere Regressionsmodelle ist das logistische Modell nicht robust gegenüber Nichtlinearität, wenn Sie fälschlicherweise von Linearität ausgehen. Anstatt Nichtlinearität mithilfe von Residuen oder Omnibus-Anpassungstests zu erkennen, ist es besser, direkte Tests zu verwenden. Erweitern Sie beispielsweise kontinuierliche Prädiktoren mithilfe von Regressionssplines und führen Sie einen zusammengesetzten Test aller nichtlinearen Terme durch. Testen Sie die Begriffe noch besser nicht und erwarten Sie nur Nichtlinearität. Dieser Ansatz ist viel besser als das Ausprobieren verschiedener Transformationen mit einer Steigung von Transformationen wie Quadratwurzel, Logarithmus usw., da statistische Inferenzen auftreten, nachdem solche Analysen falsch sind, da die Freiheitsgrade der Zähler nicht groß genug sind.

Hier ist ein Beispiel in R.

require(rms)
f <- lrm(y ~ rcs(age,4) + rcs(blood.pressure,5) + sex + rcs(height,4))
# Fits restricted cubic splines in 3 variables with default knots
# 4, 5, 4 knots = 2, 3, 2 nonlinear terms
Function(f)   # display algebraic form of fit
anova(f)      # obtain individual + combined linearity tests

— Frank Harrell
quelle

Ihre Antwort macht einen fantastischen Sinn - danke! Könnten Sie eine Syntax für SPSS vorschlagen? Ich habe leider keinen Zugang (oder keine Fähigkeiten), um R. zu nutzen

— Short Elizabeth

Es ist definitiv die Zeit wert, R zu lernen, und ich habe viele Handouts im Zusammenhang mit der logistischen Modellierung und dem Effektivwertpaket. Dies wäre in SPSS schwierig.

— Frank Harrell

@FrankHarrell: Die f <- lrm(y ~ ...Zeile gibt einen Fehler aus object 'y' not found- können Sie beheben?

— Arielf

Das ist ein sehr grundlegender R-Fehler, der nicht nur in meinem rmsPaket vorkommt. Nehmen Sie sich etwas Zeit, um R kennenzulernen, und beginnen Sie mit umfangreichem Material für die grundlegende Regressionsfunktion lm.

— Frank Harrell

Die auf den Hilfeseiten der Software integrierten Beispiele simulieren solche Daten. Sehen Sie sich also das gesamte Beispiel im Kontext an. Tun Sie require(rms)dann ?lrmdannexamples(lrm)

— Frank Harrell