Ich möchte Zähldaten als Kovariaten verwenden, während ich ein logistisches Regressionsmodell anpasse. Meine Frage ist:
- Verstoße ich gegen eine Annahme der logistischen (und allgemeiner der verallgemeinerten linearen) Modelle, indem ich count, nicht negative ganzzahlige Variablen als unabhängige Variablen verwende?
Ich fand in der Literatur viele Hinweise darauf, wie heiß es ist, Zähldaten als Ergebnis zu verwenden, aber nicht als Kovariaten. siehe zum Beispiel das sehr klare Papier: "NE Breslow (1996) Generalized Linear Models: Überprüfung von Annahmen und Festigung von Schlussfolgerungen, Congresso Nazionale Societa Italiana di Biometria, Cortona, Juni 1995", verfügbar unter http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Es scheint, als könnten glm-Annahmen wie folgt ausgedrückt werden:
- iid Residuen;
- Die Verknüpfungsfunktion muss die Beziehung zwischen abhängigen und unabhängigen Variablen korrekt darstellen.
- Fehlen von Ausreißern
Weiß jeder, ob es eine andere Annahme oder ein anderes technisches Problem gibt, das möglicherweise darauf hindeutet, einen anderen Modelltyp für den Umgang mit Count Covariates zu verwenden?
Schließlich ist zu beachten, dass meine Daten relativ wenige Stichproben (<100) enthalten und dass die Bereiche der Zählvariablen in einer Größenordnung von 3 bis 4 variieren können (dh, einige Variablen haben Werte im Bereich von 0 bis 10, während andere Variablen Werte enthalten können 0-10000).
Es folgt ein einfacher R-Beispielcode:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################