Geeigneter Umgang mit einer dreistufigen Notfalltabelle

12

Ich habe eine dreistufige Kontingenztabelle mit Zähldaten für mehrere Arten, der Wirtspflanze, von der sie gesammelt wurden, und ob diese Sammlung an einem regnerischen Tag stattgefunden hat (das ist tatsächlich wichtig!). Mit R könnten gefälschte Daten ungefähr so aussehen:

count    <- rpois(8, 10)
species  <- rep(c("a", "b"), 4)
host     <- rep(c("c","c", "d", "d"), 2)
rain     <- c(rep(0,4), rep(1,4))
my.table <- xtabs(count ~ host + species + rain)


, , rain = 0

    species
host  a  b
   c 12 15
   d 10 13

, , rain = 1

    species
host  a  b
   c 11 12
   d 12  7

Nun möchte ich zwei Dinge wissen: Sind Arten mit Wirtspflanzen assoziiert? Beeinflusst "Regen oder nicht" diese Assoziation? Früher habe ich loglm()von MASSdafür:

 # Are species independent to host plants, given the effect of rain?
loglm(~species + host + rain + species*rain + host*rain, data=my.table)

 # Given any relationship between host plants and species, does rain change it?
loglm(~species + host + rain + species*host)

Dies liegt etwas außerhalb meines Komfortniveaus und ich wollte überprüfen, ob ich die Modelle richtig eingestellt habe und ob dies der beste Weg ist, um diese Fragen zu beantworten.

r categorical-data log-linear

— david w
quelle

10

Es gibt zwei Möglichkeiten, Ihre erste Frage zu interpretieren, die sich in den beiden von Ihnen gestellten Fragen widerspiegeln: "Werden Arten mit Wirtspflanzen in Verbindung gebracht?"

Die erste Interpretation entspricht einem Modell der gemeinsamen Unabhängigkeit , das besagt, dass Arten und Wirte abhängig sind, aber gemeinsam unabhängig davon, ob es geregnet hat:

$\quad p_{shr} = p_{sh} p_r$

wo die Wahrscheinlichkeit ist , dass eine Beobachtung fällt in die Zelle , in - Indizes Arten, Host - Typ, und regt Wert, ist die Grenzwahrscheinlichkeit des Zelle, in der wir über der kollabieren und die marginale Regenwahrscheinlichkeit ist. $p_{shr}$ $(s,h,r)$ $s$ $h$ $r$ $p_{sh}$ $(s,h,\cdot)$ $p_r$

Die zweite Interpretation entspricht einem Modell der bedingten Unabhängigkeit , das besagt, dass Arten und Wirte unabhängig sind, vorausgesetzt, es hat geregnet:

$\quad p_{sh|r} = p_{s|r}p_{h|r}$ oder $p_{shr} = p_{sr}p_{hr} / p_r$

Dabei ist die bedingte Wahrscheinlichkeit der -Zelle bei einem Wert von . $p_{sh|r}$ $(s,h,r)$ $r$

Sie können diese Modelle in R testen ( loglinwürde auch gut funktionieren, aber ich kenne mich besser aus glm):

count <- c(12,15,10,13,11,12,12,7)
species <- rep(c("a", "b"), 4)
host <- rep(c("c","c", "d", "d"), 2)
rain <- c(rep(0,4), rep(1,4))
my.table <- xtabs(count ~ host + species + rain)
my.data <- as.data.frame.table(my.table)
mod0 <- glm(Freq ~ species + host + rain, data=my.data, family=poisson())
mod1 <- glm(Freq ~ species * host + rain, data=my.data, family=poisson())
mod2 <- glm(Freq ~ (species + host) * rain, data=my.data, family=poisson())
anova(mod0, mod1, test="Chi") #Test of joint independence
anova(mod0, mod2, test="Chi") #Test of conditional independence

Dies mod1entspricht der gemeinsamen Unabhängigkeit und mod2der bedingten Unabhängigkeit, wohingegen dies mod0einem Modell der gegenseitigen Unabhängigkeit entspricht: . Sie können die Parameterschätzungen mit usw. anzeigen. Wie üblich sollten Sie überprüfen, ob die Modellannahmen erfüllt sind. In den von Ihnen angegebenen Daten passt das Nullmodell tatsächlich angemessen. $p_{shr} = p_s p_h p_r$ summary(mod2)

Eine andere Möglichkeit, sich Ihrer ersten Frage zu nähern, besteht darin, Fischers genauen Test ( fisher.test(xtabs(count ~ host + species))) für die reduzierte 2x2-Tabelle (erste Interpretation) oder den Mantel-Haenszel-Test ( mantelhaen.test(xtabs(count ~ host + species + rain))) für 2-schichtige 2x2-Tabellen durchzuführen oder einen Permutationstest zu schreiben, der die Schichtung berücksichtigt (zweite Interpretation).

Um Ihre zweite Frage zu paraphrasieren: Hängt die Beziehung zwischen Art und Wirt davon ab, ob es geregnet hat?

mod3 <- glm(Freq ~ species*host*rain - species:host:rain, data=my.data, family=poisson())
mod4 <- glm(Freq ~ species*host*rain, data=my.data, family=poisson())
anova(mod3, mod4, test=”Chi”)
pchisq(deviance(mod3), df.residual(mod3), lower=F)

Das vollständige Modell mod4ist gesättigt, aber Sie können den fraglichen Effekt testen, indem Sie die Abweichung von mod3wie oben beschrieben betrachten.

— abgesperrt
quelle

Vielen Dank an Lockedoff, der mir vor allem dabei geholfen hat, meine eigenen Überlegungen zum Unterschied zwischen dem bedingten und dem gemeinsamen Unabhängigkeitsmodell zu klären

— david w

1

$host$ $rain$ $host*rain$

Der R-Befehl wäre:

glm (Formel = Spezies ~ Wirt + Regen, Familie = Binomial (logit), Gewichte = Zählimpulse)

$p$

— charles.y.zheng
quelle

1

Die logistische Regression scheint in Ordnung zu sein, es wurde jedoch die zusätzliche Einschränkung der Zeilen- und Spaltensumme behoben. Dies ist bei Poisson-Daten möglicherweise nicht der Fall. Ich glaube, die Antworten werden sich nicht sehr unterscheiden.

— Suncoolsu

1

Anfangs habe ich vorgeschlagen, eine der eingeschränkten Ordinationstechniken aus dem veganPaket auszuprobieren , aber bei einem zweiten Gedanken bezweifle ich, dass dies nützlich wäre, da Sie tatsächlich 2 Kontingenztabellen haben. Ich hoffe, dass der zweite Teil dieses Beispiels [PDF: R Demonstration - Categorical Analysis] hilfreich sein wird.

— ils
quelle

Glaubst du, der Link ist kaputt ? Meintest du diesen kategorischen Link hier ? Das war hilfreich, danke!

— David w

Ja, es scheint, dass der Raum in der URL ihn bricht.

— ils