Wir haben 60 Personen gebeten, so viele Restaurant-Franchise-Unternehmen wie möglich in Atlanta aufzulisten. Die Gesamtliste umfasste über 70 Restaurants, aber wir haben diejenigen eliminiert, die von weniger als 10% der Bevölkerung erwähnt wurden, und haben 45 übrig gelassen. Für diese 45 haben wir den Anteil der Informanten berechnet, die das Franchise aufgelistet haben, und wir sind daran interessiert Modellierung dieses Anteils als Funktion des (logarithmisch transformierten) Werbebudgets der Franchise-Unternehmen und der Jahre seit ihrer Gründung als Franchise-Unternehmen.
Also habe ich diesen Code geschrieben:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Wie vorhergesagt, zeigen beide Variablen starke, signifikante Effekte.
Aber obwohl ich weiß, dass proportionale Daten niemals mit OLS-Regression modelliert werden sollten, habe ich anschließend diesen Code geschrieben:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
In diesem Fall ist "Budget" immer noch ein signifikanter Prädiktor, aber "Jahre" sind relativ schwach und nicht signifikant.
Ich mache mir Sorgen, dass das Vertrauen in die Schätzungen durch die Aggregation künstlich aufgeblasen wird. Vektorisiert das Binomial glm die Daten nicht im Wesentlichen so, dass das Modell auf 45 * 55 = 2.475 Zeilen basiert? Ist das angemessen, da es wirklich nur 45 Restaurants und 55 Informanten gibt? Würde dies eine Modellierung mit gemischten Effekten erfordern?
lm
und glm(...,family=binomial)
, aber einer der wichtigsten ist, dass ein binomialer GLM starke Annahmen über die Varianz macht. Wenn die Daten nicht übermäßig verteilt sind, macht das Aggregieren / Disaggregieren keinen Unterschied.
family=quasibinomial