01
npk
(nk)pk(1−p)n−k.(1)
Jedes Jahrzehnt kennen wir und diese sind durch die Daten gegeben - aber wir kennen . Wir können es schätzen, indem wir annehmen, dass die logarithmischen Quoten , die entsprechen, linear von Jahr zu Jahr variieren (zumindest in guter Näherung). Dies bedeutet, dass wir davon ausgehen, dass es die Zahlen und so dassnkppβ0β1
log(p)−log(1−p)=β0+β1×Year.
Gleichermaßen
p=11+e−β0−β1Year; 1−p=e−β0−β1Year1+e−β0−β1Year.
Wenn Sie dies in (1) einstecken, haben Sie die Möglichkeit, aus während eines bestimmten Jahres als zu beobachtenknt
(nk)e−(β0+β1t)(n−k)(1+e−(β0+β1t))n.(2)
Unter der Annahme, dass die Proben unabhängig in den Jahren usw. erhalten werden und die entsprechenden und von blauäugigen Probanden als und , ist die Wahrscheinlichkeit der Daten das Produkt der Wahrscheinlichkeiten der einzelnen Ergebnisse. Dieses Produkt ist (per Definition) die Wahrscheinlichkeit von . Wir können diese Parameter als die Werte schätzen , die die Wahrscheinlichkeit maximieren; Entsprechend maximieren sie die Log-Wahrscheinlichkeitt1,t2, niki(β0,β1)(β^0,β^1)
Λ(β0,β1)=∑tlog((nk)e−(β0+β1t)(n−k)(1+e−(β0+β1t))n)(3)
erhalten aus .(2)
(Dies vereinfacht sich erheblich, wenn Logarithmenregeln verwendet werden. Dies ist ein Grund, die Zeit-Verhältnis-Beziehung in Form von Log-Quoten auszudrücken. Wenn alle Proportionen ungefähr zwischen und , gibt es nur einen geringen qualitativen Unterschied zwischen der Verwendung von Wahrscheinlichkeiten oder ihrem Log Gewinnchancen: Die angepasste Kurve ist linear bzw. nahezu linear.)0.20.8p
(3) ist ein binomiales verallgemeinertes lineares Modell . Es muss durch numerische Minimierung von angepasst werden . Das Verfahren in (am Ende dieses Beitrags gezeigt) gibt die LösungΛglmR
(β^0,β^1)GLM=(31.498711,−0.0163568).

Die Daten in dieser Figur sind mit Scheiben aufgetragen, deren Flächen proportional zu den Stichprobengrößen sind. Die GLM-Passform ist krummlinig. Zum Vergleich ist in grau die Zeile dargestellt, die wir erhalten würden, wenn wir die in der Frage angezeigten Daten in einen gewöhnlichen Löser für kleinste Quadrate ausgeben würden. Beide Passungen werden trotz der damals geringen Stichprobengröße durch die größeren Anteile in früheren Jahren beeinflusst. Die GLM-Anpassung kann jedoch die Anteile in den größten Proben, die 1970 und 1980 erhalten wurden, besser approximieren. Die gepunktete blaue Linie wird nachstehend beschrieben.(Year,Proportion)
Durch Hinzufügen eines quadratischen Terms können wir die Anpassungsgüte testen. Es verbessert die GLM-Anpassung erheblich (obwohl der Unterschied optisch nicht groß ist) und liefert den Beweis, dass dieses Modell die Variation der Ergebnisse nicht gut beschreibt. Ein Blick auf die Darstellung zeigt, dass das Ergebnis im Jahr 1990 viel niedriger war als vom Modell vorhergesagt.
Ein alternativer, aber vergleichbarer Ansatz besteht darin, für jedes Jahr einzeln zu schätzen , möglicherweise als (obwohl andere Schätzer möglich sind). Eine lineare Regression der logarithmischen Quoten dieser Schätzungen gegenüber dem Jahr, gewichtet mit den Stichprobengrößen oder der Regression der gewichteten kleinsten Quadrate, ergibtptiki/nini
(β^0,β^1)WLS=(36.12744,−0.018706).
Die Standardfehler dieser Schätzungen betragen bzw. , was darauf hinweist, dass sich die WLS-Schätzungen nicht wesentlich vom Binomial-GLM unterscheiden. (Die Standardfehler des GLM sind jedoch erheblich kleiner: Es "weiß", dass diese Stichprobengrößen ziemlich groß sind, während die lineare Regression überhaupt nichts über die Stichprobengrößen "weiß": Es gibt nur eine Folge von zehn separaten Beobachtungen.) Beachten Sie, dass dies der Fall ist Eine Alternative ist möglicherweise nicht verfügbar, wenn oder , es sei denn, ein anderer Schätzer der Wahrscheinlichkeiten wird verwendet (der keine Werte von oder ).15.550.00787ki=niki=001
Schließlich könnten wir einfach eine gewichtete Regression der kleinsten Quadrate der Rohwahrscheinlichkeitsschätzungen gegenüber dem Jahr durchführen, die umgekehrt durch eine Schätzung der Stichprobenvarianz gewichtet wird. Die Varianz einer Binomialverteilung Variable , Wieder ausgedrückt als Verhältnis ist . Das kann aus einer Stichprobe als geschätzt werdenk/n(n,p)XX/np(1−p)/n
p(1−p)n≈knn−kn/n=k(n−k)n3.
Das Ergebnis erscheint in der Abbildung als gepunktete blaue Linie. In diesem Fall scheint es einen Kompromiss zwischen den GLM- und OLS-Anpassungen zu geben.
Der folgende RCode führte die Analysen durch und erzeugte die Figur.
year <- seq(1910, 2000, by=10)
total <- c(40, 200, 7, 3, 1, 14, 5000, 7000, 150, 500) * 10
blue <- c(250, 1000, 40, 14, 4, 52, 15400, 22000, 80, 800)
X <- data.frame(Year=year, Success=blue, Failure=total-blue,
Proportion=blue/total, Total=total)
#
# GLM
#
fit <- glm(cbind(Success, Failure) ~ Year, X, family="binomial")
summary(fit)
#
# WLS of the log odds (an alternative)
#
fit.WLS <- lm(log(Success/Failure) ~ Year, X, weights=Total)
summary(fit.WLS)
#
# Plot the results.
#
X.more <- data.frame(Year=1901:2010)
X.more$Prediction <- predict(fit, X.more, type="response")
plot(X$Year, X$Proportion, ylim=0:1,
type="p", pch=21, bg="Red", cex=sqrt(X$Total/2000),
xlab="Year", ylab="Proportion",
main="GLM and OLS Fits", sub="GLM: solid line; OLS: dotted line")
lines(X.more, lwd=2)
abline(lm(Proportion ~ Year, X),
lty=3, lwd=3, col="Gray") #The OLS fit
abline(lm(Proportion ~ Year, X, weights=Total^3/(Success*Failure)),
lty=3, lwd=3, col="Blue") #The weighted OLS fit to the proportions